在混乱的场面中马上辨识一个人文字转WAV音频