当听清楚那对话的内容时文字转WAV音频