第三种是任务文字转WAV音频