似乎是在组织语言文字转WAV音频