我感觉他似乎倾向于要区别对待文字转WAV音频