他更倾向于第一种文字转WAV音频