所以往往以最真实状态对人文字转WAV音频