然而这个状态显然过于理想化文字转WAV音频