至少从理论上来看要简单得多文字转WAV音频