而是希望能以完整的状态也就是真正的活人文字转WAV音频