我认为这个理论是通的文字转WAV音频