就是依靠单一的外部动力源文字转WAV音频