最关键的能力在于文字转WAV音频