而且大部分靠外部供给文字转WAV音频