好像是多方妥协的结果文字转WAV音频