他考虑问题的出发点是好的文字转WAV音频