实际上只用了半沓文字转WAV音频