此时他们两个的目标都是一长老文字转WAV音频