更多采用的是一种半强迫的行为文字转WAV音频