前面的是模拟我原主人的文字转WAV音频