所以在初始阶段文字转WAV音频