所以一些关键的数据是提前准备好的文字转WAV音频