所以按照我的分析有两个可能文字转WAV音频