我们不得不考虑那个可能文字转WAV音频