因为并非实景拍摄文字转WAV音频