应该是后者的可能性比较大文字转WAV音频