整体质量是逊色于文字转WAV音频