因为两人都是在做出目前最正确的选择文字转WAV音频