甚至可以说是理论上最正确的选择文字转WAV音频