最主要是因为恩斯特并不认为那算是帮忙文字转WAV音频