不过两者的原理似乎是共通的文字转WAV音频