剩下的就是他们自己去维持了文字转WAV音频