从一开始就走的很稳健的好处就是文字转WAV音频