他也能估测出文字转WAV音频