完全是建立在通过之前观察和猜测文字转WAV音频