所以现在这里几乎就是听他们的文字转WAV音频