所以他现在看到的就是最本质的现实文字转WAV音频