他怎么可能理解我们文字转WAV音频