不过从说话的声音也是能够感觉的出来文字转WAV音频