显然虽然两人直接文字转WAV音频