他也只能如实回答文字转WAV音频