他们至少应该知道自己面对的是谁文字转WAV音频