因为他知道以现在的状态文字转WAV音频