因为他要看清人质此时的状态文字转WAV音频