这样到最后人质终归还是要文字转WAV音频