实质上是把谢家人当做人质文字转WAV音频