他们原先准备好的台词是文字转WAV音频