这个时候就是需要有一个捧哏的把话头起开文字转WAV音频