只会根据他的行为步步应对文字转WAV音频