是后者主动要求的文字转WAV音频