而是主动要求去文字转WAV音频