实际行为还是保守文字转WAV音频