但他们已经将其当成平级存在文字转WAV音频