他们还是会回归到自然文字转WAV音频