他们是依赖于主干而存的文字转WAV音频