实际上是附属文字转WAV音频