大部分观众看的都是2d版本文字转WAV音频