使用的是模型和镜头内特效文字转WAV音频