其实镜头已经转换了文字转WAV音频