并改良了镜头文字转WAV音频