毕竟每天的观影员都是有十二个文字转WAV音频