毕竟在内场文字转WAV音频