配合讲演者说话逐渐变得能理解文字转WAV音频