重复了之前的过程包裹第二层文字转WAV音频