最后汇总到正中间的顶部文字转WAV音频