在这种情况下要凝聚出世界核心文字转WAV音频