协作状态深度为三层文字转WAV音频