而是直接从时间阵法中出来文字转WAV音频