在脑中构建出一个大致的模型文字转WAV音频