就像是一个小模型文字转WAV音频