只把它们当成变成原型的普通人类文字转WAV音频