大概描述了来源和自身的猜测文字转WAV音频