可以说是在某个特殊的区域文字转WAV音频