可依照他们的自我定位文字转WAV音频