而每一次都要根据远近和位置文字转WAV音频