便需要确定所有参照物的位置文字转WAV音频