主要是建筑群的上方文字转WAV音频