场景是在地铁里文字转WAV音频