보기
로보틱스 세미나 · 공간지능/SLAM

공간 인식과 지능: 슬램에서 로봇 메모리까지
Spatial AI for Robotics — SLAM, 3D Foundation Models, Memory & VLN (Giseop Kim, HY-ERICA)

영어 강의를 듣기 전에 읽는 예습 자료입니다. 왼쪽 슬라이드를 보며 오른쪽 설명을 읽어보세요. 슬라이드를 클릭하면 크게 볼 수 있습니다.

핵심 요약

이 강의는 로봇이 공간을 인식하고 사람과 자연어로 소통하며 길을 찾도록 만드는 연구 전반을, 전통적 슬램에서 파운데이션 모델 시대의 새 기술 스택으로 옮겨가는 흐름으로 설명합니다.

두 개의 큰 연구 축

① 전 세계 공간을 롱텀으로 관리하는 매핑(슬램)과 ② 사람과 자연어로 소통하며 암묵적 의도까지 추론하는 피지컬 AI. 강연자는 자신의 스페셜티를 '슬램'으로 규정하고 두 축을 연결합니다.

슬램의 기초와 한계

위치추정(Localization)과 지도작성(Mapping)을 동시에 수행하는 것이 슬램입니다. 결과물은 보통 점군(Point Cloud) 지도지만, 캠퍼스 전체처럼 넓은 공간에서는 드리프트와 맵 관리 문제가 남습니다.

파운데이션 모델이 바꾼 기술 스택

Mark Walter의 정리를 빌려, 실시간 오도메트리 등 많은 모듈이 VLM 리즈닝으로 상향 흡수되었습니다. 바뀐 핵심은 글로벌 매핑, 인식(VLM), 플래닝/컨트롤 세 영역입니다.

3D 파운데이션 모델 & 멀티로봇

DUSt3R류의 피드포워드 점지도 추정 모델이 등장해 캘리브레이션 없이도 3D 복원이 가능해졌고, 강연자 랩은 이를 멀티로봇으로 확장(좌표/스케일 정렬)해 IROS에 발표했습니다.

메모리와 RAG 기반 질의응답

로봇의 주행 경험을 비디오 요약 VLM으로 텍스트화하고 포즈·시간 메타데이터를 붙여 JSON DB로 만든 뒤, RAG로 '엘리베이터 어디야?' 같은 질문과 롱텀 질문에 답하게 합니다(ReMEmbR 계열).

VLN/VLA와 남은 과제

지시·지도·현재 이미지를 토큰화해 행동을 내는 End-to-End 내비게이션(VLA)이 등장했지만, 데이터 부족·충돌 회피·일반화에서 갈 길이 멉니다. 텍스트 기반 라이다 장소 인식 같은 모달리티 매칭도 과제입니다.

로봇이 공간을 '점군'이 아니라 '기억'으로 다루며 사람과 자연어로 소통해 길을 찾게 만드는 것 — 슬램에서 파운데이션 모델·메모리·VLN으로 이어지는 공간지능 연구의 지형도.
Part 1슬라이드 1~3

01도입: 연구자 소개와 두 가지 비전

slide 1
슬라이드 1 · 발표 제목과 발표자
slide 2
슬라이드 2 · 김기섭 교수 소개
slide 3
슬라이드 3 · APRL 연구실 구성원
슬라이드 내용 정리

발표 제목은 "메모리 증강 공간지능 기반 자율 로봇 내비게이션"입니다. 발표자는 DGIST 로봇및기계전자공학과 조교수 김기섭(gsk@dgist.ac.kr)이며, 발표 일자는 2026.04.02입니다.

교수님 설명

오늘 세미나는 약 2시간 분량으로 진행되며, 주제는 '메모리(memory)'를 키워드로 한 공간 인식·지능 연구입니다. 교수님은 자신이 현재 수행하는 연구가 크게 공간 인식과 지능(spatial perception & intelligence)에 닿아 있다고 운을 띄웁니다.

또한 이 분야 연구에 관심 있는 석사·박사 지원자를 적극적으로 모집하고 있다는 점을 강조하며, 앞으로 5년가량 이 방향으로 연구를 끌고 갈 계획이니 관심 있으면 연락을 달라고 청합니다.

슬라이드 내용 정리

발표자 약력입니다. Giseop Kim은 자율·인지 로봇 연구실 APRL(Autonomy and Perceptual Robotics Lab, 로봇인식 및 자율화 연구실)의 책임자(PI)이며, 이력은 다음과 같습니다 — DGIST(2024–현재), NAVER LABS(2022–2024), 박사학위(2022, KAIST).

교수님 설명

교수님은 KAIST에서 박사학위를 받은 뒤 네이버랩스(NAVER LABS)에서 근무했고, 그곳에서 자신이 직접 진행한 연구 경험이 있습니다. 현재는 DGIST에서 연구실을 이끌며 여러 석사 과정 학생들과 함께 일하고 있습니다.

전공·전문성을 묻는다면 한마디로 SLAM(슬램, Simultaneous Localization and Mapping)이라고 답할 수 있다고 스스로를 소개합니다. 즉 '하고 싶은 연구'와 '잘하는 연구'를 구분하자면, 잘하는 쪽은 SLAM이라는 것입니다.

보충 설명

SLAM은 로봇이 미지의 공간을 돌아다니며 지도를 만드는 일(mapping)그 지도 안에서 자기 위치를 추정하는 일(localization)을 동시에 푸는 기술입니다. 자율주행차·청소로봇·드론 등 '스스로 움직이는' 거의 모든 로봇의 기반이 되는 핵심 분야로, 이번 세미나의 출발점이자 발표자의 본업입니다.

슬라이드 내용 정리

APRL(Autonomy and Perceptual Robotics Lab) 연구실 소개 슬라이드입니다. 지도교수(Faculty)는 Giseop Kim, Ph.D.로, DGIST 로봇및기계전자공학과 조교수이자 물리AI 센터·인공지능학과·기초학부 등에 겸임으로 소속되어 있습니다. 현재 구성원(Current Lab Members)으로 전임 연구원(Full-time Researchers)과 박사후연구원(Postdoc), 석·박사 과정생, 그리고 학부 인턴(Undergraduate Interns)이 소개되어 있으며, 인턴 연구 주제로 4D 매핑/지능형 로봇 탐사, VLA exploration 등이 적혀 있습니다.

교수님 설명

교수님은 현재 자신이 하고 싶은 연구를 두 개의 큰 주제로 정리합니다. ① 매핑(mapping) — 즉 SLAM입니다. 흔히 "SLAM은 이미 다 끝난 분야"라고들 하지만, 실제로 전 세계 모든 공간을 다 매핑할 수 있는 수준에는 한참 못 미친다고 지적합니다. 가령 캠퍼스 전체를 로봇 3대로 3일 만에 다 매핑하는 것 같은 일은 여전히 어려운 문제이고, 무엇보다 한 번 만든 공간 정보를 롱텀(long-term)으로 계속 관리·갱신하는 것이 핵심 난제라고 봅니다.

또한 SLAM의 결과물을 단순히 포인트 클라우드(point cloud)로만 생각하는 관행에도 의문을 던집니다. 사람은 포인트 클라우드 없이도 공간 정보를 갱신하고 내비게이션을 하는데, 굳이 공간 표현을 포인트 클라우드로 두어야 할 이유가 있는지 — 공간 정보의 표현(representation) 자체를 어떻게 새롭게 할지를 고민하겠다는 것입니다.

보충 설명

두 번째 주제는 요즘 화두인 피지컬 AI(Physical AI)입니다. 다만 교수님은 모방학습(imitation learning)으로 사람의 손동작을 정밀 복제하는 '조작(manipulation)'보다, 지능 레벨에서의 피지컬 AI — 즉 사람이 자연어로 로봇과 소통하는 쪽이 더 중요하다고 봅니다. 그 무대로 가장 잘 맞는 과제가 길 찾기(내비게이션)입니다.

여기서 '소통'은 단순히 자연어 문장을 입력받는 것이 아닙니다. 그건 카카오톡 메시지를 키보드로 치는 것과 다를 바 없죠. 진짜 소통은 로봇이 사람의 말투·표정·몸짓을 읽고 의도를 추론하는 것입니다. 사람끼리는 기반 지식이 있어 다섯 문장이면 길 안내가 끝나지만, 현재의 VLA(Vision-Language-Action) 모델은 그런 식의 암묵적·축약적 대화를 하지 못합니다. 이런 문제의식이 뒤에 이어질 '소셜(social) 내비게이션', 로봇 간 정보 공유(coordinate 정렬·이종 카메라 보정), 사람에게 되묻고 답을 들어 정보를 개선하는 시나리오로 확장됩니다.

Part 2슬라이드 4~6

02동기 시나리오: 사람의 의도를 읽는 멀티로봇

slide 4
슬라이드 4 · 향후 5년 목표와 APRL 진행 프로젝트
slide 5
슬라이드 5 · 사람-로봇 협력 내비게이션 만화
slide 6
슬라이드 6 · IROS2025 Best Poster Award
슬라이드 내용 정리

제목은 Final Goal of Next 5 years, 세 번째 항목으로 "현재 APRL에서 진행 중인 프로젝트 이해하기"입니다.

거시적으로는 연구실의 Research 페이지에 적힌 연구 분야 설명을 먼저 이해하라고 안내하고, 구체적으로는 2025~2029년 향후 5년 동안 함께 풀어갈 질문들을 제시합니다. 예시로 ① DGIST의 약 310m에 달하는 건물 전체를 디지털 트윈(digital twin)으로 만들어 로봇이 자율적으로 돌아다니며 공간을 이해하고, 그 공간 정보를 어떻게 표현·저장할 것인가, ② 로봇이 자연어 대화로 사람처럼 길 안내를 하려면 어떻게 할 것인가, ③ 멀티 로봇(multi-robot)이 정보를 자유롭게 공유하려면 어떻게 할 것인가가 나열됩니다. 그리고 이 모든 목표의 기반으로 SLAM 2.0을 언급합니다.

교수님 설명

공간 정보가 장기적으로(long-term) 관리되어야 하는데, 기존 연구는 SLAM 결과물을 그냥 포인트 클라우드(point cloud)로만 생각하는 경우가 많다고 지적합니다. 사람은 포인트 클라우드 없이도 공간을 이해하고 정보를 갱신하며 내비게이션하는데, 과연 지도가 꼭 포인트 클라우드여야 하는지 — 공간 정보 표현 자체를 새롭게 고민해 보자는 것이 첫 번째 방향입니다.

두 번째는 요즘 화두인 피지컬 AI(Physical AI)입니다. 단순히 모방 학습(imitation learning)으로 사람 동작을 정밀 복제하는 조작보다, 교수님은 지능 레벨에서 사람과 자연어로 소통하는 로봇이 더 중요하다고 봅니다. 그 관점에서 가장 잘 어울리는 태스크가 길 찾기입니다. 사람끼리는 기반 지식이 있어 "○○역까지 가서…" 식으로 다섯 문장만 말해도 알아듣지만, 지금의 VLA(Vision-Language-Action) 모델은 그런 식으로 소통하지 못한다는 한계가 있습니다.

세 번째로, 자연어 소통은 단순히 텍스트를 입력하는 게 아닙니다(그럴 거면 카톡을 치면 됩니다). 로봇이 내 앞에 있을 때의 톤·표정 같은 비언어적 신호까지 읽어 의도를 파악하는 것이 진짜 소통인데, 이런 연구는 아직 거의 안 되어 있고 HRI(인간-로봇 상호작용) 분야에서도 파운데이션 모델 등장 전에는 기술적으로 어려웠던 주제라고 설명합니다.

보충 설명

디지털 트윈은 실제 건물·공간을 가상에 그대로 복제한 디지털 모형으로, 로봇이 그 안에서 위치를 잡고 계획을 세우는 토대가 됩니다. VLA는 카메라 영상(Vision)과 언어(Language)를 받아 로봇 행동(Action)을 출력하는 최신 로봇 AI 모델 계열을 가리킵니다. 교수님의 문제의식은 "이런 모델들이 사람처럼 적은 단서만으로 맥락을 채워 행동할 수 있는가"입니다.

슬라이드 내용 정리

목표를 한 문장으로 요약하면 "Human-like Collaborative Navigation with Robot-Robot / Robot-Human Interactions"(사람처럼 협력하며, 로봇-로봇·로봇-사람 상호작용으로 길 안내)입니다.

아래 만화의 제목은 "Memory-Augmented Spatial AI for Autonomous Mobility"이고, 오른쪽 위에 Multi-Hypothesis Problem(여러 가능성을 동시에 추론하는 문제)이라는 주석이 붙어 있습니다. 짐을 끄는 사람, 그 의도를 추론하는 로봇, 계단/엘리베이터가 있는 공간, 로봇끼리 정보를 공유하고 사람에게 경로를 확인하는 장면들이 칸별로 그려져 있습니다.

교수님 설명

앞서 말한 세 가지를 모두 담아 만든 만화입니다. 사람이 짐을 잔뜩 끌고 와 힘들어하며 명시적 지시 없이 혼잣말만 하는데, 지나가던 로봇이 그 상태와 의도를 추론합니다("짐이 많고 힘들어하니 다른 곳으로 데려가려는구나"). 로봇은 공간 지식이 있어 계단·엘리베이터가 있는 환경을 어떻게 헤쳐 나갈지 알고 있습니다. 여기서 기존 SLAM의 한계가 드러납니다 — 지도가 정적인 포인트 클라우드로만 박혀 있거나, "저 벽은 엘리베이터다" 식의 시멘틱(semantic)이 하드코딩되어 있으면 실제 상황(엘리베이터가 붐비는 등)에서는 도움이 안 됩니다. 로봇이 실시간으로 환경을 보면서 시멘틱을 인식해야 한다는 것이죠.

그런데 로봇 한 대가 커버할 수 있는 범위는 넓지 않습니다(예: 다리형 로봇은 계단을 못 가기도 함). 그래서 로봇들끼리 정보를 공유(share)해야 하는데, 이때 좌표계 정렬(coordinate alignment), 서로 다른 카메라 화소·화질 보정 같은 여러 챌린지를 극복해야 합니다. 마지막으로 로봇이 사람에게 "저기로 가도 괜찮아?"라고 물어보고 그 대답을 들어 정보를 개선해 나갑니다. 사람이 의도를 정확히 밝히지 않았으니 최단 경로가 곧 정답이 아닐 수 있고, 그래서 질문-응답으로 보완하는 모습을 그린 것입니다. 이렇게 하면 인간의 암묵적 지시를 이해한다고 볼 수 있고, 그 과정에서 자연스럽게 떠오르는 키워드가 '소셜(social)'입니다.

보충 설명

Multi-Hypothesis Problem이란, 사람이 의도를 분명히 말하지 않았기 때문에 로봇이 "엘리베이터로 갈 수도, 계단으로 갈 수도, 다른 출구일 수도 있다"는 여러 가설을 동시에 유지하다가 관찰·대화를 통해 좁혀 가야 한다는 뜻입니다. 이런 흐름이 곧 소셜 내비게이션(social navigation) — 단순 최단경로가 아니라 사람의 상태·의도·사회적 맥락을 고려해 길을 안내하는 연구 분야로 이어집니다.

슬라이드 내용 정리

제목은 Related Awards이며, 항목은 "Best poster award at Human-aware Embodied AI, IROS2025"입니다. 아래에는 학생들과 함께 상장을 든 단체 사진이 실려 있습니다.

교수님 설명

원래 교수님은 SLAM 위주의 연구를 해 와서 '소셜'은 잘 모르는데, 학생이 "저는 소셜 안 하고 싶다"고 했지만 결국 이 주제로 밀어붙였더니 IROS2025의 Human-aware Embodied AI 워크숍에서 Best Poster Award를 받게 됐다고 소개합니다.

앞서 (국내) 로봇학회에서는 발표 시간이 8분밖에 없어 충분히 다루지 못했지만, 오늘 강연에서는 이 주제를 좀 더 구체적으로 이야기할 수 있을 것 같다고 말합니다. 그러면서 "방금까지는 제가 하고 싶은 연구를 말한 것이고, 그렇다면 내가 실제로 잘하는 것(specialty)은 무엇이냐"며 자신의 전문 분야인 SLAM으로 이야기를 넘깁니다.

Part 3슬라이드 7~9

03슬램의 기초: 로컬리제이션과 매핑

slide 7
슬라이드 7 · 수상 이력 — KRoC 2026 신진연구자
slide 8
슬라이드 8 · COLMAP — 이미지만으로 오프라인 3D 복원
slide 9
슬라이드 9 · Google Cartographer — 2D 라이다 실시간 매핑
슬라이드 내용 정리

Related AwardsKRoC 2026 수상. 사진은 제21회 한국로봇종합학술대회 발표 장면으로, 발표 제목은 "메모리 증강 공간지능 기반 자율 로봇 내비게이션", 발표자는 김기섭(DGIST, gskim@dgist.ac.kr). 오른쪽 표는 신진연구자(young researcher) 수상자 명단으로, 발표자 본인이 포함되어 있습니다.

교수님 설명

앞 섹션에서 다룬 "사람의 암묵적 지시를 이해하는 로봇"이라는 주제가 결국 소셜(social)이라는 키워드로 이어졌고, 원래는 해석(슬램) 쪽을 주로 하던 본인이 학생의 권유로 이 방향 연구를 진행했다고 합니다. 그 결과 이 주제로 한국로봇학회(KROS) 학술대회에서 신진연구자 상을 받게 되었습니다.

당시 학회 발표는 8분 정도로 시간이 짧아 충분히 다루지 못했는데, 오늘 강연에서는 같은 내용을 더 구체적으로 설명하겠다는 맥락입니다. 그러면서 "하고 싶은 것" 말고 "내가 잘하는 것(specialty)"이 무엇이냐 하면 바로 슬램(SLAM)이라고 소개하며 본론으로 넘어갑니다.

슬라이드 내용 정리

SLAMCOLMAP (CVPR 2016, Structure-from-Motion Revisited). 건물 주위를 타원형으로 둘러싼 빨간색 표식들이 카메라(로봇)의 위치·자세이고, 가운데 흩어진 점들이 3D 점군(point cloud)으로 복원된 건물 지도입니다. 지도가 XYZ 3차원 포인트로 표현되어 있습니다.

교수님 설명

슬램의 정의를 이 그림으로 설명합니다. 빨간색이 모두 로봇의 위치와 자세(pose)이고, 중앙의 점들이 우리가 흔히 말하는 맵(map)입니다. 포즈를 예측하는 것을 로컬리제이션(localization), 맵을 예측하는 것을 매핑(mapping)이라 하며, 이 둘을 동시에 한다고 해서 SLAM(Simultaneous Localization And Mapping)이라 부릅니다.

이 결과물은 어떻게 만들어질까요? 폴더에 이미지들을 이름순(1, 2, 3 …)으로 넣기만 하면, 그 이미지들만으로 이런 3D 복원이 만들어집니다. 이미지만 쓰기 때문에 문제 자체는 훨씬 어렵지만, 대신 시간이 충분히 주어지고 오프라인(offline)에서 천천히 수행한다는 특징이 있습니다.

보충 설명

COLMAP은 여러 장의 사진에서 카메라가 어디서 찍혔는지(포즈)와 3D 구조(점군)를 동시에 복원하는 SfM(Structure-from-Motion) 기법의 대표 도구입니다. "오프라인"이란 모든 이미지를 모아 놓고 한꺼번에, 시간을 들여 가장 정확한 답을 찾는 방식이라는 뜻으로, 로봇이 움직이며 실시간으로 처리해야 하는 다음 슬라이드의 방식과 대비됩니다.

슬라이드 내용 정리

SLAMGoogle Cartographer (2016). 2D 라이다 스캔을 쌓아 만든 점유 격자 지도(occupancy grid map)입니다. 흰색은 자유 공간(비어 있어 지나갈 수 있는 곳), 검은색은 장애물(벽), 회색은 아직 관측하지 못한 미지의 영역이며, 가운데에 로봇과 이동 경로가 표시되어 있습니다.

교수님 설명

앞의 COLMAP과 반대되는 사례입니다. 여기서 초록색은 2D 라이다(LiDAR) 스캔이고, 이 스캔을 쌓아 가면 지도를 실시간으로 만들 수 있습니다. 흰색은 자유 공간, 검은색은 장애물, 회색은 미지의 영역이라, 로봇은 어디가 뚫려 있어 나아갈 수 있는지, 어디를 아직 탐사해야 하는지를 스스로 알 수 있게 됩니다.

이 기술은 이미 로봇청소기에 들어가 있습니다. 샤오미 청소기 앱을 보면 우리 집 지도와 함께 청소기가 어떤 경로(파란 선)로 다녔는지까지 나오는데, 이는 위치 추정과 매핑(loop closing 포함)이 동시에 돌기 때문입니다. 더 대중화된 예로, 별도 센서 없이 아이폰의 라이다 센서와 애플의 ARKit만으로 건물 한 층을 매핑한 결과도 보여 줍니다. 긴 거리를 돌아 출발점으로 왔는데 시작점과 끝점의 차이(누적 오차)가 1m도 안 될 만큼 작았고, 루프 클로징(loop closing)을 적용하면 그 오차마저 더 줄일 수 있습니다.

결론적으로 슬램의 표면적 출력물은 지도이며, 전통적으로는 점군(point cloud)으로 표현됩니다. 지도가 한 번 만들어지면 그 다음부터는 지도를 다시 만들기보다 그 지도 안에서 내 포즈만 정밀하게 수정하는 일이 중요해집니다. 위치를 1~2cm 단위로 정확히 알면 부딪히지 않고 다닐 수 있어, 공장이나 항만 컨테이너 하역처럼 정밀 제어가 필요한 환경에서 특히 유용합니다.

보충 설명

점유 격자 지도는 공간을 바둑판처럼 칸으로 나눠 각 칸이 "비었다/막혔다/모른다"로 분류된 지도입니다. 루프 클로징은 로봇이 예전에 왔던 곳에 다시 도착했음을 인식해, 그동안 조금씩 쌓인 위치 오차를 한꺼번에 보정하는 기법으로, "한 바퀴 돌아왔는데 시작점과 거의 일치"하는 결과를 만들어 줍니다.

Part 4슬라이드 10~12

04실시간 매핑 사례: 점유격자·로봇청소기·아이폰 라이다

slide 10
슬라이드 10 · SLAM — 2D 점유격자 지도
slide 11
슬라이드 11 · DGIST 캠퍼스 LiDAR SLAM (sonnet.ai 협업)
slide 12
슬라이드 12 · 전통적 자율주행 내비게이션 스택 (Marco Hutter, IROS2025)
슬라이드 내용 정리

제목은 SLAM. 어두운 배경 한가운데에 희미한 격자 모양 평면이 떠 있는데, 이는 라이다(LiDAR)로 만든 2D 점유격자 지도(occupancy grid map)를 시각화한 것입니다. 하단 자막은 DGIST E5 (RME Building) — 실제 건물에서 만든 지도라는 표시입니다.

교수님 설명

핵심 메시지는 "지도는 한 번만 만들면 된다"는 것입니다. 일단 지도가 생기고 나면, 그 다음부터는 새 지도를 다시 만드는 게 아니라 이미 있는 지도 위에서 내 포즈(pose, 위치·자세)만 보정하는 작업을 하고 싶다는 거죠. 즉 매핑(mapping)에서 로컬리제이션(localization, 위치추정)으로 관심이 옮겨갑니다.

왜 위치를 정밀하게 알아야 하느냐면, 내 위치를 정확히 알수록 로봇이 좁은 공간을 1~2cm조차 안 부딪히고 통과할 수 있기 때문입니다. 물론 사람이 다니는 방식은 아니지만, 공장이나 항만에서 컨테이너를 하역하는 것처럼 정밀 제어가 필요한 현장에서는 이런 cm 단위 정밀 위치추정이 반드시 필요합니다.

보충 설명

점유격자 지도(occupancy grid)는 공간을 바둑판처럼 작은 칸으로 나누고, 각 칸이 "비어 있다 / 장애물로 막혀 있다"를 확률로 기록한 지도입니다. SLAM은 지도와 위치를 동시에 추정하지만, 이미 만들어 둔 사전지도가 있으면 매핑은 생략하고 로컬리제이션만 하면 됩니다 — 그래서 훨씬 가볍고 정밀해집니다.

슬라이드 내용 정리

제목 Autonomous Robot Navigation, 부제는 Collaboration with sonnet.ai. 화면은 DGIST 캠퍼스의 LiDAR SLAM 결과입니다. 흰색은 사전에 구축해 둔 지도(캠퍼스 도로망), 빨강·주황색은 로봇이 실시간으로 받고 있는 라이다 포인트입니다. 자막: LiDAR SLAM at DGIST / Collaboration with sonnet.ai.

교수님 설명

앞 슬라이드의 개념을 실제 SLAM 비주얼라이저(visualizer)로 보여주는 장면입니다. 흰색이 사전 지도(DGIST 지도), 빨간색이 실시간으로 들어오는 포인트인데, 이 두 색이 정확히 겹친다는 것 = 내 포즈가 정확하다는 뜻입니다. 포즈가 맞아야만, 센서로 본 포인트를 월드 프레임(world frame, 지도 좌표계)으로 변환했을 때 사전 지도와 딱 정합되거든요. 디버그용 뷰에서 흰색과 컬러가 잘 겹치는 게 보이는데, 이는 중앙의 포즈 추정이 정밀하게 이뤄지고 있다는 증거입니다.

이 위치추정이 정밀하면 내가 어떤 차선에 있는지, 어디로 돌아야 하는지를 알 수 있어 기본적인 자율주행이 가능합니다. 다만 테슬라 같은 공도(public road) 자율주행 업체는 이 방식을 쓰지 않습니다 — 도로 전체의 흰색 사전지도를 미리 구축해 둘 수 없기 때문이죠. 대신 공장·물류 자율주행처럼 환경이 고정된 곳에서는 여전히 유용하고 실수요도 많습니다. 이런 정도를 구현하는 데는 딥러닝까지는 있으면 좋지만 파운데이션 모델까지는 필요 없다는 게 교수님 평가입니다.

슬라이드 내용 정리

제목 동일. Marco Hutter 교수님의 IROS2025 기조강연(plenary) 슬라이드를 찍은 사진으로, 제목은 Classic autonomous locomotion and navigation stack(전통적 자율 보행·내비게이션 스택)입니다. 블록다이어그램이 두 축으로 정리돼 있습니다.

가로축은 실행 주파수: O(1Hz) / O(10Hz) / O(100Hz). 세로축은 레이어: Planning/Control · Mapping · State Estimation. 주요 블록은 — 상단 제어 흐름 Global Planner → Local Path planning → Local Path follower → Locomotion control → Joint Control, 매핑 쪽 Global mapping / Local mapping(cost map) / Foothold cost map, 상태추정 쪽 Global Localization / Lidar·Visual Inertial Odometry / Semantic Classification / Proprioceptive State Estimation, 입력단 Proprioception(joint angles) / Exteroception(Lidar, cameras, IMU) / GNSS / External maps·Satellite images. 출처: Prof. Marco Hutter, IROS2025.

교수님 설명

로봇 내비게이션이나 perception에 관심이 있다면 Marco Hutter(마크 후터) 교수님을 구글 스칼라(Scholar)에서 찾아보라고 권합니다. 이 다이어그램은 그분의 플레너리톡에 나온 전통적 기술 스택으로, 비전(vision)에 크게 의존하지 않아 2010년 이전에도 만들 수 있었을 만큼 제네릭(generic)한 파이프라인입니다 — 옛날에도 지금도 유용하다는 뜻이죠.

로봇 내비게이션을 하려면 결국 제일 끝단의 관절(joint) 제어까지 모두 되어야 하고, 그 모터 제어가 되려면 그 앞 모듈이, 또 그 앞 모듈이… 차례로 다 구축돼야 합니다. 교수님이 주로 하는 영역은 오도메트리(odometry)와 매핑(mapping)인데, 10Hz로 도는 실시간 추정(지금 이 순간의 내 위치·주변 지형)과 1Hz로 도는 전역(global) 보장(느리지만 전체적으로 일관된 정보)이 나뉘어 있습니다. 가로로 보면 state estimation·map·planning 레이어, 세로로 보면 주파수 차이 — 결국 로컬리제이션·매핑을 실시간으로 할지 오프라인에서 느긋하게 할지의 차이이며 여러 모듈이 함께 필요합니다.

이어서 교수님은 이 전통 스택이 최근 어떻게 달라지는지(많은 모듈이 사라지고 VLM 리즈닝·3D 파운데이션 모델 등으로 통합되는 흐름)를 다음 슬라이드들에서 풀어갑니다.

보충 설명

O(1Hz)/O(10Hz)/O(100Hz)는 각 모듈이 초당 몇 번 도는지를 나타냅니다 — 100Hz는 빠른 모터·관절 제어, 10Hz는 오도메트리·로컬 매핑, 1Hz는 전역 매핑·로컬리제이션(느리지만 전역적). Proprioception(고유수용감각)은 관절각·IMU 같은 자기 상태 센서, Exteroception(외수용감각)은 라이다·카메라처럼 외부 환경을 보는 센서를 뜻합니다.

Part 5슬라이드 13~15

05기술 스택의 변화: 전통 파이프라인 → 파운데이션 시대

slide 13
슬라이드 13 · Marco Hutter의 자율주행 스택 (IROS2025)
slide 14
슬라이드 14 · 바뀐 세 모듈: 3D 파운데이션 · 메모리 · VLN
slide 15
슬라이드 15 · 3D 파운데이션 모델의 출발점, DUSt3R
슬라이드 내용 정리

제목은 Autonomous Robot Navigation(자율 로봇 내비게이션). 출처는 Marco Hutter 교수, IROS2025의 발표 자료로, "Learned autonomous locomotion and navigation stack"(학습 기반 자율 보행·내비게이션 스택)이라는 한 장의 구조도입니다.

세로축은 위에서부터 Planning(계획)Mapping(지도)State estimation(상태 추정) 계층이고, 가로축은 동작 주파수 O(1Hz)O(10Hz)O(100Hz)로 갈수록 빨라집니다. 왼쪽 느린 쪽에 Global Planner, Global mapping, Global Localization(파란 블록), 가운데에 VLM reasoning, 오른쪽 빠른 쪽에 End2End Navigation Policy, Perceptive Locomotion Policy, Joint Control이 놓입니다. 가장 오른쪽 입력으로 Proprioception(IMU·관절각), Exteroception(LiDAR·카메라), GNSS, External maps / Satellite images가 연결됩니다.

교수님 설명

이 스택 그림은 Marco Hutter 교수가 제시한 "전반적인 방향성"을 정리한 것입니다. 왼쪽(느린, 글로벌) 모듈은 연구가 사실상 다 끝난 영역이고, 오른쪽(빠른, 실시간 반응) 방향이 새로 연구할 수 있는 여지가 남은 쪽이라고 보십니다. 두 방향 다 현재 함께 쓰이고는 있지만, 논문을 쓰는 입장에서는 오른쪽 모듈 쪽을 파고들 수밖에 없는 상황이라는 설명입니다.

교수님은 이 큰 그림 위에 "내가 해당 모듈을 이렇게 해석했다"는 본인 관점을 덧붙입니다. 핵심은 크게 세 부분이 바뀌었거나 안 바뀌었다는 것입니다. ① Global mapping 쪽, ② 가운데가 VLM reasoning으로 바뀐 것, ③ Planning & Control에서 전통적 plannning이 핸드크래프트(hand-crafted, 수작업 설계)에서 벗어나는 부분. 겉보기에는 두 개만 바뀐 것처럼 보이고 가장 왼쪽 파란 블록은 글자만 보면 똑같지만, 실제로 뜯어보면 그 안의 제약(constraint)이 많이 달라졌다는 점을 오늘 짚겠다고 예고합니다.

보충 설명

"위는 느리고 똑똑, 아래는 빠르고 단순"이 핵심 직관입니다. 1Hz는 초당 한 번 — 어디로 갈지 같은 전역 판단(느린 추론)이고, 100Hz는 초당 백 번 — 발을 딛고 균형을 잡는 즉각 제어입니다. 미로 탈출처럼 처음 가는 곳을 헤매는 일에는 여전히 글로벌 매핑·로컬라이제이션(localization, 자기 위치 추정)이 필요하지만, 익숙한 일상 공간을 오갈 때는 굳이 정밀 지도를 다시 만들지 않아도 된다는 최근 흐름과 맞닿아 있습니다.

슬라이드 내용 정리

같은 스택 위에 바뀐 세 모듈을 색 동그라미로 표시했습니다. 왼쪽 작은 그림(전통 파이프라인)에서 오른쪽 그림으로 넘어가는 화살표가 "전통 → 파운데이션 시대"의 전환을 나타냅니다.

세 모듈은 — 3D Foundation Models(파란색, 왼쪽 Global mapping/Localization), Memory(노란색, 가운데 VLM reasoning), Visual-Language Nav(초록색, 오른쪽 End2End Navigation Policy). 즉 전역 지도·기억·언어 기반 내비게이션 세 축이 파운데이션 모델로 흡수·재해석되고 있다는 그림입니다.

교수님 설명

이 슬라이드는 앞 그림의 세 부분에 각각 어떤 최신 패러다임이 들어왔는지를 색으로 매핑한 것입니다. 파란색 자리에는 3D 파운데이션 모델, 노란색 자리에는 로봇의 경험을 다루는 메모리(Memory), 초록색 자리에는 비전-언어 내비게이션(Visual-Language Navigation, VLN)이 들어옵니다. 이후 슬라이드에서 이 셋을 하나씩 풀어 설명하겠다는 안내 슬라이드입니다.

슬라이드 내용 정리

제목 3D Foundation Model. 소개하는 논문은 DUSt3R: Geometric 3D Vision Made Easy입니다. 저자는 Shuzhe Wang, Vincent Leroy, Yohann Cabon, Boris Chidlovskii, Jerome Revaud — 소속은 Aalto UniversityNaver Labs Europe. [cs.CV] 1 Dec 2024, 게재는 CVPR 2024입니다.

가운데 구조도는 두 장의 이미지를 입력받아 인코더-디코더를 거쳐 point map(점 지도)을 출력하는 파이프라인을 보여줍니다.

교수님 설명

파란색(전역 지도) 자리에 등장한 새 패러다임이 바로 3D 파운데이션 모델이고, 그 효시로 보통 DUSt3R(CVPR 2024)를 꼽습니다. 교수님은 Naver Labs Korea를 통해 이 기술을 1년쯤 먼저 접했다고 합니다. 방법 자체는 의외로 단순합니다 — 이미지를 넣고, 패치 단위로 ViT(Vision Transformer) 피처를 뽑고, 디코더를 붙여 3채널짜리 출력을 냅니다. 단 이 3채널은 픽셀마다의 3D 좌표이지, 흔한 Depth Image와는 다릅니다(Depth는 카메라 시점에서의 Z 값일 뿐). 그래서 흔히 feed-forward 3D reconstruction / point map estimation 모델이라 부릅니다.

핵심 원리는 "이미지 두 장만 넣으면 두 장이 합쳐진 하나의 점 구름이 나온다"는 것입니다. 칼리브레이션(calibration, 카메라 보정) 정보 없이도 동작하고, 이전 NeurIPS의 CroCo 같은 사전학습 위에서 나온 결과입니다. 이걸 비디오·이미지 스트림으로 확장하려는 변형이 쏟아졌고, 교수님 랩에서도 캠퍼스에서 끊긴 이미지들만 넣어 실제로 되는지 검증했다고 합니다.

랩의 연구는 이걸 멀티 로봇으로 확장한 것입니다(IROS). 사족 로봇 카메라, 다른 로봇, 누군가의 아이폰, 또 다른 사람의 갤럭시 — 서로 다른 카메라·모션으로 찍어도 상대 위치를 복원할 수 있을까가 질문입니다. 처음엔 각자 자기 원점에서 시작하다가, 로봇끼리 place recognition(장소 인식)으로 "내 여기가 네 여기였네" 하고 좌표를 정렬하면 트래젝터리가 점차 한 기준으로 맞춰집니다. KITTI 데이터셋에서, 한 시퀀스를 10개로 쪼개 서로 다른 로봇처럼 다뤄 붙이는 실험도 보여줍니다. 다만 이미지만으로는 한 픽셀이 실제 몇 cm인지 알 수 없어(스케일 모호성), 시작 스케일을 1로 두고 로봇마다 그 스케일을 일관되게 맞춰주는 작업이 필요하다고 덧붙입니다.

보충 설명

왜 "파운데이션 모델"이라 부를까요? — 거대한 데이터로 미리 학습해 두면, 실내든 실외든 보정 없이 처음 보는 장면에서도 곧장 3D를 뽑아내는 범용성이 생기기 때문입니다. 스케일 모호성은 직관적으로, 사진 한 장만 보고는 그게 장난감 집인지 진짜 집인지 알 수 없는 것과 같습니다. 그래서 절대 크기 대신 "시작점을 1"로 잡는 상대 스케일을 쓰고, 여러 로봇이 모일 때 이 1의 기준을 서로 통일해 주어야 지도가 어긋나지 않습니다.

가운데 메모리(Memory) 모듈은 VLM reasoning 자리에 해당하며, 2025년 ICRA의 ReMEmbR(NVIDIA+대학 협업)에서 출발합니다. 로봇 주행 기록(시간·포즈·이미지)을 비디오 요약 VLM에 넣어 구간마다 "여기에 무엇이 있다, 낮이다/밤이다" 같은 캡션을 만들고, 포즈 XYZ·시간을 메타데이터로 붙여 JSON으로 저장합니다. 이렇게 쌓인 "경험"에 대해 사람이 "엘리베이터 어디 있어?", "전망 좋은 곳은?" 하고 물으면 로봇이 안내할 수 있게 되는데, 이 JSON을 검색·활용하는 방식이 다음에 나올 RAG(Retrieval-Augmented Generation, 검색 증강 생성)로 이어집니다.

Part 6슬라이드 16~18

06글로벌 매핑 ①: 3D 파운데이션 모델과 멀티로봇 확장

slide 16
슬라이드 16 · 3D 파운데이션 모델 — DGIST E7 실내 Visual SLAM
slide 17
슬라이드 17 · 멀티로봇 협업 SLAM — 크라우드소싱 영상 → 통합 3D 지도
slide 18
슬라이드 18 · 실세계 멀티로봇 밀집 매핑 — 이종 에이전트 4대
슬라이드 내용 정리

제목은 3D 파운데이션 모델(3D Foundation Model). DGIST 컨실리언스 홀(E7)에서 수행한 비주얼 슬램(Visual SLAM) 데모를 보여줍니다. 왼쪽은 실내 복도를 찍은 입력 영상, 화살표 오른쪽은 거기서 복원한 3D 점지도(point map)입니다.

하단 출처: Hyoseok Ju, Bokeon Suh, Giseop Kim — ICRA 2026 게재 예정. 논문 제목은 “Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark”로, 단안(monocular) 딥러닝 슬램의 스케일(scale) 문제를 다루는 데이터셋/벤치마크 연구입니다.

교수님 설명

요지는 피드포워드(feed-forward) 점지도 추정이 좋아지면서, 어떤 카메라든(아이폰·갤럭시 등) 다른 사람이 다른 동선으로 찍어도 깊이·구조 정보를 뽑아낼 수 있다는 것입니다. 기반이 되는 파운데이션 모델 자체가 강력해서 실내·실외를 가리지 않고 다양한 환경에서 잘 동작합니다.

이 슬라이드는 그 능력을 DGIST 건물 실내에서 직접 보여준 사례입니다. 한 장의 영상 스트림에서 곧바로 일관된 3D 구조(점지도)를 만들어내는 모습으로, 다음 슬라이드에서 다룰 멀티로봇 확장의 출발점이 됩니다.

보충 설명

여기서 말하는 “3D 파운데이션 모델”은 DUSt3R류 모델을 가리킵니다. 전통적 슬램이 특징점 매칭·번들조정 같은 기하 최적화를 오래 돌려야 했던 것과 달리, 이런 모델은 이미지 한두 장을 신경망에 한 번 통과시켜(피드포워드) 바로 각 픽셀의 3D 좌표(점지도)를 출력합니다. “미리 학습된 만능 기반”이라는 뜻에서 파운데이션 모델이라 부르고, 그래서 환경을 가리지 않습니다.

슬라이드 내용 정리

제목 멀티로봇 협업 SLAM(Multi-robot Collaborative SLAM), 부제 “In 3D Foundation era.” 왼쪽의 크라우드소싱 단안 영상(Crowd-sourced Monocular Video)(다리형 로봇·바퀴형 로봇·핸드헬드 영상)을 입력으로 받아, 가운데 MR.ScaleMaster 블록을 거쳐 오른쪽 통합 3D 지도(Unified 3D Map)를 만듭니다.

다루는 차이(challenge)로 다른 동선(trajectories), 다른 플랫폼(platforms), 다른 카메라 모델, 다른 시작 좌표축(front-axis)이 적혀 있습니다. 상태는 “Submitted, under review”.

교수님 설명

핵심은 로봇들이 처음에는 서로의 존재를 모른다는 점입니다. 그래서 각자 자기만의 원점(origin)에서 시작합니다. 돌아다니다가 로봇끼리 장소 재인식(place recognition)이 일어나면 “여기가 너의 그 지점이었네”라고 알게 되고, 그때 서로의 좌표계를 정렬(coordinate alignment)합니다. 그러면 오른쪽 궤적이 조정되어 결국 하나의 월드 기준(또는 로봇 1 기준)으로 합쳐집니다.

또 다른 큰 문제는 스케일 추정(scale estimation)입니다. 단안 이미지만으로는 한 픽셀이 실제로 몇 센티미터인지 알 방법이 물리적으로 없습니다. 그래서 파운데이션 모델은 “시작할 때의 이 정도를 1이라 하자”처럼 로봇마다 자기 기준 스케일을 잡는데, 카메라 특성·주야 조건이 달라 어떤 로봇은 0.5로 시작하기도 합니다. 스케일이 제각각이면 같은 움직임도 속도가 넓게/좁게 다르게 보이므로, 로봇 간 스케일을 일관(consistent)되게 맞춰주는 것이 이 연구의 핵심입니다.

보충 설명

“스케일 모호성(scale ambiguity)”은 단안 카메라의 근본 한계입니다. 사진만 보면 작은 물체를 가까이서 찍은 것인지 큰 물체를 멀리서 찍은 것인지 구분할 수 없기 때문이죠. 그래서 로봇이 두 대 이상이면 각자의 “1”이 실제로는 다른 길이일 수 있고, 이를 맞추지 않으면 합친 지도에서 같은 복도가 서로 다른 길이로 어긋납니다. 장소 재인식 → 좌표 정렬 → 스케일 정렬의 3단계로 이 문제를 푸는 흐름으로 이해하면 됩니다.

슬라이드 내용 정리

같은 멀티로봇 협업 SLAM 연구의 실험 화면입니다. Real-World Multi-Robot Dense Mapping — 다층 실내 환경에서 이종(heterogeneous) 에이전트 4대를 사용. 에이전트는 다리형 로봇(Legged), 바퀴형 로봇(Wheeled), 핸드헬드 1·2로 색이 구분됩니다.

왼쪽은 데이터 수집(Data Collection) 영상, 오른쪽은 복도 환경(Corridor Environment)의 복원 궤적입니다. 하단 하이라이트: 이종 에이전트 4대를 하나의 지도로 융합, 플랫폼 간 에이전트 간 루프 클로저(inter-agent loop closures), 프론트엔드별 백엔드 수정 불필요(No backend modification per front-end).

교수님 설명

벤치마크로 KITTI 데이터셋을 씁니다. 내비게이션 분야에서 가장 유명한 데이터셋으로, 원래 하나짜리 시퀀스를 10개로 쪼개 각각을 다른 로봇이라 가정한 뒤, 서로의 위치를 추정하고 지도를 붙일 수 있음을 보여줍니다.

이 화면에서 주목할 점은 오른쪽 노란색 궤적이 처음엔 작다가 갑자기 커지는 부분인데, 이것이 바로 스케일 추정/정렬이 동작하는 순간입니다. 결국 카메라가 다르고 시작 좌표가 달라도, 좌표·스케일을 맞춰 하나의 일관된 지도로 융합되며, 핵심은 프론트엔드(front-end)마다 백엔드를 따로 고치지 않아도 이종 플랫폼들이 그대로 합쳐진다는 점입니다.

보충 설명

여기서 프론트엔드/백엔드는 슬램 용어입니다. 프론트엔드는 각 로봇이 자기 센서로 즉석에서 자세·특징을 뽑는 부분, 백엔드는 그것들을 모아 전역적으로 최적화(루프 클로저·번들조정)하는 부분입니다. “백엔드 수정 불필요”는, 로봇 종류(다리형·바퀴형·핸드헬드)가 달라도 공통 백엔드가 그대로 받아들여 융합한다는 뜻이라 확장성 면에서 장점이 큽니다. 루프 클로저(loop closure)는 이전에 왔던 곳을 다시 알아보고 누적 오차(drift)를 보정하는 기법인데, 여기서는 로봇 사이에서 일어나(inter-agent) 서로의 지도를 묶는 역할을 합니다.

Part 7슬라이드 19~22

07인식 ②: 메모리·RAG·롱텀 맵 매니지먼트

slide 19
슬라이드 19 · Multi-robot Collaborative SLAM (KITTI)
slide 20
슬라이드 20 · 메모리 구축·질의(ReMEmbR)
slide 21
슬라이드 21 · VLN 데모 "엘리베이터 어디야?"
slide 22
슬라이드 22 · 롱텀 내비게이션 메모리 (이벤트 표)
슬라이드 내용 정리

Multi-robot Collaborative SLAMIn 3D Foundation era(3D 파운데이션 모델 시대). 하단 이미지는 여러 궤적이 하나의 격자(grid) 좌표계 위에 겹쳐진 모습이고, 캡션은 On KITTI dataset(자율주행 벤치마크 데이터셋)입니다.

여러 대의 로봇(또는 여러 번의 주행 세션)이 만든 SLAM 결과를 하나의 공통 좌표계로 정렬(alignment)하는 것이 이 슬라이드의 주제입니다.

교수님 설명

이 단계의 핵심은 멀티 세션(multi-session) 정렬입니다. 앞에서 구축한 기술을 쓰면 여러 로봇·여러 시점의 주행 기록을 하나의 좌표계(coordinate frame)로 묶을 수 있어요. 일단 이렇게 정렬을 해 두면 그 위에서 다양한 후처리를 돌릴 수 있게 됩니다.

정렬된 결과에 대해 3D 파운데이션 모델(3D Foundation Model)이나 객체 추적기(SAM 계열, "센스리"), 혹은 비디오 요약자(video summarizer)를 돌립니다. 객체 추적기는 오브젝트 단위 추적 결과를 주고, 비디오 기반 VLM은 — 포즈가 이미 정렬됐기 때문에 포즈 문제(pose issue)가 해결된 상태로 — 장면 요약을 만들어 줍니다. 즉 슬라이드 19는 뒤에 나올 메모리·롱텀 질의의 기하학적 토대를 깔아 주는 부분입니다.

보충 설명

전통 로보틱스에서 "여러 로봇이 만든 지도를 하나로 합치는" 문제를 collaborative/multi-robot SLAM이라고 부릅니다. 예전에는 루프 클로저(loop closure)와 정밀한 최적화가 어려웠지만, 요즘은 카메라만으로도 꽤 좋은 오도메트리(odometry, 자기 위치 추정)가 나오기 때문에 포즈를 쉽게 뽑고 시간 정렬(time sync)까지 손쉽게 됩니다. 이렇게 "포즈 + 그 포즈에서 본 이미지"가 정렬돼 있다는 점이, 다음 슬라이드의 텍스트 메모리를 만들 수 있게 해 주는 전제 조건입니다.

슬라이드 내용 정리

Memory — Anwar, Abrar et al. "ReMEmbR: Building and reasoning over long-horizon spatio-temporal memory for robot navigation", ICRA 2025. 두 단계 구조입니다.

How do you accumulate long-horizon robot histories?(긴 이력을 어떻게 쌓는가) — 긴 궤적(long trajectory) + 긴 이력을 Memory Building Phase에서 처리. 입력은 observation / position / time이고, Memory Processing을 거쳐 Memory Storage(DB)에 저장.

How do you answer questions given this long-horizon history?(쌓인 이력으로 어떻게 질문에 답하나) — Querying Phase: "How do I get upstairs?" 같은 질문 → ReMEmbR Query LoopLLMMemory Querying으로 DB를 조회 → "There's the elevator at (x,y)", "Can you take me there?", "Follow me!" 식으로 응답.

교수님 설명

요약하면 이렇습니다. 요즘 오도메트리 추정이 좋으니까(교수님이 휴대폰으로 했던 수준) 포즈를 쉽게 생성하고, 각 포즈마다 딸린 이미지를 얻고, 시간 정렬도 쉽게 됩니다. 그 이미지/비디오 스트림 + 포즈 정보를 비디오 요약 VLM에 넣어서 비디오 토막마다 요약 문장을 생성해요. "여기 무엇이 있다, 어디에 있다, 멀리 있다, 낮이다/밤이다" 같은 문장을 쭉 만들고, 그 뒤에 포즈 XYZ·시간을 메타 정보로 붙입니다. 그러면 진짜 JSON 형태의 DB가 됩니다.

여기에 RAG(Retrieval-Augmented Generation, 검색 증강 생성)를 붙입니다. 사람은 그냥 "벤치 어디야?"라고 묻지만, 맥락 없이 그렇게 물으면 LLM은 어떤 벤치인지 알 수 없어요. RAG 시스템은 질문 맥락(나는 누구인지, 지금 어디에 있는지, 쉬고 싶은지 등)을 DB에서 알아서 꺼내와 질문에 증강(augment)합니다. 즉 사람은 귀찮게 대충 묻지만, 실제로 LLM이 받는 입력은 아주 친절하게 보강된 입력이 되는 거죠.

중요한 점: LLM 자체를 추가 학습시키는 게 아니라, ChatGPT 같은 모델에 증강된 입력을 넣고 텍스트 출력을 받는 구조입니다. "어디야?"라고 물으면 결과로 X, Y, Z 위치 + 그렇게 판단한 이유가 텍스트로 나옵니다. 다만 아쉬운 점은 그 XYZ까지 가는 실제 내비게이션은 — 이 부분은 슬라이드 21에서 — 전통적인 내비게이션 툴킷에 의존했다는 점입니다.

보충 설명

로보틱스에서는 원래 "메모리"라는 말을 잘 안 쓰고 맵(map)이라고 부르며, mesh면 mesh, point cloud면 point cloud로 수학적으로 정의해 썼습니다. LLM 진영에서 "메모리"라고 부르기 시작한 것의 정체는 사실 로봇 센서 데이터가 임베딩(embedding)·텍스트화되어 DB에 들어가 있는 것입니다. 그리고 "언제 DB에서 꺼내 컨텍스트 윈도우에 넣을지"를 결정하는 게 RAG의 역할이죠. 결국 핵심 차이는 원시 측정값(point cloud·mesh)에 의존할 것이냐, 임베딩/텍스트화된 메모리에 의존할 것이냐입니다. 캠퍼스 전체처럼 큰 공간을 정밀 포인트 클라우드로 만들면 드리프트(drift) 해석이 어려워지지만, 포즈+요약 텍스트 메모리로 가면 그 부담을 영리하게 줄일 수 있습니다.

슬라이드 내용 정리

MemoryVLN demo(Visual Language Navigation 데모): "where is the elevator?"(엘리베이터 어디야?). 유튜브 링크(youtube.com/watch?v=so3B1NDoCO0)와 함께, 좌측 터미널·우측 RViz 지도(점유 격자/occupancy map)가 보이는 실제 로봇 실행 화면 캡처입니다.

교수님 설명

이 데모는 자율주행 로봇에게 "엘리베이터 어디야, 안내해줘"라고 입력하면 로봇이 실제로 그쪽으로 가는 장면입니다. 다른 환경(대만에서 찍힌 듯한 배경, Nav2 스택을 돌리는 것으로 보이는 화면)에서 돌려도 꽤 잘 동작한다는 점을 보여 줍니다. 패키징이 잘 되고 셀프-컨테인드(self-contained)된 프로젝트라는 점에서 인상적이었고, 비디오 데모 완성도가 높았습니다.

다만 한계도 분명합니다. "벤치 X,Y,Z"처럼 목표 위치를 찾는 부분은 LLM/RAG가 하지만, 그 XYZ까지 실제로 이동하는 내비게이션은 전통적인 내부 툴킷(A* 등 클래식 플래너)에 의존합니다. 데이터 기반으로 능동 제어까지 학습한 게 아니라, 잘 짜인 포스트-룰(post-rule) 기반 내비게이션에 LLM 인식을 얹은 형태죠. 나쁜 건 아니지만 — 잘 되니까 살아남은 것이지만 — 능동적 제어가 데이터로 학습된 건 아니라는 점이 다음 주제(VLA/VLN)로 이어집니다.

슬라이드 내용 정리

Memory — Long-term Navigation Memory(롱텀 내비게이션 메모리). Submitted, under review(심사 중). 기존 시스템은 "지도 만들 당시의 상태만(temporal feature)" 담아 시간이 지나면 신뢰성이 떨어지지만, 제안하는 LT-Mem은 시간에 따른 변화(appear / disappear)를 기억합니다.

아래 표는 이벤트 유형 / 설명 / 예시 질문 / 필요한 메모리입니다.

  • APPEAR: 세션 S_i에서 처음 관측 — "When did the scissor first appear?"
  • DISAPPEAR: S_i 이후 더 이상 관측 안 됨 — "Was the vacuum in the room at Session 9?"
  • MOVE: 중심점(centroid) 변위가 임계값 초과 — "Did the brown basket move at Session 6?"
  • NONE: 상태 변화 없음 — "Did the fridge stay in place at Session 4?"
  • RE-APPEAR: 사라졌다가 다시 등장 — "Did the green chair come back at Session 9?"

Compound(다중 세션 추론): Trajectory(모든 세션의 이동 궤적), Volatility(변화 빈도/크기 — "Which object moved most frequently?"), Temporal localization(변화 시점 — "When was the last time the white board moved?"), Counterfactual(두 세션 상태 비교 — "Was the robot dog in the same location in S_i and S_j?").

교수님 설명

매핑에서 또 중요한 이슈가 맵 매니지먼트(map management)입니다. 현장에 가면 항상 요구받는 게 롱텀 오퍼레이션(long-term operation)이에요. "환경은 바뀐다 → 한 번 만든 포인트 클라우드는 준거(reference)가 흔들린다 → 바뀐 부분을 소거/갱신해야 한다"는 게 전통적인 이야기입니다. 그런데 이걸 메모리 레벨에서 맵 업데이트/관리로 처리하고, 동시에 그에 대한 질의응답까지 가능하게 하자는 게 이 연구의 목표입니다. 부피 변화를 계산하겠다는 게 아니라, 결과적으로 롱텀 질문에 답하는 에이전트를 만드는 것이죠.

핵심 메커니즘은 앞서 만든 멀티 세션 정렬을 그대로 활용합니다. 1·2·3·4월의 기록(세션)을 하나의 좌표계로 정렬한 뒤, 각 세션에서 "어떤 위치에 어떤 기억이 있었는지"를 뽑아 DB에 넣습니다. 그리고 RAG로, 사용자가 "그때 그거 지금 어디 있어?"라고 물으면 재료(raw fact)를 붙여 줍니다 — "그건 세션1에서는 여기, 세션2에서는 저기, 세션3에서는 여기, 세션4에는 정보 없음(빈 배열)". 주의할 점은 "세션1→세션2로 이동했다"는 식의 추론 결과(reasoning)는 재료가 아니라는 거예요. 재료는 어디까지나 세션별 위치 사실이고, 이동 여부 판단은 LLM이 추론으로 만들어 냅니다.

그래서 "1월에 정문에서 여기까지 최단거리로 왔는데 지금도 유효해?", "어제 여기 있던 로봇 강아지 어디 갔어?", "리모컨 어디 갔지?", 주차장에서 "보통 몇 시에 오면 자리가 있나?" 같은 롱텀 질문에 답할 수 있습니다. 게다가 LLM이 추론으로 답을 만들기 때문에 "왜 그렇게 생각했는지" 이유까지 설명할 수 있죠. 아직 토이 수준이라 데이터를 많이 모으진 않았지만, 클로드(Claude)의 100만 토큰급 컨텍스트를 쓰면 수십·수백 번의 기억을 한꺼번에 요약·추론하는 — 사람이 하기 힘든 수준의 — 분석이 개념적으로 가능합니다.

보충 설명

"그럼 좋은 VLM에 몇백 세션 이미지를 통째로 넣으면 되지 않나?"라는 반론이 가능합니다. 이론적으로는 VLM도 할 수 있지만, 이미지 토큰을 수백 세션치 다 넣는 것과, 미리 텍스트로 잘 요약해 두고 그것만 RAG로 꺼내 쓰는 것은 효율성(연산·비용)이 완전히 다릅니다. 즉 여기서 쟁점은 "VLM이 못 한다"가 아니라, 실제 로봇 운용에서 프로젝트가 효율적으로 딜리버리되느냐입니다. 표의 "Required Memory" 열(Delta/Meta/Live)은 각 질문 유형이 어떤 종류의 메모리 — 변화분(Delta), 메타 통계(Meta), 실시간 관측(Live) — 를 필요로 하는지를 정리한 것으로 보면 됩니다. CCTV로 "노란 차가 언제 들어와 언제 빠졌는지" 추적하는 식의 응용도 같은 틀로 가능합니다.

Part 8슬라이드 23~26

08플래닝/컨트롤 ③: VLN·VLA와 그 한계

slide 23
슬라이드 23 · 롱텀 내비게이션 메모리 — 주차장 세션별 Q&A
slide 24
슬라이드 24 · VLN = 내비게이션용 VLA, 토큰화 + 빠른/느린 사고 (OmniNav)
slide 25
슬라이드 25 · 자연어 지시 기반 내비게이션 데모 (소화전→검은 소파)
slide 26
슬라이드 26 · 언어와 로봇 센싱 모달리티의 만남 — 텍스트 기반 라이다 위치추정
슬라이드 내용 정리

Memory → Long-term Navigation Memory(롱텀 내비게이션 메모리). 같은 주차장을 서로 다른 시점(세션)에 찍은 이미지 — S3 (오전 8:00), S6 (오후 5:47), S8 (오후 1:03) — 를 두고 시간에 걸친 질의응답을 한다.

예시 Q&A:

  • Q: 주차 자리를 찾으려면 언제 가야 하나? — A: 오전 8시쯤 오면 자리 있다 (세션3, 그때 차 0대).
  • Q: 주차가 가장 어려운 때는? — A: 오후 1:03쯤이 가장 힘들다 (세션8, 차 34대). 빈자리를 원하면 그 시간을 피하라.
교수님 설명

핵심은 "어떤 건물이 바뀌었으니 그 부피를 계산하자" 같은 게 아니다. 로봇이 1·2·3·4월의 여러 시점 기록(세션)을 가지고 있을 때, "내가 1월에 정문에서 여기까지 최단경로로 왔는데 지금도 그 길이 유효해?" 같은 롱텀 질문에 답하는 에이전트를 만드는 게 목표다. "어제 있던 로봇 강아지 어디 갔어?", "리모컨 어디 갔지?"처럼 일상적인 장기 기억 질문이 다 여기에 속한다.

구체적으로는, 앞서 구축한 멀티세션 정렬 기술로 여러 세션을 하나의 좌표계에 맞춘 뒤, 3D 파운데이션 모델·오브젝트 트래커·비디오 기반 VLM 요약기를 돌려 "세션1에서는 여기, 세션2에서는 저기"라는 위치 기록을 뽑아낸다. 정렬이 끝났으니 포즈(자세) 문제는 해결된 셈이다. 이 기록들을 데이터베이스에 넣고 RAG를 끼워, 사용자 질문에 필요한 자료를 붙여 LLM에게 넘긴다. 여기서 중요한 구분: DB에 들어가는 건 "세션1에 여기, 세션2에 저기"라는 재료일 뿐, "그게 이동했다"는 reasoning(추론) 결과가 아니다. 추론은 LLM이 한다.

그래서 주차장 질문에 "8시에 오세요"라고 답할 뿐 아니라, LLM이 추론으로 답을 만들었으니 "왜냐하면 그 시간엔 차가 없었기 때문"이라는 이유까지 설명할 수 있다. 현재 Claude가 100만 토큰을 다루므로 수십·수백 세션을 통째로 요약하는 힘이 있어, 사람이 하기 어려운 수준의 농밀한 요약도 가능하다. CCTV에서 특정 차량 패턴 추적 같은 일도 시킬 수 있다. "VLM도 똑같이 하면 되지 않나?"라고 묻겠지만, 수백 세션 이미지 토큰을 통째로 밀어넣는 것과, 잘 요약해 텍스트로 들고 효율적으로 처리하는 것은 효율성이 다르다. 즉 지금은 성능이 되냐 안 되냐보다, 프로젝트로 실제 딜리버리(전달) 가능한가라는 효율성이 관건이다.

보충 설명

RAG(Retrieval-Augmented Generation, 검색 증강 생성)는 LLM에게 질문만 던지는 대신, 외부 DB에서 관련 자료를 먼저 검색해 프롬프트에 붙여 답하게 하는 방식이다. 여기서 "재료 vs 추론 결과" 구분이 중요한 이유: 만약 "그게 이동했다" 같은 결론을 미리 DB에 박아두면 새로운 질문에 유연하게 대응할 수 없다. 반면 세션별 위치라는 객관적 사실(재료)만 넣어두면, 매번 다른 질문에 대해 LLM이 그 자료를 가지고 새로 추론·설명할 수 있다.

슬라이드 내용 정리

VLN: VLA for Navigation(내비게이션용 비주얼-랭귀지-액션). 파이프라인은 세 부분이다.

  • Tokenization(토큰화): 좌표(Coordinates), BEV(조감도), 텍스트 토큰, 미탐험 영역(Unexplored Frontiers), 샘플링된 이미지를 모두 토큰으로 변환.
  • Fast Thinking System(빠른 사고): 프롬프트(Object-Bank, Instruct-Bank) + VLMDiffusion Policy Head → 저수준 웨이포인트(Low-level Waypoints). Local Path Planning 단계.
  • Slow Thinking System(느린 사고): 프롬프트(Goal, Main step, Vision Input) + VLM → 경로 계획(Plan/Fast Path). Global Path Planning 단계.

출처: Xue, Xinda et al., "OmniNav: A unified framework for prospective exploration and visual-language navigation," arXiv:2509.25687 (2025).

교수님 설명

마지막은 비주얼-랭귀지 내비게이션(VLN)이다. VLM으로 기억도 잘 들고 있고 현재 이미지도 잘 해석해(앞에 뭐가 있다, 피해야 한다 등) 추론까지 했는데 — "그래서 어떻게 가게 할 거냐?" 이 부분이 문제다. 지금까지 앞서 본 기법들은 내부의 플래닝 프레임워크(예: A*, 직접 짠 post-fusion 규칙)에 의존했다. 그게 제일 윗단이고, 스택 전체가 거기에 매여 있다는 뜻이다. 물론 그 규칙들은 잘 되니까 살아남은 것이라 의존을 안 할 이유가 없지만, 능동적 제어가 데이터로 되는 게 아니라는 한계가 있다. "데이터가 정말 많으면 인간 두뇌로 짠 규칙보다 더 좋은 방식이 나오지 않을까?"라고 물어볼 수 있어야 한다.

그래서 나온 게 End-to-end Navigation Policy이고, 이게 Visual-Language-Action(VLA)이라는 이름으로 묶여 있다. 내비게이션 문제에선 Action을 떼고 VLN이라 부르지만 개념은 같다. 입력은 사람 지시 + 글로벌 웹 지도(옵션) + 현재 카메라 영상 → 전부 토큰화 → 큰 네트워크에 밀어넣고 액션이 나오게 한다. 1~2년 전엔 무식하게 다 토큰으로 처리했고, 작년에 π0.5(파이 0.5)가 나오면서 뒤에 액션 익스퍼트(Action Expert)를 따로 두고 플로우 매칭(flow matching)을 하는 식으로 디테일하게 발전하고 있다.

결과적으로 병목은 역시 데이터다. 챗봇이 잘 되는 건 인터넷의 모든 데이터를 봤고 이후 서로 경쟁시켜 더 나은 답을 스스로 고르게 했기 때문이다. 그런데 VLN은 그만한 데이터가 없다. 사람들이 시뮬레이터에서 2천 개 정도 모으고, sim2real 갭 때문에 현실에서 몇 개 더 모으는 수준이다. 회사 논문들은 거기에 데이터 증강 기술을 붙여 수만 개를 H100으로 학습시킨다. 일단은 프리트레인드 웨이트(예: DUSt3R/MASt3R 같은 3D 파운데이션 모델은 돌려보면 대체로 잘 됨)를 가져와 "너희가 파운데이션 액션 모델이냐, 한번 돌려보자" 하면 — 아직은 거기까지는 아니다. 되는 방법도, 안 되는 방법도 있고 환경에 따라 편차가 크다.

보충 설명

빠른 사고 / 느린 사고는 인지심리학의 System 1(직관·즉각 반응) / System 2(숙고·계획) 비유다. 느린 사고가 멀리 보는 전역 경로(Global Plan)를 세우고, 빠른 사고가 그 계획을 따라 다음 몇 스텝의 구체적 움직임(웨이포인트)을 즉각 뽑는다. 액션 익스퍼트 + 플로우 매칭은, 토큰으로 "왼쪽/오른쪽"을 글자처럼 뱉던 방식 대신, 연속적인 행동(예: 부드러운 속도·방향)을 확률 흐름으로 생성하는 전용 모듈을 둔 것이다. 이게 동작의 일반화(generality)를 크게 끌어올렸다.

슬라이드 내용 정리

Instruction(지시) 한 문단이 그대로 입력으로 들어간다: "흰 벽을 따라 직진하라. 오른쪽 통로에 가까워지면 우회전해 통로로 들어가라. 바닥의 검은 줄무늬 타일을 따라 계속 직진하라. 소화전(fire hydrant)을 지난 뒤 살짝 오른쪽으로 틀어 검은 소파가 보일 때까지 전진하라. 검은 소파로 다가가 그 앞에 멈춰 궤적을 마무리하라."

아래에는 실제 복도를 주행하는 로봇 사진과, 모델이 추론한 향후 궤적·웨이포인트 시각화가 함께 있다.

교수님 설명

자연어 지시만 줬을 때, 오른쪽 입력 이미지가 들어가면 모델이 향후 다섯 스텝의 액션을 추론하는 모습이다. 설명상 꺾어야 하는 지점이라 로봇이 방향을 트는 게 보인다. 진행하다 보면 소화전이 나오는데, 지시에 "소화전이 있으면 오른쪽으로 조금 틀어 소파가 보일 때까지 가서 멈춰라"라고 되어 있으니 그대로 수행한다. 이렇게 VLN 안에서도 인스트럭션 기반 내비게이션이라는 하위 분야가 있는데, 여기선 단순 도달이 아니라 "도달해서 내 지시가 다 이행되었다"까지 판정해야 하는 책임이 추가된다.

논문들은 비동기적 파이프라이닝으로 구현했다고 주장하지만, 정작 그 디플로이(배포) 코드는 공개가 안 돼 있어 직접 리프로듀스(재현)했다. 재현 과정에서 순수하게 VLA 모델 성능만 보고 싶어 군더더기를 다 쳐냈다 — 가고-추론하고-가고-추론하고. 고무적인 건 이걸 하는 동안 A*도, 로컬 플래너도, 트래버서빌리티 맵도, 뎁스(depth) 이미지도 전혀 없이도 잘 갔다는 점이다. 다만 운 좋게 안 부딪힌 면이 있고, 플래닝 전공자가 보면 "이렇게 도는 게 아닌 것 같은" 위태로운 주행이라 — 속도 문제는 차치하더라도 갈 길이 멀어 보인다.

"잘 된다"는 논문들은 주로 디플로이 코드를 공개하지 않는 유형이고, 데모 영상은 보통 1분 이내에, 넓은 야외에서 다중 로봇이 자유롭게 다니다 충돌하는 장면은 거의 없다. 즉 지금 VLN 모델이 소화할 수 있는 학습 데이터의 편향이 이런 식의 지시·환경이라는 뜻이다 — 파운데이션 모델이 잘 되는 이유가 데이터에서 오므로 당연한 결과다. 또 액션 익스퍼트 개념 전후를 비교하면, 이전엔 "왼쪽/오른쪽" 같은 생토큰이라 일반화가 나빴는데, 2025년 12월 공개 에피소드는 "이 정도는 된다." 다만 이 정도면 차라리 NeMo 같은 검증된 툴로 보여주는 게 더 멋질 수도 있고, 이걸 만드는 데 들어간 자원(H100 다수)을 생각하면 — 일단은 지켜보는 중이다.

슬라이드 내용 정리

Language meets robot sensing modality(언어가 로봇 센싱 모달리티를 만나다). 위쪽 Satellite 행에는 클래스별 세그멘테이션 컬러맵(Building, Pole, Traffic Light, Trash Bin, Road, Sidewalk, Wall, Vegetation 등)이, 아래 Query 행에는 대응하는 포인트클라우드가 배치된다.

하단 Q&A는 위치를 자연어 힌트로 설명한다. 예: A1: The pose is on-top of a gray road, A2: ... a bright-gray smallpole, A4: ... west of a beige sidewalk, B3: ... south of a black traffic sign … 즉 자연어 힌트만으로 라이다(포인트클라우드)에서 위치를 추정하게 한다.

교수님 설명

옵션으로 보는 연구다. 사람과 로봇이 대화한다는 측면은 결국 수학적으로 이종 모달리티 매칭(heterogeneous modality matching) 문제로 환원된다. 일반 VLA가 "이미지+지시 → 액션"이라면, 여기서는 "지시 → 라이다 포인트"가 나오는 문제, 쉽게 말해 텍스트 기반 라이다 플레이스 레커그니션(위치 인식)이다. 모델에 힌트를 준다: "네가 맞혀야 할 포즈는 그레이 로드(회색 도로) 위에 있다. 주변에 스몰 폴(작은 기둥)이 있고, 서쪽에 사이드워크(인도)가 있다 — 그럼 네 위치는 어디일까?" 그러고는 이 설명에 가장 잘 맞는 포인트클라우드를 찾게 한다. 테스트는 한국 이미지든 다양하게 구성되며, 핵심은 자연어 지시를 다른 모달리티(라이다)로 어떻게 정렬·해석할 수 있는지 보는 것이다.

결국 두 방향이 만나는 게 중요하다. 첫째는 단일 로봇이 아니라 다중 자율 모빌리티들이 메모리를 증강하며 공간을 지능적으로 해석하고, 능동적 인간 지시와 상호작용까지 이해·수행하는 기술. 둘째는 좀 더 프로덕트 레벨인데 — 학생들에게 요구하는 것이기도 하다 — 슬램으로 포인트클라우드를 열심히 만들고 (Remember처럼) 포즈까지 정밀하게 잡는 대신, "사람은 약도만 보여주고 '여기로 오세요' 해도 잘 오니까 우리도 그렇게 하자"는 발상이다. 이는 다양한 형태의 맵 인터페이스에서의 point-based navigation 문제로 정의될 수 있다. 어떻게 풀지는 아직 모르고, 관심 있거나 연구하고 싶은 사람을 환영한다.

보충 설명

이종 모달리티 매칭의 직관: 텍스트(자연어 묘사)와 라이다 포인트클라우드는 형식이 완전히 다른 데이터지만, 같은 장소를 가리킨다면 공통 의미 공간에서 가깝게 정렬되어야 한다. "회색 도로 위, 옆에 작은 기둥, 서쪽에 인도"라는 문장 임베딩과, 그 조건을 만족하는 포인트클라우드 임베딩을 매칭시키는 것이 place recognition(위치 인식)이다. 정밀한 좌표·포즈를 만들지 않고도, 사람이 약도와 말로 길을 안내받듯 로봇이 대략적 묘사만으로 위치를 찾게 하려는 시도다.

Part 9슬라이드 27~28

09마무리: 텍스트-라이다 매칭과 두 가지 연구 방향

slide 27
슬라이드 27 · 2026–2027 연구 목표 (실내 맵 + 캠퍼스 약도)
slide 28
슬라이드 28 · Thank you!
슬라이드 내용 정리

제목은 Goal of 2026–2027. 앞으로의 두 가지 연구 방향을 정리한 슬라이드입니다.

암묵적 인간 지시를 이해하고 상호작용하는, 다중 자율 모빌리티를 위한 메모리 증강 공간지능 개발 (2026–2029).
다양한 형태의 map interface에서의 point-to-language grounded navigation.

하단 두 사진은 각 방향의 직관을 보여줍니다. 왼쪽은 건물 내부의 6F 평면 안내도(층별 약도형 맵), 오른쪽은 Campus Map 형태의 약도입니다. 즉 정밀한 포인트 클라우드가 아니라 사람이 보는 약도(스케치 맵)를 입력으로 삼겠다는 의미입니다.

교수님 설명

강의 마무리에서 교수님은 앞선 발표( π0.5 같은 action expert(액션 전문가)를 따로 두고 flow matching(플로우 매칭)으로 정교해지는 흐름)를 다시 짚으면서, 결국 병목은 모델 구조가 아니라 데이터라고 정리합니다. ChatGPT가 잘 되는 건 인터넷의 거의 모든 데이터를 봤고, 그 뒤로도 서로 경쟁하며 더 좋은 답을 스스로 골라 개선했기 때문이죠. 반면 VL Navigation(시각-언어 내비게이션)에는 그만한 데이터가 없습니다. 시뮬레이터에서 2천 개쯤, sim-to-real(시뮬레이션→실제) 간극 때문에 실제 환경에서 몇 개 더 모아 학습하는 식이고, 회사 논문들은 거기에 H100 같은 자원으로 수만 개를 돌리고 있다고 합니다.

그래서 교수님 팀은 공개된 pretrained weight(사전학습 가중치)를 활용해, "너희가 foundation action model(파운데이션 행동 모델)이라니 한번 돌려보자"는 식으로 검증해 봤다고 합니다. 결과는 "되는 메소드도, 안 되는 메소드도 있고 환경에 크게 좌우된다". 자연어 지시만 주고 오른쪽 이미지가 입력되면 향후 다섯 스텝의 액션을 추론하는 모습을 보여주는데, "소화전이 보이면 오른쪽으로 살짝 틀어 소파가 보일 때까지 가서 멈춰라" 같은 지시를 실제로 수행합니다. 다만 이는 VLN 안에서도 instruction-based navigation(지시 기반 내비게이션)이라는 하위 분야로, 지시가 모두 충족되었는지까지 판정하는 평가 기준이 따로 있다고 설명합니다.

또한 논문들이 비동기적으로 파이프라이닝해서 구현했다고 주장하지만 정작 deploy(배포) 코드는 공개돼 있지 않아, VLA 모델의 순수 성능만 보려고 직접 reproduce(재현)했다고 합니다. A*, 로컬 트래커·trajectory(궤적) 보정, depth(깊이) 정보 일체 없이 "가고–reasoning(추론)하고–가고–reasoning하고"를 반복했는데, 운 좋게 안 부딪히긴 했지만 planning(경로계획) 전문가가 보면 정상적인 주행은 아니라고 솔직히 인정합니다. 속도 문제까지 더하면 갈 길이 멀다는 평가입니다.

보충 설명

교수님은 "잘 된다"는 논문들의 패턴도 짚습니다. ⓐ deploy 코드를 공개하지 않거나, ⓑ 데모 영상이 넓은 야외에서 다중 로봇이 자유롭게 충돌하는 장면은 거의 없고 대부분 1분 이내 길이라는 점입니다. 즉 현재 VLN 모델이 잘 소화하는 건 학습 데이터의 편향과 맞는 형태의 지시이고, 이는 "foundation 모델 성능은 데이터를 따라간다"는 원칙상 당연한 결과라는 것이죠.

그러면서 핵심 문제를 수학적으로 heterogeneous modality matching(이종 모달리티 매칭)으로 환원합니다. (이미지+지시→액션) 대신, 여기서는 지시→라이다 포인트를 맞히는 문제, 즉 text-based LiDAR place recognition(텍스트 기반 라이다 장소 인식)입니다. "맞혀야 할 pose(자세/위치)는 gray road 위에 있고, 주변에 small tower가 있으며, 서쪽에 silo가 있다" 같은 힌트(자연어)를 주면, 이를 가장 잘 설명하는 point cloud(포인트 클라우드)를 찾아내는 식입니다. 자연어를 또 하나의 모달리티로 어떻게 정렬할지가 관건입니다.

슬라이드 내용 정리

마지막 슬라이드는 Thank you! — 본문 없이 발표를 마무리하는 인사 슬라이드입니다.

교수님 설명

액션을 직접 돌려본 소회로 마무리를 엽니다. action expert 개념 전에는 토큰이 "왼쪽, 오른쪽"처럼 거의 날것으로 나와 generality(일반화)가 나빴는데, 2025년 12월 공개 에피소드로 돌려보니 이 정도는 된다고 합니다. 다만 이 정도 결과를 보이려면 차라리 nemo 류 도구로 확실히 되는 걸 보여주는 게 더 인상적일 수 있고, 이걸 만드는 데 H100을 수십 대 태웠을 것 같다며 일단 지켜보는 상황이라고 합니다.

그래서 교수님이 제시하는 두 갈래가 슬라이드 27의 목표로 수렴합니다. 첫째는 단일 로봇이 아니라 다중 자율 모빌리티가 메모리를 증강하며 공간을 지능적으로 해석하고, 암묵적 인간 지시까지 이해·상호작용하는 기술입니다. 둘째는 보다 product(제품) 레벨에 가까운데, SLAM(동시 위치추정·지도작성)으로 포인트 클라우드를 힘들게 만들거나 pose를 직접 추정하지 말고, 사람처럼 약도를 보여주며 "여기로 오세요" 하면 찾아가는 방식을 지향합니다. 이는 "다양한 형태의 map interface에서의 point trajectory grounding/deviation" 문제로 정의되며, 아직 푸는 법은 모른다고 솔직히 밝힙니다.

끝으로 이 방향에 관심이 있거나 연구·협업을 원하는 사람은 연락해 달라는 초대로 강의를 닫습니다. "딱 한 시간"이라는 말과 함께 발표를 마무리합니다.

보충 설명

두 방향의 차이를 직관적으로 보면 이렇습니다. 방향 ①(메모리 증강 공간지능)은 "로봇들이 서로의 경험을 누적·공유해 더 똑똑하게 길을 찾는다"는 쪽으로, 여러 모빌리티가 협력하는 multi-agent(다중 에이전트) 성격이 강합니다. 방향 ②(약도형 맵 내비게이션)는 정밀 지도(metric map) 없이 인간이 쓰는 스케치 맵·캠퍼스 약도를 그대로 입력으로 삼아, 그 위에서 목적지를 지정하면 로봇이 알아서 도달하게 만드는 인터페이스 연구입니다. 슬라이드 27의 두 사진(층별 안내도, 캠퍼스 맵)이 정확히 이 "사람이 보는 약도"를 가리킵니다.

핵심 메시지를 한 줄로 정리하면: VLN의 진짜 병목은 모델이 아니라 데이터와 평가의 현실성이며, 앞으로의 돌파구는 (a) 자연어·라이다·이미지처럼 서로 다른 모달리티를 정렬하는 매칭 문제와 (b) 정밀 지도 대신 인간 친화적 약도 인터페이스를 쓰는 내비게이션, 두 축에 있다는 것입니다.

용어표 · English ↔ 한글

English
한글
의미
SLAM (Simultaneous Localization and Mapping)
동시적 위치추정·지도작성
내 위치(포즈)와 주변 지도를 동시에 추정하는 로봇 핵심 기술.
Localization
위치추정
지도 안에서 로봇의 위치와 자세(포즈)를 알아내는 일.
Mapping
지도작성
센서 관측을 쌓아 공간의 지도를 만드는 일.
Point Cloud
점군
XYZ 점들의 집합으로 표현된 전통적 3D 지도 형식.
Occupancy Grid Map
점유 격자 지도
공간을 빈칸/막힘/미지로 칠해 표현하는 2D 지도(로봇청소기 등).
Odometry
오도메트리(주행추정)
센서로 로봇의 이동량을 실시간 추정하는 모듈.
Loop Closure
루프 클로저
이전에 온 곳을 다시 인식해 누적 오차(드리프트)를 줄이는 기법.
3D Foundation Model / Feed-forward Point Map
3D 파운데이션 모델·피드포워드 점지도
이미지 몇 장을 한 번에 넣어 3D 점지도를 바로 출력하는 모델(DUSt3R 계열).
Scale Estimation
스케일 추정
이미지 한 픽셀이 실제 몇 cm인지 모르는 문제를 로봇 간 일관되게 맞추는 일.
VLM (Vision-Language Model)
시각-언어 모델
이미지와 언어를 함께 다뤄 장면을 해석·리즈닝하는 모델.
RAG (Retrieval-Augmented Generation)
검색증강생성
DB에서 맥락을 꺼내 질문을 보강한 뒤 LLM에 넣어 답을 만드는 방식.
Traversability
주행 가능성
어느 지면을 밟고 지나갈 수 있는지에 대한 판단/정보.
VLN / VLA
시각-언어 내비게이션 / 시각-언어-행동
지시·지도·이미지를 받아 행동(이동)을 내는 End-to-End 내비게이션 패러다임.
Place Recognition
장소 인식
현재 관측이 이전 어느 장소인지 알아맞혀 로봇 간/세션 간 정렬에 쓰는 기술.

스스로 점검

  1. Localization과 Mapping의 차이는 무엇이며, 둘을 '동시에' 한다는 슬램의 의미를 설명할 수 있는가?
  2. 전통적 점군 지도 방식의 한계(드리프트, 맵 관리, 사람과의 소통 부재)는 무엇인가?
  3. 파운데이션 모델 등장 후 기술 스택에서 어떤 모듈이 어디로(예: 실시간 오도메트리 → VLM 리즈닝) 흡수되었는가?
  4. DUSt3R류 3D 파운데이션 모델이 기존 슬램과 다른 점, 그리고 이를 멀티로봇으로 확장할 때 좌표·스케일 정렬이 왜 필요한지 말할 수 있는가?
  5. 로봇의 '메모리'는 실제로 무엇이며, 비디오 요약 VLM·JSON·RAG가 위치 질의응답에 어떻게 결합되는가?
  6. VLN/VLA가 현재 잘 안 되는 상황(데이터 편향, 충돌 회피, 1분 이내 데모)과 그 근본 원인은 무엇인가?
  7. '점군도 포즈도 아닌 약도형 맵 인터페이스 내비게이션'이라는 마지막 연구 방향이 사람의 길찾기 방식과 어떻게 닮았는가?