보기
로봇공학 세미나 · Week 11 (조영근 교수, 인하대)

필드 로봇과 공간지능: 실환경을 다니는 로봇의 인지 설계
Field Robotics & Spatial AI — Robust Perception in the Real World

영어 강의를 듣기 전에 읽는 예습 자료입니다. 왼쪽 슬라이드를 보며 오른쪽 설명을 읽어보세요. 슬라이드를 클릭하면 크게 볼 수 있습니다.

핵심 요약

로봇이 실제 환경에서 스스로 인지하고 작업하려면 '내가 어디 있고, 주변에 무엇이 있으며, 어떻게 가야 하는가'를 풀어야 하며, 이 공간지능을 SLAM에서 시작해 거칠고 예측 불가능한 필드 환경으로 확장하는 것이 이번 강의의 핵심이다.

Physical AI와 공간지능(Spatial AI)

로봇은 실제 센서·액추에이터로 물리 세계와 상호작용하는 Physical AI의 직접적 대상이다. 공간지능은 시각·관성(IMU) 등 다양한 정보를 결합해 주변의 기하학적 구조와 의미를 동시에 이해하는 능력으로, SLAM → 예측 가능한 월드 모델 → 행동(Action)으로 이어지는 위계로 발전하고 있다.

SLAM의 원리와 핵심 난제

지도 위에서 위치를 추정하는 Localization과 위치 기반으로 지도를 만드는 Mapping을 동시에 풀어야 하는 '닭과 달걀' 문제가 SLAM이다. 프론트엔드는 데이터 연관(association)·루프 클로저를, 백엔드는 최적화를 담당하며, 결국 데이터 간 연관성인 Pose-Correspondence가 깨지면 지도와 경로가 모두 무너진다.

실환경에서 무너지는 가정

벤치마크에서 잘 되던 SLAM도 어둡거나 좁거나 동적인 실환경에서는 쉽게 실패한다. 거울·유리벽 반사, 분진, 동적 물체, 강우·역광 같은 외란이 잘못된 대응(garbage correspondence)을 만들어 위치·지도 추정을 발산시킨다.

필드 로봇이란

농업·산림·건설·수중·우주처럼 비정형이고 예측 불가능한 환경에서 동작하는 로봇이 필드 로봇이다. 기구 설계보다 '이 환경을 인지하려면 어떤 센서 조합이 필요한가'에서 출발하며, 저하되는 인지·제한된 통신·장기 자율성이 공통 과제다.

3대 키워드: Robust · Long-term · Efficient

필드 로봇은 강건한 인지(Robust), 장기 자율 주행(Long-term Autonomy), 제한된 자원 속 효율(Efficiency)을 동시에 만족해야 한다. 데이터를 많이 따는 실험실과 달리, 실제 투입 시에는 한 장을 찍어도 의미 있는 정보를 뽑아 신뢰도 있는 지도·위치로 연결해야 한다.

연구실의 접근

멀티로봇 SLAM과 동적 객체 제거 디스크립터, 달 탐사용 분산 매핑(제주 만장굴·KICT 아날로그), IMU 자기지도학습, 자기 경험 기반 주행가능성(traversability) 추정, 수중 영상개선·깊이추정 등으로 실환경 인지 문제를 풀어간다.

벤치마크에서 작동하는 SLAM을 넘어, 거칠고 예측 불가능한 실제 '필드'에서 강건하고 장기적이며 효율적으로 동작하는 로봇 공간지능을 설계하는 이야기.
Part 1슬라이드 1~4

01인사와 강연 개요: 필드 로봇·공간지능 소개

slide 1
슬라이드 1 · 제목: 필드로봇을 위한 강건한 공간지능 기술 (인하대 SPARO 연구실, 조영근 교수)
slide 2
슬라이드 2 · 연사 소개: 약력과 연구 주제
slide 3
슬라이드 3 · 오늘의 주제: Spatial AI (취소선)
slide 4
슬라이드 4 · 오늘의 주제: Spatial AI for Field Robots
슬라이드 내용 정리

강연 표지입니다. 제목은 "필드로봇을 위한 강건한 공간지능 기술"이며, 발표자는 인하대학교 전기전자공학부 Spatial AI and Robotics Lab (SPARO)조영근(Younggun Cho) 교수입니다. 오른쪽에는 연구 데모 영상 캡처가 있는데, 상단은 Uni-Mapper: Unified Mapping Framework for Multi-modal LiDARs in Complex and Dynamic Environments라는 프로젝트로 여러 종류의 LiDAR를 통합해 지도를 만드는 작업이고, 아래는 3D 좌표축(로봇의 자세, pose) 시각화입니다.

교수님 설명

인하대학교 조영근 교수님이 연사로 초청되어 강연을 시작합니다. 오늘 주제는 "필드로봇(field robot)""강건한 공간지능(spatial intelligence)"으로, 두 개념이 각각 무엇인지 가볍게 소개하는 자리라고 말씀하십니다.

앞서 다른 교수님(김기석 교수님)이 SLAM과 관련된 내용을 다뤘다는 점을 언급하며, 본인은 그 위에서 로봇의 자율주행·자율작업을 위한 공간지능이라는 큰 그림을 이야기하겠다고 합니다. 연구실에서는 사람을 닮은 로봇뿐 아니라 다양하게 움직이는 로봇들로 연구를 진행하고 있다고 소개합니다.

슬라이드 내용 정리

연사 소개 슬라이드입니다. 연구 목표는 "다양한 필드/실제 환경에서 로봇 자율주행 및 자율작업을 위한 공간 지능 기술 개발"입니다. 학력(Education)은 인하대 학사, KAIST 석사(지도교수 Myung Jin Chung), KAIST 박사(지도교수 Ayoung Kim)이고, 경력(Work Experience)으로 KAIST 연구원·박사후연구원, 영남대 조교수를 거쳐 현재 인하대 부교수입니다. 연구 주제(Research Topics)는 크게 두 가지로 나뉩니다: 필드 환경(필드로봇의 강건한 SLAM, 능동 센싱)과 도시 환경(대규모 매핑·측위, 장기 자율주행을 위한 학습 기반 측위). 오른쪽 사진은 사람형/비사람형 연구 멤버들입니다.

교수님 설명

교수님은 본인의 연구 정체성을 피지컬 AI(Physical AI)스페셜 AI(Spatial AI, 공간지능)로 설명합니다. 요즘 화두인 피지컬 AI는 로봇처럼 실제 물리 환경과 상호작용하는 AI를 뜻하고, 로봇을 다루는 사람으로서 이 키워드와 직접적으로 연결되어 있다고 말합니다.

공간지능을 일반 대중에게 설명할 때는 "사람이 특정 공간을 다니며 일하려면 공간지각 능력이 필요한데, 그것을 로봇을 위해 설계하는 것"이라고 비유합니다. 결국 로봇이 어떤 환경에 투입되어 자율적으로 인지하고 작업하려면 내가 어디 있고(측위), 주변에 무엇이 있고(지도), 어떻게 가야 할지(계획)를 모두 알아야 한다는 것입니다.

보충 설명

피지컬 AI vs 생성형 AI: 챗봇·이미지 생성처럼 화면 안에서 데이터를 다루는 AI와 달리, 피지컬 AI는 실제 센서 데이터를 입력받고 액추에이터(actuator, 모터·바퀴 등)로 물리 세계를 바꿉니다. 그래서 "실제 환경과 상호작용하는 시스템"이 핵심입니다. 또 자주 함께 등장하는 월드 모델(world model)은 강화학습의 환경 모델처럼, 에이전트가 어떤 행동을 했을 때 환경이 어떻게 변할지 예측하는 모델을 뜻합니다. 즉 공간지능은 SLAM(측위·지도작성) → 예측 가능한 공간 모델 → 인지(perception) → 행동(action) → 실제 로봇으로 이어지는 계층(hierarchy)의 한 축입니다.

슬라이드 내용 정리

"오늘의 주제: Spatial AI"라고 적혀 있는데, Spatial AI취소선이 그어져 있습니다. 이어지는 슬라이드에서 주제를 더 구체적으로 좁히겠다는 일종의 연출입니다.

교수님 설명

교수님은 공간지능(Spatial AI)이라는 넓은 키워드를 정의합니다. 스페셜 AI는 시각 정보, IMU 같은 내부 센서 정보, 그리고 공간 정보를 결합해서 주변 환경의 기하학적 구조(geometry)와 의미(semantics)를 동시에 이해하는 기술이라는 것입니다.

예시로, 잘 알려진 백승렬 교수님이 최근 월드랩스(World Labs)를 창업해 환경을 매핑하고 다른 시점으로 렌더링해 보여주는 월드 모델들을 만들고 있다고 소개합니다. 결국 "AI가 실제 환경을 어떻게 이해해야 하는가", 즉 3차원 공간에서 사물의 위치·모양·크기·움직임을 이해하고 예측하는 기술이 공간지능이라고 정리합니다. 다만 Spatial AI 전반은 다른 교수님들도 다뤘을 것이라, 본인은 취소선을 긋고 범위를 좁히겠다고 예고합니다.

슬라이드 내용 정리

주제를 좁혀 다시 제시합니다. "오늘의 주제: Spatial AI for Field Robots" — 즉, 일반적인 공간지능이 아니라 필드로봇을 위한 공간지능에 초점을 맞추겠다는 선언입니다.

교수님 설명

오늘 강연의 핵심을 필드로봇(field robot)으로 좁힙니다. 로봇공학을 공부하는 학생들이니 SLAM은 이미 배웠을 거라 전제하고, 기본 개념을 짚습니다. 지도가 주어졌을 때 그 안에서 로봇의 위치·자세를 추정하는 것이 측위(localization), 반대로 위치를 알 때 지도를 만드는 것이 매핑(mapping)이며, 이 둘을 동시에 하는 것이 SLAM(Simultaneous Localization and Mapping)입니다.

SLAM이 어려운 이유는 지도도 위치도 둘 다 정확하지 않다는 점입니다. 한쪽이 정확하면 다른 쪽은 상대적으로 쉽지만, 둘 다 모르는 상태에서 지도와 위치를 번갈아 업데이트하며 동시에 풀어야 합니다. 교수님은 이를 "닭이 먼저냐 달걀이 먼저냐(chicken-and-egg)" 문제에 비유하고, 그래서 여러 센서의 정보를 조합하는 것이 중요하다고 강조합니다.

보충 설명

SLAM 시스템 구조 — 프론트엔드/백엔드: 일반적인 SLAM 시스템은 센서 데이터가 들어오면 이를 프론트엔드(front-end)백엔드(back-end)로 나눠 처리합니다. 프론트엔드에서 가장 중요한 일은 데이터 연관(data association)입니다. 컴퓨터 비전에서 배우는 특징 추출(feature extraction)과 특징 매칭(feature matching)처럼, 연속된 이미지·스캔들 사이에서 같은 지점·특징이 어떻게 대응되는지를 찾는 작업입니다. 이 연관 정보를 바탕으로 백엔드가 전체 궤적과 지도를 최적화합니다. 필드로봇은 비포장·산악·재난 현장처럼 정형화되지 않은 환경에서 동작하기 때문에, 이런 데이터 연관과 센서 융합을 한층 강건하게(robust) 만드는 것이 이번 강연의 핵심 과제가 됩니다.

Part 2슬라이드 5~8

02Physical AI와 Spatial AI 개념

slide 5
슬라이드 5 · SLAM = 닭과 달걀 문제
slide 6
슬라이드 6 · 전형적인 SLAM 시스템 구성
slide 7
슬라이드 7 · 프론트엔드 / 백엔드 블록도
slide 8
슬라이드 8 · 자율주행 루프 안의 SLAM
슬라이드 내용 정리

제목: Simultaneous Localization and Mapping (SLAM)? — 동시적 위치추정·지도작성. 핵심 메시지는 "닭과 달걀 문제(Chicken and Egg problem)"입니다.

왼쪽은 지도(Map), 오른쪽은 로봇의 자세(Pose of Robot)이고, 가운데 순환 화살표가 둘의 관계를 나타냅니다. 지도 기준으로 내 위치를 찾는 것이 Localization(위치추정), 내 위치 기준으로 지도를 만드는 것이 Mapping(지도작성)입니다. 아래 문구: Update both information simultaneous using observations — 관측값(observations)으로 두 정보를 동시에 갱신. 맨 아래에는 사용 센서들 — Camera, LiDAR, IMU, GPS.

교수님 설명

로봇 수업에서 다들 SLAM을 배우셨을 텐데, 정리하면 이렇습니다. 지도가 주어졌을 때 그 안에서 로봇의 위치와 자세를 추정하는 것이 Localization, 반대로 위치를 기반으로 지도를 만드는 것이 Mapping입니다. SLAM은 이 둘을 동시에 해야 하는 문제예요.

어려운 핵심은, 만약 한쪽 정보가 아주 정확하면 — 예를 들어 지도가 완벽하거나 지도 안의 의미적 정보가 정확하면 — 위치추정은 상대적으로 쉬워집니다. 그런데 SLAM에서는 지도도 없고 위치도 모르는 상태에서 출발해요. 지도도 업데이트하고 위치도 업데이트하면서 번갈아 동시에 풀어야 하니, 그래서 "닭이 먼저냐 달걀이 먼저냐" 하는 닭과 달걀 문제라고 부르는 겁니다.

이걸 가능하게 하려면 결국 여러 센서의 정보를 조합하는 것이 중요합니다. 슬라이드 아래에 보이는 카메라·라이다·IMU·GPS 같은 서로 다른 센서의 관측값을 결합해서 두 정보를 함께 추정하는 것이죠.

보충 설명

비유하자면 처음 가는 어두운 방에서 손전등 없이 걷는 상황입니다. 방 구조를 알면 내 위치를 가늠할 수 있고, 내 위치를 알면 방 구조를 그릴 수 있는데 — 둘 다 모르는 채로 시작하니, 발을 디딜 때마다 "지금 위치는 대략 여기쯤", "그렇다면 벽은 저기쯤"을 조금씩 동시에 수정해 나가는 것입니다.

슬라이드 내용 정리

제목: Typical SLAM system — 전형적인 SLAM 파이프라인. 흐름은 Sensor Data → Front-end → Back-end → 결과입니다.

Front-endFeature Extraction, Association(특징 추출·데이터 연관)을 담당하고, Back-endMap Optimization(지도 최적화)을 담당합니다. 중간에 Short-term / Long-term 연관, Pose-graph Optimization, Global Mapping 같은 요소가 보이고, 최종 출력은 Robot Trajectories & Global Map(로봇 경로 + 전역 지도)입니다. 출처: (Dude, 2017 / Cho, 2020).

교수님 설명

일반적인 SLAM 시스템을 구분해 보면, 센서 데이터가 들어오고 이를 프론트엔드(front-end)백엔드(back-end)로 나눕니다. 프론트엔드에서 가장 중요한 역할은 바로 연관(association)을 만드는 것입니다. 컴퓨터 비전 수업에서 배운 특징 추출(Feature extraction)특징 매칭(Feature matching)처럼, 연속된 이미지들 사이에서 특징들이 어떻게 연결되는지를 찾는 것이죠.

여기서 두 종류의 연관이 있습니다. 연속된 프레임 간의 단기(short-term) 연관과, 시간이 한참 지난 뒤 같은 장소를 다시 방문했는지를 따지는 장기(long-term) 연관입니다. 후자가 바로 뒤 슬라이드에 나올 loop closure(루프 클로저)로 이어집니다.

이렇게 프론트엔드가 만들어 준 연관 정보를 가지고 백엔드에서 최적화(optimization)를 풀면, 오른쪽 그림처럼 로봇의 경로도 잘 나오고 전역 지도도 잘 나오는, 우리가 기대하는 결과를 얻을 수 있습니다.

슬라이드 내용 정리

같은 Typical SLAM system을 더 정식 블록도로 표현한 그림입니다. 입력은 raw measurements(원시 측정값).

front end 안에는 두 블록 — ① sensor processing: feature extraction, IMU preintegration, downsampling(특징 추출, IMU 사전적분, 다운샘플링), ② place recognition: loop-closure detection(장소 인식·루프 클로저 검출). 이들이 pseudo-measurements(유사 측정값)와 loop-closure constraints(루프 클로저 제약)를 만들어 back end로 넘깁니다. 백엔드는 geometric SLAM (based on factor graph optimization)(팩터 그래프 최적화 기반). 출력은 estimated pose, map. 출처: "Slam handbook: From localization and mapping to spatial intelligence." (2025).

교수님 설명

조금 더 디테일하게 들어가면, 프론트엔드에서는 먼저 센서 데이터를 센서 프로세싱(특징 추출, IMU 사전적분, 다운샘플링)으로 처리하고, 연속적인 자세 추정값을 만들어 최적화로 넘깁니다. 그리고 또 하나의 축이 place recognition, 즉 루프 클로저예요.

루프 클로저의 핵심은 단 하나, "내가 갔던 곳을 다시 방문했는가"입니다. 한 자리에 서 있다가 한 바퀴 돌아 같은 자리로 돌아왔을 때, 이전에 방문한 장소를 재방문했음을 인식하는 것 — 이를 데이터 연관 관점에서 loop closure(루프 클로저)라고 부릅니다.

이렇게 프론트엔드가 만든 일반 측정값과 루프 클로저 제약을 백엔드의 geometric SLAM에 넣어 팩터 그래프 최적화(factor graph optimization)로 풀면, 최종적으로 estimated pose(추정 자세)map(지도)이 나오게 됩니다. 이것이 SLAM의 결과물입니다.

보충 설명

팩터 그래프(factor graph)는 추정하려는 변수(로봇 자세들·랜드마크)를 노드로, 그들 사이의 측정 제약을 간선(팩터)으로 표현한 그래프입니다. 루프 클로저는 멀리 떨어진 두 자세 노드를 잇는 강력한 제약을 추가해, 오랜 주행으로 누적된 오차(drift)를 한 번에 잡아당겨 줄여 줍니다. IMU 사전적분(preintegration)은 고주파 IMU 측정을 매번 다시 적분하지 않고 미리 한 덩어리로 묶어 최적화 비용을 줄이는 기법입니다.

슬라이드 내용 정리

제목: 자율주행 로봇에서의 SLAM. SLAM이 자율주행 전체 루프 안에서 어떤 자리에 놓이는지를 보여 줍니다.

흐름: motion goal → motion planning → motion plan → motion controller → control inputs → system: robot and environment. 환경에서 나온 sensor dataSLAM 모듈로 들어가고, 그 안에 SLAM front-end: odometry(오도메트리)와 SLAM front-end: loop closures, SLAM back-end가 있습니다. SLAM이 내놓는 map and robot state(지도와 로봇 상태)가 다시 motion planning으로 피드백되고, odometry는 controller로, error는 planning 단으로 되돌아갑니다. 출처: "Slam handbook ..." (2025).

교수님 설명

이걸 자율주행까지 확장하면, 전체 시스템에서 SLAM의 결과물 — 즉 지도와 로봇 상태(map and robot state) — 가 플래닝(planning)으로 들어갑니다. 플래닝이 컨트롤(control)로, 컨트롤이 다시 로봇의 액션(action)으로 이어지는 닫힌 루프 구조죠. SLAM은 이 루프에 "내가 어디 있고 주변이 어떤지"를 공급하는 인지 모듈입니다.

그런데 실제 환경에 들어가면 문제가 훨씬 많아집니다. KITTI 같은 벤치마크 데이터셋을 ORB-SLAM 같은 알고리즘으로 돌리면 잘 됩니다. 그런데 똑같은 걸 로봇에 카메라를 붙여 직접 돌려 보면 깨지는 경우가 정말 많아요. 환경에 조금만 제약이 생기거나, 좁은 공간, 어두운 환경에 가면 동작을 잘 안 합니다.

원인은 다양합니다. 동적 물체(dynamic objects)가 있거나, 비·눈 같은 극단적 날씨, 카메라라면 갑자기 들어오는 광원(역광) 같은 것들이죠. 이런 외란(disturbance)은 결국 우리가 애써 만든 연관 정보를 오염시켜 잘못된 측정값, 즉 "쓰레기(garbage)" 입력을 만들고, 이 잘못된 정보를 걸러 내는 것이 실제 환경 SLAM의 큰 과제가 됩니다. 그래서 단순히 벤치마크가 잘 되는 것과 실제 로봇에서 강건하게(robust) 동작하는 것은 전혀 다른 문제입니다.

Part 3슬라이드 9~13

03SLAM 기초: 위치추정과 지도작성

slide 9
슬라이드 9 · 실세계 SLAM 시스템 구조(프론트엔드·백엔드)와 "Garbage in, Garbage out"
slide 10
슬라이드 10 · 실세계 SLAM의 도전과제: 장기 자율주행
slide 11
슬라이드 11 · 가나데 교수의 명언 "Correspondence!"
slide 12
슬라이드 12 · 필드 로보틱스란 무엇인가
slide 13
슬라이드 13 · 필드 로보틱스 학계 동향(WFR, IEEE T-FR)
슬라이드 내용 정리

실세계에서 동작하는 전형적인 SLAM 시스템(Simultaneous Localization and Mapping)의 파이프라인을 보여준다. Sensor Data → Front-end(특징 추출·데이터 연관, Feature Extraction & Association) → Back-end(지도 최적화, Map Optimization) 순으로 흐른다. 오른쪽 위에는 잘못된 추정과 잘못된 매칭(Wrong Estimation & False Matching)으로 망가진 지도 예시가 있고, 그 아래엔 동적 물체(Dynamic Objects), 저조도(Low Visibility), 조명(Illumination), 동적 점(Dynamic Points), 잘못된 루프 폐쇄(False Loop Closures) 같은 교란 요인이 나열되어 있다. 핵심 메시지는 빨간 박스의 "Garbage in, Garbage out(쓰레기가 들어가면 쓰레기가 나온다)". 왼쪽엔 "어떻게 강건한(robust) SLAM을 만들 것인가?"라는 질문이 적혀 있다. (출처: Zhang 2014, Lim 2020)

교수님 설명

여기서부터 본격적으로 SLAM을 다룬다. 지도(map)가 있을 때 그 안에서 로봇의 위치·자세를 추정하는 것이 위치추정(Localization), 반대로 위치를 알 때 지도를 만드는 것이 지도작성(Mapping)이다. SLAM은 이 둘을 동시에 풀어야 하는 문제다. 만약 한쪽 정보가 아주 정확하다면 — 예컨대 지도가 완벽하거나 환경의 의미적 정보가 정확하다면 — 나머지 한쪽은 비교적 쉽게 풀린다. 그런데 SLAM이 어려운 진짜 이유는 지도도 위치도 둘 다 정확하지 않다는 데 있다. 지도도 모르고 내 위치도 모르는 상태에서, 지도를 갱신하고 위치도 갱신하기를 번갈아 동시에 해야 하니 전형적인 '닭이 먼저냐 달걀이 먼저냐(chicken-and-egg)' 문제가 된다.

그래서 여러 센서의 정보를 조합하는 것이 중요하다. 일반적인 SLAM 시스템은 센서 데이터가 들어와 프론트엔드백엔드로 나뉜다. 프론트엔드의 가장 중요한 역할은 바로 데이터 연관(Data Association)이다. 컴퓨터 비전에서 배우는 특징 추출(Feature Extraction)·특징 정합(Feature Matching)으로 연속된 이미지들 사이의 특징이 어떻게 연결되는지를 찾고, SLAM에서는 한 바퀴 돌아 같은 자리로 돌아왔을 때 그 장소를 재방문했는지를 판단하는 루프 클로저(Loop Closure)까지 다룬다. 이렇게 만들어진 연관 정보를 백엔드가 받아 최적화 기반(optimization-based)으로 풀면 오른쪽 그림처럼 깔끔한 경로(pose)와 지도가 나온다.

문제는 실제 환경이다. KITTI 같은 벤치마크 데이터셋은 잘 돌아가지만, 직접 로봇·카메라로 찍어 넣으면 깨지는 경우가 많다. 좁거나 어두운 환경, 동적 물체, 비·눈, 카메라의 광원 번짐 같은 외란이 생기면 연관 정보가 오염된다. 결국 잘못된 입력은 잘못된 결과로 이어진다(Garbage in, Garbage out)는 것이 이 슬라이드의 핵심이다.

보충 설명

프론트엔드/백엔드라는 용어는 웹 개발의 그것과 다르다. SLAM에서 프론트엔드는 센서 원시 데이터를 가공해 "이 특징과 저 특징이 같은 것"이라는 제약(constraint)을 만들어내는 인지(perception) 단계이고, 백엔드는 그 제약들을 모아 오차가 최소가 되도록 자세·지도를 동시에 추정하는 최적화(graph optimization) 단계다. 비유하자면 프론트엔드는 "단서 수집", 백엔드는 "단서들을 모순 없이 맞추는 퍼즐 풀이"에 해당한다.

슬라이드 내용 정리

제목은 "Challenges in Real-world SLAM"이며 부제는 장기 자율주행을 위한 실세계 로봇 지능(Real-world Robot Intelligence for Long-term Autonomy)이다. 왼쪽은 야간의 어두운 환경에서 돌린 SLAM 결과(점군과 궤적이 보임), 오른쪽은 SLAM 소프트웨어의 실제 실행 화면(파라미터 패널과 추정 궤적)을 담은 데모 화면이다.

교수님 설명

최근에는 VINS(Visual-Inertial), 라이다(LiDAR) 기반의 좋은 SLAM 솔루션이 많이 나왔다. 하지만 환경에 조금만 제약이 걸리거나(좁은 공간, 어두운 곳), 동적 물체가 등장하거나, 극단적으로 비·눈이 오면 잘 동작하지 않는다. 특히 카메라를 쓰면 광원에 의해 갑자기 번짐(glare)이 생기는 등 센서 단계에서부터 문제가 발생하고, 이는 곧 우리가 만든 연관 정보에 외란으로 전달된다.

왼쪽은 Direct Sparse Odometry(DSO) 계열의 직접식 비주얼 SLAM을 야간에 돌려본 예시다. 데모 영상에서는 아주 예쁘게 시작하지만, 실제로 직접 돌려보면 초기화(initialization) 성공률이 그리 높지 않다. 이렇게 시작 자체가 안 되는 문제들이 실세계에서는 흔하게 나타난다는 점을 강조한다.

슬라이드 내용 정리

카네기멜런대학(CMU)의 Takeo Kanade 교수 일화. 어느 날 한 학생이 "컴퓨터 비전(그리고 SLAM)에서 가장 중요한 세 가지 문제가 무엇인가?"라고 묻자, 가나데 교수는 "Correspondence, Correspondence, Correspondence!(대응관계, 대응관계, 대응관계!)"라고 답했다는 내용이다. (인용 수 14.7만, 2026.02.05 기준)

교수님 설명

친한 이문태 박사가 세미나에서 보여줬던 자료라고 소개한다. 결국 SLAM에서 가장 중요한 세 가지 문제를 꼽으라면 — 로봇의 연속적인 모션 추정이든, 루프 클로저든 — 모두 대응관계(Correspondence), 즉 데이터들 간의 연관성을 어떻게 정확히 잡아줄 것인가의 문제로 귀결된다는 뜻이다. 세 가지를 물었는데 세 개 다 "Correspondence"라고 답한 것이 핵심 메시지다.

이것이 앞 슬라이드의 "Garbage in, Garbage out"과 직결된다. 센서 데이터가 깨지면 대응관계가 깨지고, 대응관계가 깨지면 제약(constraint)이 잘못되며, 그러면 최적화로 나오는 지도와 자세(pose)가 모두 무너진다. 그래서 험한 환경에서 동작하는 필드 로봇에서는 이 대응관계 문제가 더욱 결정적으로 중요해진다.

보충 설명

대본에 등장하는 거울·유리벽 예시가 바로 "대응관계가 깨지는" 전형이다. 국립중앙과학관 데모에서 벽이 거울이라 카메라에 사람이 비쳐 마치 앞에 사람이 있는 것처럼 잡히고, 엘리베이터의 곡면 금속 패널에 라이다 빔이 반사되어 실제로는 1m짜리 직선 벽인데 둥근 공간처럼 측정되는 일이 벌어진다. 센서가 "거짓 단서"를 만들어내면 그것을 진짜 대응으로 오인해 지도 전체가 틀어진다. 강건한(robust) SLAM이란 이런 잘못된 대응(outlier)을 걸러내는 능력이라고 볼 수 있다.

슬라이드 내용 정리

필드 로보틱스(Field Robotics)란? 복잡하고 비정형적인 환경(complex, unstructured environments) — 주로 실외 — 에서 동작하는 로봇을 개발하는 분야다. 농업 현장(agricultural fields), 숲(forests), 건설 현장(construction sites), 수중(underwater) 등 동적이고 예측 불가능한(dynamic and unpredictable) 공간을 대상으로 한다. 필드 로봇은 험한 지형, 기상 변화를 견디고 사람의 개입이 거의 없거나 전혀 없는 상황을 다루도록 설계된다. 아래 이미지는 IEEE ICRA 2024의 Workshop on Field Robotics로, 눈 덮인 숲속 험지를 주행하는 로봇 사진이다.

교수님 설명

실세계 SLAM의 어려움은 필드(field)까지 가지 않고 일상적인 실내 환경만 가도 충분히 드러난다. 캠퍼스에서 자율주행 로봇을 테스트하다가 병원에 들어가면 유리벽이 많고, 심지어 벽이 없이 봉(파이프)만 박아놓은 난간도 있어서 인식이 매우 까다로워진다. 이런 난해한 이슈들이 실환경에서 끊임없이 발생한다.

필드 로봇은 우리가 연구·개발하려는 목표 환경 자체가 필드 환경인 로봇을 말한다. 농업 로봇, 산림 로봇, 건설 현장 로봇, 수중 로봇처럼 거칠고 예측 불가능한 환경에서 동작하는 로봇들이다. 이런 환경에서는 앞서 강조한 대응관계의 신뢰성이 더욱 어려워지므로, 강건한 SLAM이 핵심 기술이 된다.

슬라이드 내용 정리

필드 로보틱스 분야의 학계 동향을 보여준다. 2026년 6월 5일 열리는 Workshop on Field Robotics(WFR) 포스터(농업·건설·험지 로봇 이미지, ICRA 2026 비엔나 개최), 그리고 새로 출범한 학술지 IEEE Transactions on Field Robotics와 이를 후원하는 IEEE Robotics & Automation Society(RAS), RAS 산하 Field Robotics Technical Committee를 함께 소개한다.

교수님 설명

로봇 학계에서 필드 로보틱스가 별도 분야로 자리 잡고 있음을 보여준다. ICRA·IROS 같은 주요 학회에서 다루는 Animal/legged 로봇 시스템도 필드 로봇의 한 갈래이며, 이와 연계된 흐름들이 점점 커지고 있다. 예전부터 필드 로봇 관련 활동이 있었고, 최근에는 전용 워크숍(WFR)과 전용 학술지(IEEE Transactions on Field Robotics)까지 새로 만들어질 만큼 분야가 본격적으로 제도화되고 있다는 점을 전한다.

Part 4슬라이드 14~18

04SLAM 시스템 구조: 프론트엔드·백엔드·루프 클로저

slide 14
슬라이드 14 · 현실 세계의 로봇 — 배송로봇 고장 (Starship·Didi)
slide 15
슬라이드 15 · 필드 환경: 지하/동굴 — DARPA SubT
slide 16
슬라이드 16 · DARPA SubT 챌린지 영상
slide 17
슬라이드 17 · 필드 환경: 해양 — 수상·수중 로봇, 양식장
slide 18
슬라이드 18 · SeePerSea 멀티모달 인식 데이터셋
슬라이드 내용 정리

제목은 "Robot in Real-world?"(현실 세계의 로봇)입니다. 사진 두 장이 핵심 메시지를 보여 줍니다. 왼쪽은 물에 잠긴 도로(횡단보도/과속방지턱이 물에 덮인 모습), 오른쪽은 자막 DIDI ROBOT DELIVERY CAR BROKE DOWN이 붙은 채 비포장 흙길에서 멈춰 버린 배송 로봇입니다. 출처는 Starship, Didi robot으로, 실제 상용 배송 로봇이 현장에서 겪는 실패 사례를 모은 슬라이드입니다.

교수님 설명

앞에서 본 것처럼, 프론트엔드에서 센서 데이터를 처리해 연속적인 자세(pose)를 추정하고 루프 클로저(loop closure)로 재방문 여부를 잡아 백엔드 최적화를 풀면, 깔끔한 경로와 지도가 나옵니다. 그런데 이건 어디까지나 잘 정돈된 조건에서의 이야기입니다. 실제로 4코어급 보드에 코드를 올려 KITTI 같은 벤치마크 데이터셋을 돌리면 잘 됩니다. 하지만 같은 코드를 로봇에 달고 직접 카메라로 찍어 넣으면 트래킹이 끊기고 깨지는 경우가 굉장히 많습니다.

환경에 조금만 제약이 생기면 — 좁거나 어두운 공간, 동적인 물체(dynamic objects), 비·눈, 카메라에 갑자기 들어오는 강한 광원(glare) — SLAM이 잘 동작하지 않습니다. 센서 단에서 생긴 오류가 결국 우리가 믿고 있던 연관 정보(association)에 외란으로 전달되고, 잘못된 정보가 최적화로 흘러들어 가면 결과가 무너집니다.

이 슬라이드의 두 사진이 바로 그 예입니다. 오른쪽 Didi 배송 로봇은 지면 상태를 제대로 인식하지 못한 채 일반 아스팔트인 줄 알고 주행하다가 흙길에서 넘어져 그대로 멈췄고, 왼쪽처럼 물에 잠긴 도로 역시 인식 가정이 깨지는 상황입니다. 정리된 캠퍼스 데모에서는 멀쩡하던 로봇이, 실생활 환경으로 한 발만 나가도 이런 문제들이 쏟아진다는 것이 요지입니다.

보충 설명

대본에서 교수님이 강조한 "가장 중요한 세 가지 문제"는 사실 하나로 수렴합니다. 로봇의 연속 모션 추정도, 루프 클로저도 결국 데이터 연관(data association), 즉 대응 관계(correspondence)를 어떻게 올바로 잡느냐의 문제입니다. 센서 데이터가 깨지면 → 대응 관계가 깨지고 → 지도(map)가 틀어지고 → 결국 맵과 포즈가 모두 무너집니다.

대표적인 함정이 반사·거울 면입니다. 과학관 데모에서 앞에 사람이 없는데도 카메라에는 사람이 보였는데, 이는 광택 있는 벽이 거울처럼 반사해 관람객의 상이 찍혔기 때문입니다. 라이다(LiDAR)도 마찬가지로 반사면을 만나면 1m 앞 벽을 엉뚱하게 측정해 방을 원형처럼 그려 버립니다. 병원의 유리벽·난간처럼 일상 환경 곳곳에 이런 잘못된 측정(garbage) 요인이 숨어 있습니다.

슬라이드 내용 정리

제목은 Field Environment: Underground/Cave(필드 환경: 지하/동굴)이고, 항목으로 DARPA SubT Challenge가 적혀 있습니다. 인용된 연구는 두 편입니다. ① "Nebula: TEAM CoSTAR's Robotic Autonomy Solution that Won Phase II of DARPA Subterranean Challenge" (Agha, Field Robotics, 2022) — DARPA 지하 챌린지 2단계 우승 팀의 자율주행 솔루션. ② "Present and Future of SLAM in Extreme Underground Environments" (K. Ebadi, IEEE T-RO, 2024) — 극한 지하 환경에서의 SLAM 정리·전망 논문입니다.

교수님 설명

여기서 필드 로봇(field robot)이라는 개념이 등장합니다. 필드 로봇이란, 우리가 목표하는 환경 자체가 정돈되지 않고(unstructured) 예측 불가능한(unstructured & unpredictable) 필드 환경인 로봇을 말합니다. 농업 로봇, 숲속 로봇, 건설 현장 로봇, 수중 로봇처럼 공격적이고 변화무쌍한 환경에서 동작해야 하는 로봇들이 여기에 속합니다.

필드 로봇 연구에서 가장 먼저 결정되는 것은 기구·구동 설계보다 센서 조합입니다. 내가 갈 환경이 카메라가 강한 곳인지, 라이다가 강한 곳인지, 의미 있는 측정값이 어느 거리에서 들어오는 환경인지에 따라 어떤 센서를 어떻게 달지가 모두 달라지기 때문입니다. 그 대표적인 극한 사례 중 하나가 바로 지하·동굴 환경이고, 이를 겨냥한 것이 2011년 이후 진행된 DARPA SubT(Subterranean) Challenge입니다.

슬라이드 내용 정리

앞 슬라이드와 같은 제목 Field Environment: Underground/Cave, 항목 DARPR SubT Challenge이며, 가운데에 DARPA 출처의 영상(데모 비디오) 자리가 놓여 있습니다. 텍스트는 거의 없고 영상 시연이 중심입니다.

교수님 설명

DARPA SubT 챌린지에서는 여러 팀이 팀을 꾸려 동굴 탐사를 하고, 동굴을 맵핑하며 사람과 협력하는 임무를 수행합니다. 팀마다 전략이 다른데, 어떤 팀은 드론을 먼저 날려 정찰하고, 어떤 팀은 드론 대신 보행·주행 로봇을 먼저 투입합니다.

흥미로운 점은 현장에서 생기는 변수입니다. 동굴 안에는 먼지가 매우 많은데, 드론을 띄우면 그 바람에 바닥 먼지가 구름처럼 일어나 센서를 가려 버립니다. 이런 환경 특유의 외란을 어떻게 처리할지가 큰 문제가 되며, 결국 각 필드마다 고유한 문제 집합이 발생한다는 것을 보여 주는 사례입니다.

슬라이드 내용 정리

제목은 Field Environment: Marine(필드 환경: 해양)이고, 항목은 Ocean surface and underwater robots(수상 및 수중 로봇)입니다. 인용 연구는 ① "Pohang Canal Dataset: A Multimodal Maritime Dataset for Autonomous Navigation in Restricted Waters" (Chung 외, IJRR 2023) — 제한 수역 자율 항해용 멀티모달 해양 데이터셋, ② "Aquaculture Robotics: Adaptive Path Planning Through Real-Time Estimation of the Shape of Flexible Net Pens" (Amundsen, IEEE T-FR 2024) — 양식장의 유연한 그물 펜(net pen) 형상을 실시간 추정해 경로를 적응적으로 계획하는 연구입니다.

교수님 설명

또 다른 대표적인 필드 환경이 해양·수상·수중 환경입니다. 왼쪽은 KAIST 김진환 교수 연구실에서 공개한 해양 데이터셋(포항 운하 데이터셋), 오른쪽은 노르웨이 TFR 계열에서 나온 양식(aquaculture) 로봇 연구입니다. 큰 양식장은 거대한 그물로 둘러싸여 있는데, 그 그물 안쪽에 로봇을 투입해 점검·작업을 하려면 출렁이는 그물의 형상을 실시간으로 파악해야 합니다.

해양 필드 로봇에서도 핵심은 같습니다. 기계적으로 잘 만드는가보다, 이 환경에서 인식하려면 어떤 센서 조합이 필요한가에 집중합니다. 카메라가 유리한 환경인지, 라이다가 유리한 환경인지, 의미 있는 측정이 어느 거리에서 들어오는지에 따라 센서 선정과 배치가 결정되는 것입니다.

슬라이드 내용 정리

같은 Field Environment: Marine 계열의 슬라이드로, 인용 연구는 "SeePerSea: Multi-modal Perception Dataset of In-water Objects for Autonomous Surface Vehicles" (Mingi Jeong 외, Jeong, IEEE T-FR 2025)입니다. 자율 수상정(ASV, Autonomous Surface Vehicle)을 위한, 물 위·물속 물체를 인식하기 위한 멀티모달(multi-modal) 인식 데이터셋입니다. 저자 소속은 Dartmouth College, IQ7 Labs, Columbia University, University of West Florida, Binghamton University 등으로 표기되어 있습니다.

교수님 설명

SeePerSea는 수면 위를 떠다니는 부표·선박·장애물 같은 물속·수면 물체(in-water objects)를 다양한 센서로 함께 인식하기 위한 데이터셋입니다. 앞서 본 양식장·운하 사례와 마찬가지로, 해양은 동적이고 반사·산란이 심한 대표적 필드 환경이라 단일 센서로는 한계가 크고 멀티모달 센서 융합이 중요해집니다.

이렇게 지하·동굴, 해양에 이어 교수님은 또 다른 극한 필드로 우주(planetary) 환경까지 언급하며 사례를 확장합니다(ETH 계열 연구, 캐나다 탐사로버, NASA의 화성 탐사로버 Perseverance 등). 즉, 정돈된 벤치마크를 넘어 각 필드마다 고유한 제약과 문제가 존재하며, 그에 맞춰 센서와 알고리즘을 설계해야 한다는 것이 이 일련의 슬라이드가 전하는 메시지입니다.

Part 5슬라이드 19~24

05실환경 SLAM의 외란과 실패 사례 (1)

slide 19
슬라이드 19 · 행성 탐사: 다족 로봇 팀과 협력 SLAM
slide 20
슬라이드 20 · 행성 탐사: NASA 관제실 / 화성 착륙
slide 21
슬라이드 21 · 농업 환경: 레이저 제초 로봇 (U. Bonn)
slide 22
슬라이드 22 · 필드 환경 요약 표
slide 23
슬라이드 23 · 필드 로보틱스 인식의 난점 6가지
slide 24
슬라이드 24 · 장기 자율을 향하여 (3대 키워드)
슬라이드 내용 정리

제목: Field Environment: Planetary — 우주(행성) 탐사 로봇(Space Robots). 화성 모사(planetary analog) 환경에서 활동하는 다족 로봇(legged robot) 사진과 두 편의 대표 논문을 소개합니다.

Scientific Exploration of Challenging Planetary Analog Environments with a Team of Legged Robots — Philip Arm 외, Science Robotics: 다족 로봇 으로 까다로운 행성 모사 환경을 과학 탐사.
Multirobot Decentralized Collaborative SLAM in Planetary Analogue Environments: Dataset, Challenges, and Lessons Learned — Pierre-Yves Lajoie 외: 행성 모사 환경에서의 다중 로봇 분산 협력 SLAM(Decentralized Collaborative SLAM), 데이터셋·도전과제·교훈 정리.

교수님 설명

필드 로봇(field robot)의 또 다른 대표 사례가 바로 우주(행성) 탐사입니다. 슬라이드 왼쪽은 ETH 연구진 등이 제시한 행성 탐사용 다족 로봇이고, 오른쪽은 캐나다 쪽에서 진행한 행성 모사 환경 탐사 사례입니다. 행성 환경은 사람이 직접 갈 수 없고 예측이 거의 불가능한, 전형적인 극한 필드 환경입니다.

여기서 핵심 문제는 여러 대의 로봇이 통신 제약 속에서 협력하며 지도를 만드는 것입니다. 두 번째 논문이 다루는 것이 바로 그 분산 협력 SLAM인데, 통신이 자주 끊기고(intermittent communication) 한 번 실패하면 비용이 막대한 환경에서, 로봇들이 협력적 공간 기억(collaborative spatial memory)을 어떻게 유지하느냐가 관건이 됩니다.

슬라이드 내용 정리

제목: Field Environment: Planetary. NASA / JPL 관제실(mission control) 사진. 출처 표기는 NASA. 화성 탐사 로버의 착륙 운용 장면을 보여주는 슬라이드입니다.

교수님 설명

우주 탐사 로봇의 대표 주자는 NASA의 화성 로버 퍼서비어런스(Perseverance)입니다. 여기 보여드린 건 로버가 화성에 착륙하는 영상으로, 낙하산·역추진 단계를 거쳐 하강하면서 로봇이 직접 지면을 바라보며 떨어지는 장면입니다.

중요한 점은, 착륙하는 동안 로봇이 화성 표면을 인식하고 자기 위치를 실시간으로 수정하며 내려와야 한다는 것입니다(지면 기준 항법, terrain-relative navigation). 한 번의 실수가 곧 임무 실패로 이어지는, 실패 비용이 극단적으로 큰 상황이라 인식과 위치 추정의 정확성이 그만큼 더 중요해집니다.

슬라이드 내용 정리

제목: Field Environment: Agriculture. 본문은 영상(재생 전이라 검은 화면)으로, 출처는 U. Bonn(본 대학). 농업 환경에서 동작하는 필드 로봇 사례를 다루는 슬라이드입니다.

교수님 설명

실제 산업 현장과 직접 연결되는 대표적인 응용이 농업 로봇입니다. 이 영상은 화학 제초제(herbicide)를 뿌리는 대신 레이저로 잡초를 정밀하게 태워 제거하는 로봇을 보여줍니다.

사람이 투입되지 않고도 작물만 골라 처리해 깨끗한 환경에서 작업이 이뤄지는 것이 장점입니다. 농장은 지면 상태가 일정치 않고 식생이 계속 변하는 환경이라, 이런 정밀 작업을 안정적으로 해내려면 강인한 인식이 뒷받침되어야 합니다.

슬라이드 내용 정리

제목: Field Environment: Summary. 환경별로 대표 논문 / 관련 키워드 / 핵심 시사점을 정리한 표입니다.

지하·동굴(Underground/Cave)NeBula(Team CoSTAR, DARPA SubT, 2022). 키워드: GPS-denied, 다중 로봇 자율, traversability, 위험 인지 계획, degraded perception. 시사점: SLAM을 넘어 매핑·탐사·통신·이동성·위험 추론을 통합.
해양·수중(Marine/Underwater)Coordinated Robotic Exploration of Dynamic Open Ocean Phenomena(2022). 키워드: 동적 필드, adaptive sampling, 다중 로봇 협력, 제한된 통신. 시사점: 정적 기하 지도가 아니라 시변 공간장(time-varying spatial field)을 모델링.
행성·우주(Planetary/Space)Multi-Robot Decentralized Collaborative SLAM…(IEEE T-FR). 키워드: 분산 C-SLAM, 간헐적 통신, prior maps, long-term autonomy. 시사점: 제한된 통신·높은 실패 비용 하의 협력적 공간 기억.
농업·산림(Agriculture/Forest)Building Forest Inventories with Autonomous Legged Robots(IEEE T-FR). 키워드: 식생, 객체 단위 매핑, 다족 이동성, 장기 배치. 시사점: 지도가 작업에 바로 쓰이는 행동 가능한 표현으로 진화해야 함.

교수님 설명

지금까지 본 필드 로봇 사례를 정리하는 표입니다. 필드 로봇의 핵심은, 결국 로봇을 적용할 필드(현장)를 잘 해석하고, 그 해석을 바탕으로 센서를 어떻게 설계할 것인가입니다. 여기서 센서 설계란 단순히 모터 같은 기계 부품을 고르는 문제가 아니라, 그 환경에서 의미 있는 정보를 얻기 위한 센서 조합(센서 페이로드, sensor suite)을 구성하는 일입니다.

예를 들어 "이 환경은 카메라가 강한가, 라이다가 강한가", "라이다라면 어느 거리의 점군(point cloud)이 의미 있게 들어오는가" 같은 질문에서 출발해 센서 구성이 결정됩니다. 표의 네 환경(지하, 해양, 행성, 농업)은 제각각이지만, 공통적으로 저하되는 인식(degraded perception)을 어떤 센서 조합으로 극복할 것인가라는 같은 문제를 공유합니다.

그래서 시사점도 한 방향으로 모입니다. 단순히 기하학적 지도를 만드는 데 그치지 않고, 환경에 따라 탐사·통신·위험 추론을 통합하거나, 시간에 따라 변하는 현상을 모델링하거나, 지도를 곧바로 작업에 쓸 수 있는 형태로 만들어야 한다는 것입니다.

슬라이드 내용 정리

제목: What makes perception for Field Robotics challenging? 필드 로보틱스의 인식을 어렵게 만드는 6가지 요인:

No GPS & Limited Communications — GPS 불가, 저대역폭·간헐적 통신.
Poor Visibility — 안개/연기, 비/눈, 먼지/모래, 야간/어둠.
Challenging & Diverse Sensor Modalities — LiDAR, Thermal, IMU, Camera, Radar, Sonar.
Feature-Poor Scenes — 사막/모래, 설원/얼음, 수면, 암반/용암.
Significant Dynamics on Multiple Time-Scales — 단기(초): 움직이는 물체 / 중기(분~시간): 날씨 변화 / 장기(일~월): 계절·구조 변화.
Complex, Unknown & Unstructured Environments — 험지, 혼잡/가림, 도시 폐허, 동굴/지하.

교수님 설명

여러 필드를 둘러봤는데, 환경은 달라도 공통적으로 묶이는 키워드들이 있습니다. 가장 먼저 저하되는 인식(degraded perception)입니다. 앞서 본 분진(먼지)도 있고 조명이 나쁜 경우도 있어 인식이 망가지는데, 이를 어떻게 다룰 것이냐가 핵심입니다. 또 동굴이나 숲에 들어가면 통신이 매우 제한적이라 아예 끊길 수도 있습니다.

이런 로봇이 필요한 이유 자체가 사람이 작업하기 어려운 환경에서 오래 자율적으로 동작(long-term autonomy)해야 하기 때문입니다. 그러려면 GPS도 통신도 안 되고, 가시성(visibility)이 떨어지고, 환경마다 써야 하는 센서 조합이 달라지는 문제를 견뎌야 합니다. 환경이 조금만 바뀌어도 기존 센서 조합을 그대로 못 쓸 수 있다는 게 골치 아픈 점이죠.

덧붙여 흔히 간과하지만 매우 중요한 것이 센서 간 시간 동기화(time synchronization)입니다. 센서마다 시점이 다르면 같은 순간의 데이터를 묶기 어렵기 때문입니다. 여기에 시간에 따른 환경 변화(움직이는 사람·물체, 계절 변화)와 평탄하지 않은 험한 지형까지 모두 겹쳐서 작용합니다.

보충 설명

왜 이런 인식 저하가 치명적인지는 실패의 연쇄(cascade)로 이해하면 좋습니다. 교수님 말씀처럼 SLAM에서 가장 중요한 건 데이터들 간의 대응 관계(data association)를 어떻게 잡느냐인데, 흐름이 이렇게 무너집니다: 센서 데이터가 깨지면 → 대응 관계가 깨지고 → 지도가 잘못되고 → 결국 지도와 포즈(위치) 전부가 무너집니다.

앞부분에서 언급된 거울·유리벽 반사 예시가 딱 이 경우입니다. 라이다가 반사면을 찍으면 실제로는 1m 앞에 벽이 있는데도 반사된 상이 들어와 방이 둥글게 보이는 등 가짜 벽이 생깁니다. 병원의 유리벽이나, 벽 없이 얇은 난간만 있는 구조도 라이다가 제대로 인식하지 못해 실패가 자주 일어납니다. 필드(현장)까지 가지 않아도 이런 실환경 외란은 흔하게 발생합니다.

슬라이드 내용 정리

제목: Towards Long-term Autonomy of Field Robots. 필드 로봇의 장기 자율을 위한 3대 키워드:

Robustness(강인성) — "필드 외란에서 살아남을 수 있는가?" 심한 외란 속에서도 추정·인식 유지. 접근: 강인한 센싱(multimodal·중복), 강인한 front-end(이상치 제거·불변성), 실패 감지·복구. 결과: 쉽게 실패하지 않고 계속 돌아가게.
Reliability(신뢰성) — "무엇을 믿어야 할지 아는가?" 불확실성을 정량화·추론해 신뢰할 만한 결정. 접근: 불확실성 인지 매핑, 일관성 검사·검증, 신뢰도 기반 주행성·계획, 변화 감지·지도 갱신. 결과: 언제 믿고 언제 갱신할지, 결정이 얼마나 위험한지 안다.
Efficiency(효율성) — "현장에서 오래 버틸 수 있는가?" 제한된 자원 안에서 공간 정보를 운용·갱신·공유. 접근: 경량 표현(descriptor·submap), 통신 인지 선택적 공유, 지도 압축·수명 관리, 자원 인지 계획·탐사. 결과: 제한 자원을 현명하게 써 장기 운용 지속.

이 셋이 합쳐져 Long-term Autonomy(Robust + Reliable + Efficient → Deployable in the Wild). 하단: Enablers(foundation model, self-supervised·적응, cross-modal 일반화, 모듈·확장형)와 Applications(동굴, 해양, 행성, 농업/산림/건설, 재난 대응/점검).

교수님 설명

지금까지의 공통 문제들을 묶으면 세 가지 키워드로 압축됩니다. 첫째 강인성(Robustness), 둘째 신뢰성(Reliability), 셋째 효율성(Efficiency)입니다. 외란에 무너지지 않고(강인성), 무엇을 믿을지 판단하며(신뢰성), 제한된 자원으로 오래 버티는(효율성) 것 — 이 셋이 합쳐져야 야지(in the wild)에서 실제로 배치 가능한 장기 자율(long-term autonomy)이 됩니다.

"너무 당연한 얘기 아니냐"고 생각할 수 있습니다. 당연히 실패하면 안 되고, 당연히 효율적이어야죠. 하지만 필드에서는 자원이 훨씬 더 제한적이고 환경 자체가 훨씬 더 어렵다는 점이 다릅니다. 그래서 똑같은 당위라도 난이도가 완전히 달라집니다.

제 박사과정 때 선체 검사(ship inspection) 로봇을 다룬 적이 있는데, 거기서는 이미지를 1초에 한 장만 찍었습니다. 비주얼 SLAM 관점에선 말도 안 되는 빈도지만, 아주 작은 로봇 안에 모든 걸 욱여넣어야 하니 많이 찍는 것 자체가 불가능했습니다. 이렇게 자원 제약이 현실의 설계를 좌우하기 때문에 효율성이 강인성·신뢰성과 함께 핵심 축이 되는 것입니다.

Part 6슬라이드 25~26

06실환경 SLAM의 외란과 실패 사례 (2)

slide 25
슬라이드 25 · 장기 자율을 위한 필드 로봇의 Spatial AI
slide 26
슬라이드 26 · 다양한 지형·멀티모달 데이터셋
슬라이드 내용 정리

섹션 표지 슬라이드입니다. 큰 제목으로 "Spatial AI on Field Robots for Long-term Autonomy"(장기 자율주행을 위한 필드 로봇의 공간 인공지능)만 적혀 있습니다. 앞서 다룬 지하·광산·우주·농업 등 가혹한 실환경(field) 사례를 정리하고, 이제 그 공통 과제를 장기 자율(long-term autonomy)이라는 키워드로 묶어 연구실의 방향을 소개하겠다는 전환점입니다.

교수님 설명

필드 로봇 연구에서 가장 중요한 출발점은 "이 로봇을 기계적으로 어떻게 잘 움직이게 할까"가 아니라 "이 환경에서 인식(perception)을 하려면 어떤 센서 조합이 필요한가"라는 점이라고 강조합니다. 그래서 모터·구동부 설계보다 먼저 센서 탑재(센서 스택)를 결정합니다. 예를 들어 카메라(가시광)가 강한 환경인지, 라이다(LiDAR)가 강한 환경인지, 라이다를 단다면 어느 거리대의 정보가 의미 있게 들어오는지를 따져서 센서 구성과 주행 방식이 모두 결정된다는 것입니다.

대표적 응용으로 우주 탐사 로봇을 들었습니다. 왼쪽은 ETH(취리히)·매길(McGill) 등이 수십 년 전 제시한 로버, 오른쪽은 캐나다의 탐사 로버이고, 가장 유명한 예가 NASA의 퍼서비어런스(Perseverance) 화성 탐사 로버입니다. 화성 착륙 영상을 언급하는데, 로버가 지면을 바라보며 낙하·하강하는 동안 스스로 화성 표면을 확인하고 자기 위치를 보정해야 한다는 점을 강조합니다. 또 하나의 산업 응용으로 농업 로봇을 들어, 제초제를 뿌리는 대신 레이저 등으로 잡초만 정밀 처리해 사람 투입 없이 깨끗하게 작업하는 사례를 소개합니다.

정리하면, 필드 로봇이란 결국 적용할 현장(field)을 잘 해석하고, 그 해석을 바탕으로 센서 조합(센서 스택)을 잘 설계해서, 저하되는 인식(degraded perception)을 극복하고 로봇이 환경과 공존하며 동작하게 만드는 일이라는 것이 핵심 메시지입니다.

보충 설명

왜 "센서 먼저"인가? 일반 로보틱스 수업은 모터·제어를 먼저 배우지만, 필드 로봇은 GPS·조명·통신이 보장되지 않는 곳에서 동작합니다. 로봇이 자기 위치를 모르면 아무리 잘 움직여도 의미가 없으므로, "무엇으로 세상을 볼 것인가(센서)"가 설계의 최상위 결정이 됩니다. 화성 착륙처럼 통신 지연이 큰 상황에서는 사람이 원격으로 봐줄 수 없으니, 로봇이 낙하 중에도 자체 센서만으로 위치를 추정·보정해야 하는 극단적 예입니다.

슬라이드 내용 정리

제목은 "Diverse Terrain and Multi-modal Dataset for Multi-Robot Navigation"(다중 로봇 내비게이션을 위한 다양한 지형·멀티모달 데이터셋)입니다. 가운데에는 라이다로 만든 3D 포인트 클라우드 지도(파란색·노란색으로 색칠된 지형)가 보이고, 왼쪽 아래에는 같은 장면을 흑백 카메라·열화상(thermal)·라이다 등 서로 다른 센서(모달리티)로 본 이미지 패치들이 붙어 있습니다. 오른쪽에는 데이터를 수집한 실제 로봇 플랫폼 사진들, 우측 하단에는 데이터셋을 만든 연구원 두 명의 얼굴 사진이 있습니다.

교수님 설명

지하·동굴·숲 같은 환경의 공통 과제를 키워드로 묶어 설명합니다. 첫째는 저하되는 인식(degraded perception)입니다. 분진, 나쁜 조명 등으로 영상 디테일이 안 들어오는 상황을 어떻게 극복할지가 문제입니다. 둘째는 제한된 통신(limited communication)으로, 동굴·숲에 들어가면 통신이 약하거나 끊기므로 외부 도움 없이 로봇이 자체적으로 동작해야 합니다. 셋째는 이런 로봇이 필요한 근본 이유인데, 사람이 작업하기 어려운 환경에서 한 번 투입되면 오래 자율로 돌아다녀야 하는 장기 자율(long-term autonomy)입니다.

이런 환경에서는 GPS도 안 되고, 통신도 안 되고, 가시성(visibility)이 떨어지며, 환경에 따라 쓸 수 있는 센서 조합이 달라집니다. 환경이 조금만 바뀌어도 같은 센서 구성을 그대로 못 쓰는 문제가 생기죠. 그래서 센서를 깊이 이해하는 것이 중요하고, 특히 간과하기 쉬운 시간 동기화(time synchronization) — 서로 다른 센서가 같은 시점의 데이터를 확보하도록 맞추는 것 — 도 매우 중요합니다. 게다가 동적 물체(움직이는 사람·차량)나 시간에 따라 변하는 장면 때문에 특징점(feature)이 사라지는 문제, 평지가 아닌 험한 지형(rough terrain) 주행 문제까지 모두 얽혀 있습니다.

이 모든 것을 세 가지 키워드로 압축하면 강인성(robustness), 장기 자율, 그리고 효율성(efficiency)입니다. "효율성은 당연한 것 아닌가?"라고 생각할 수 있지만, 필드에서는 리소스가 훨씬 제한적이라 더 절박합니다. 교수님 박사과정 때의 선체 검사(ship hull inspection) 로봇 예시를 듭니다. 작은 로봇이라 이미지를 1초에 1장꼴로밖에 못 찍는데, 비주얼 SLAM 관점에선 말이 안 되는 저속이죠. 하지만 로봇이 천천히 움직이므로, 한 장을 찍더라도 좋은 장면을 골라 의미 있는 위치 정보를 잘 뽑아내는 것이 중요합니다. 즉 센서·제어·인식을 결합해, 간결한 의미 정보를 추출하고 그것을 신뢰도 있는 지도·위치로 연결하면, 메모리를 가득 채우지 않고도 두세 시간 동작하는 효율적 자율이 가능해진다는 것입니다. 랩 실험에선 데이터를 많이 따도 되지만, 실제 로봇 투입 때는 그럴 수 없다는 점을 거듭 강조합니다.

보충 설명

멀티모달(multi-modal)이 왜 필요한가? 단일 센서는 각자 약점이 있습니다. 카메라는 저조도·분진에 약하고, 라이다는 거울·유리·비에 약하며, 열화상은 온도차가 없으면 무력합니다. 그래서 슬라이드처럼 흑백·열화상·라이다를 함께 묶어 한 센서가 무력화돼도 다른 센서가 메우도록 합니다. 이때 각 센서의 데이터가 "정확히 같은 순간"을 가리켜야 융합이 의미를 갖기 때문에 시간 동기화가 핵심 전제가 됩니다.

세 키워드의 관계. robustness(어떤 환경에서도 안 깨짐), long-term autonomy(오래 혼자 버팀), efficiency(제한된 메모리·전력으로 해냄)는 서로 맞물려 있습니다. 데이터를 적게·잘 뽑으면(효율) 메모리가 안 차서 오래 돌고(장기 자율), 좋은 정보만 남기면 외란 속에서도 위치 추정이 안정(강인)되는 식으로 셋이 함께 달성됩니다.

Part 7슬라이드 27~29

07핵심 난제: Pose-Correspondence

slide 27
슬라이드 27 · 멀티모달 센서를 갖춘 4족 로봇 플랫폼과 센서 구성표
slide 28
슬라이드 28 · 다양한 센서 모달리티(열·RGB·깊이)와 LiDAR 지도(LAWN)
slide 29
슬라이드 29 · 복잡하고 동적인 실제 환경(붐비는 도심 거리)
슬라이드 내용 정리

Multi-modal & Multi-sensor Datasets멀티모달 센서를 탑재한 4족 로봇(Quadruped Robots)으로 데이터를 수집한다는 내용입니다. 오른쪽 표에는 각 에이전트(Agent 0, Agent 1)별 하드웨어(Intel NUC, Unitree GO1)와 센서 구성이 정리되어 있습니다.

탑재 센서는 RGB-D / RGB(Intel RealSense), 열화상(Thermal, FLIR Boson), LiDAR(Velodyne VLP-16, Ouster OS1), GNSS(Ublox), IMU, mmWave 레이더 등으로, 각 센서마다 사양(Specification)과 ROS 토픽 이름(Topic name)이 매핑되어 있습니다.

교수님 설명

앞에서 화성 탐사선(Perseverance)이 지면을 보며 자기 위치를 보정하며 착륙하는 영상, 농업용 필드 로봇 같은 사례를 보여드렸는데, 이런 필드 로봇(Field Robot)의 공통 키워드는 결국 저하되는 인식(Degraded Perception), 제한된 통신(Limited Communication), 장기 자율주행(Long-term Autonomy)입니다. GPS도 안 되고, 통신도 끊기고, 가시성(visibility)이 떨어지고, 환경이 조금만 바뀌어도 같은 센서 조합을 그대로 못 쓰는 상황이 생기죠.

그래서 우리 연구실은 이런 어려운 환경에서 잘 작동하는 센서 플랫폼을 직접 설계합니다. 기계과는 아니라서 로봇 몸체를 만들진 않지만, "어떤 센서를 어떻게 조합해야 SLAM도 하고, 정합(matching)도 하고, 주행도 할 수 있을까"를 고민해 센서 패키지를 구성합니다. 이 플랫폼과 데이터셋은 작년 ICRA에서 공개했습니다.

핵심 이유 중 하나는 다중 로봇 SLAM(Multi-robot SLAM)입니다. 넓은 영역을 한 대가 30분 안에 다 매핑하긴 어려우니, 여러 대를 뿌려 나눠 돌게 합니다. 이때 A 로봇이 간 곳을 B가 또 갈 필요는 없되, "바늘에 실을 꿸 만큼" 적당히 겹치는 의미 있는 영역끼리만 잘 정합시켜 지도를 이어 붙이는 것이 중요합니다.

보충 설명

표에 RGB-D, 열화상, LiDAR, 레이더가 함께 들어가는 이유는 센서마다 약점이 다르기 때문입니다. 카메라는 어둠·먼지에 약하고, LiDAR는 비·연기에 약하며, 열화상은 온도 대비가 없으면 무력합니다. 한 모달리티가 무너져도 다른 모달리티로 메우는 상보적 융합이 곧 "저하되는 인식 극복"의 핵심 전략입니다. 여기서 시간 동기화(time synchronization)가 의외로 중요한데, 서로 다른 센서가 최대한 같은 순간의 데이터를 확보해야 융합이 신뢰성을 가집니다.

슬라이드 내용 정리

같은 멀티모달 데이터셋을 시각화한 슬라이드입니다. 왼쪽은 동일 장면을 열화상(Thermal) · RGB · Ground · Depth 등 여러 모달리티로 동시에 포착한 모습이고, 가운데는 LiDAR 포인트 클라우드의 방사형 스캔 패턴입니다.

오른쪽은 LAWN이라고 표시된 실제 수집 구역의 누적 LiDAR 지도(노란색=지면/구조, 파란색=상부)입니다.

교수님 설명

이 그림들이 보여주는 건, 같은 환경이라도 어떤 센서로 보느냐에 따라 전혀 다른 정보가 나온다는 점입니다. 그래서 자원이 제한적인 작은 로봇일수록, 데이터를 무작정 많이 찍기보다 "한 장을 찍어도 의미 있는 것을 잘 뽑아내는" 효율(Efficiency)이 중요합니다.

제가 박사과정 때 했던 선체 검사(ship hull inspection) 프로젝트가 좋은 예입니다. 잠수부가 배 밑면을 청소하듯 로봇이 천천히 스위핑하는데, 카메라를 1초에 한 장밖에 못 찍었어요. Visual SLAM 관점에선 말도 안 되는 수치지만, 작은 로봇 안에 다 욱여넣어야 하고 로봇이 빠르게 움직이지도 않으니, 한 장이라도 좋은 걸 찍어 신뢰할 수 있는 위치를 뽑아내는 것이 정답이었습니다.

결국 정리하면 세 키워드 — 강건성(Robustness), 신뢰성, 효율성(Efficiency) — 입니다. "당연한 거 아니냐" 싶지만, 실험실과 달리 자원이 더 제한적이고 환경이 훨씬 어렵기 때문에 이 셋을 동시에 맞추는 것이 진짜 난제입니다. 간결한 센서·의미 정보를 추출하고, 그것이 신뢰도 있는 지도와 위치로 연결되며, 메모리를 가득 채우지 않고도 두세 시간을 버티는 것 — 이 모두가 한 줄로 엮여 있습니다.

슬라이드 내용 정리

Complex and Dynamic Environments(복잡하고 동적인 환경). 차와 사람으로 붐비는 도심 거리 사진 한 장으로, 실제 로봇이 마주하는 환경이 정적이지 않고 끊임없이 변한다는 점을 강조합니다.

교수님 설명

막상 데이터를 따 보니, 실제 환경은 우리가 예상한 것보다 훨씬 동적(Dynamic)이었습니다. 점심시간 캠퍼스만 봐도 밥 먹으러 가는 사람, 커피 들고 가는 사람, 자동차까지 온갖 것이 움직이죠. 문제는 SLAM이 잘 되려면 겹치는 영역에서 의미 있는 정보끼리 올바르게 연관(Correspondence)지어져야 한다는 점입니다.

예를 들어 특정 벤치나 나무처럼 고정된 랜드마크를 기준으로, "여기서 본 나무"와 "저기서 본 나무"를 같은 것으로 매칭해야 위치가 풀립니다. 그런데 그 앞을 사람이 지나가 나무를 가리거나, 움직이는 물체가 끼어들면 매칭이 깨집니다. 이렇게 잘못된 대응(False Correspondence)이 한 번 생기면, 그 위에 쌓이는 지도와 포즈(pose) 추정이 연쇄적으로 함께 무너지게 됩니다. 이것이 이 섹션의 핵심 난제인 Pose-Correspondence 문제입니다.

보충 설명

왜 연쇄적으로 무너지나? SLAM은 "관측한 특징(feature)이 지도의 어느 지점에 대응되는가"를 먼저 정한 뒤, 그 대응을 만족하도록 로봇 포즈를 계산합니다. 즉 대응(Correspondence) → 포즈(Pose) → 지도(Map) 순으로 정보가 흐릅니다. 맨 앞 단계인 대응이 동적 물체 때문에 틀리면, 잘못된 제약 위에서 포즈가 어긋나고, 그 어긋난 포즈로 지도를 갱신하니 오차가 누적·전파됩니다. 그래서 동적 환경에서는 움직이는 물체를 걸러내고(dynamic object rejection), 시간이 지나도 변하지 않는 안정적 랜드마크 위주로 대응을 맺는 것이 강건한 SLAM의 출발점이 됩니다.

Part 8슬라이드 30~34

08필드 로봇의 정의와 환경 특성

slide 30
슬라이드 30 · 다중 모달리티와 동적 객체
slide 31
슬라이드 31 · 접근 방법 3단계
slide 32
슬라이드 32 · 동적 인지 + 맵 중심 장소 기술
slide 33
슬라이드 33 · 온라인 동적 객체 제거
slide 34
슬라이드 34 · 다중 포즈그래프 최적화
슬라이드 내용 정리

제목은 다중 모달리티와 동적 객체(Multi-modalities and Dynamic Objects). 왼쪽은 동적 점(Dynamic points) — 사람·차량처럼 움직이는 물체가 만들어내는 점들(파란/빨간 포인트클라우드)을 보여줍니다. 오른쪽은 다중 모달리티(Multi-modality) — 서로 다른 라이다(LiDAR) 센서들(Ouster OS1, Avea, Livox Avia)을 나열하고, 각 센서가 같은 장면을 찍어도 전혀 다른 스캔 패턴(scan pattern)을 만들어냄을 시각적으로 비교합니다.

교수님 설명

비정형·예측 불가능한 환경에서 장기간 동작하려면 어떤 공통 문제들을 풀어야 하느냐가 핵심입니다. GPS도 통신도 안 되고, 시야(visibility)가 떨어지며, 센서 조합도 환경이 조금만 바뀌면 그대로 못 쓰게 됩니다. 그래서 센서를 깊이 이해하는 것 — 특히 자주 간과되는 시간 동기화(time synchronization) — 가 매우 중요합니다. 센서마다 데이터를 얻는 시점이 다른데, 어떻게 하면 가급적 같은 시간대의 데이터를 확보할까가 과제가 됩니다.

여기에 더해 환경 자체가 시간에 따라 변하고, 사람·차량처럼 움직이는 동적 물체(dynamic objects)가 끊임없이 등장합니다. 이런 동적 점들이 그대로 지도에 남으면 매칭이 깨지죠. 또 라이다는 제조사마다(Ouster, Velodyne, Livox 등) 스캔 패턴이 완전히 달라서, 같은 장소를 찍어도 서로 다른 모양의 점 분포가 나옵니다. 서로 다른 센서를 든 여러 로봇의 정보를 하나로 융합하기 어렵다는 문제가 여기서 발생합니다.

보충 설명

'모달리티(modality)'는 정보를 얻는 방식·종류를 뜻합니다. 같은 라이다라도 회전식(Ouster/Velodyne)과 고정·비반복 스캔식(Livox)은 점이 찍히는 패턴이 근본적으로 달라서, 점군(point cloud)을 정렬·매칭하는 알고리즘 입장에선 사실상 다른 센서로 취급해야 합니다. 그래서 "어떤 라이다든 상관없이" 통합할 수 있는 표현 방식이 필요해지는 것입니다.

슬라이드 내용 정리

제목은 Approach(접근 방법). 세 단계로 구성됩니다. I. 자유공간(free space)을 이용한 온라인 동적 객체 제거, II. 라이다 모달리티에 무관한(LiDAR-modality-agnostic) 동적 인지 장소 인식(place recognition), III. 중앙집중식 포즈그래프 최적화(Centralized pose graph optimization)를 통한 맵 병합(map merging). 오른쪽 작은 이미지들은 다양한 로봇 플랫폼이고, 빨간 점들은 동적 객체의 궤적(Trace of dynamic objects)을 표시합니다.

교수님 설명

실제 캠퍼스 같은 공간은 예상보다 훨씬 동적입니다. 점심시간이면 밥 먹으러 가는 사람, 커피 마시는 사람, 자동차까지 온갖 것이 움직이죠. 이런 환경에서 장소 인식을 잘하려면, 겹치는(overlap) 영역에서 의미 있는 정보들을 정확히 연관(correspondence)지어야 합니다. 예를 들어 특정 벤치나 나무가 기준점이 되는데, 그 앞을 사람이 가리면 로봇은 아무것도 못 보거나 엉뚱한 매칭을 하게 됩니다.

그래서 연구실의 접근은 세 가지로 정리됩니다. 첫째, 매핑하면서 동적인 것들을 걸러내 깨끗한 표현을 만든다(동적 객체 제거). 둘째, 어떤 라이다를 들고 있든 포즈(pose)와 스캔 정보만 있으면 하나의 지표로 융합할 수 있게 한다(모달리티 무관 장소 인식). 셋째, 여러 로봇이 큰 환경을 나눠 돌며 만든 지도들을 중앙에서 포즈그래프 최적화로 합친다. 이 세 가지가 서로 연결되어 큰 공간을 여러 대가 효율적으로 매핑하는 시스템이 됩니다.

슬라이드 내용 정리

제목은 Dynamic-aware and Map-centric Place Description. 전체 파이프라인을 보여줍니다. 전처리(Preprocess): 라이다-오도메트리에서 스캔/포즈 → 점군 누적(Pointcloud accumulation) → 복셀화(Voxelization) → 평면 추출(Plane extraction). 동적 인지 장면 기술(Dynamic-aware scene description): 지면 추출(Ground extraction), 동적 후보 복셀 선택, 자유공간 추정(Free space estimation), 동적 점 분할(Dynamic points segmentation), 삼각형/키포인트 기술자 추출. 세션 내 PGO(Intra-session PGO): 해시 기반 기술자 매칭, 기하 검증(Geometric verification), 포즈그래프 최적화, 최적화된 지도. 하단은 다중 노드 라이다 맵 병합 — 기준 맵(Reference map)과 질의 맵(Query maps)을 기술자 DB·점군 DB와 앵커 노드 기반 포즈그래프 최적화로 합쳐 통합 지도(Unified Map)를 만듭니다. 출처로 G. H. Kang 등의 2024 ICRA 및 IEEE T-RO 논문이 인용되어 있습니다.

교수님 설명

이 그림은 앞 슬라이드의 세 가지 접근을 하나의 흐름으로 엮은 전체 시스템입니다. 핵심 아이디어는, 매핑 과정에서 동적인 것들을 걸러내 동적 물체가 없는 기술자(descriptor)를 만드는 것입니다. 이렇게 하면 겹치는 영역이 많지 않더라도, 그 영역에서 강건하게 위치를 인식할 수 있는 단서(feature)를 제공할 수 있습니다.

실제로는 ScanContext 계열의 맵 기반 기술자(디스크립터)를 썼는데, 동적인 것들이 남으면 전부 피처로 등록되어 위치 인식(localization)에 큰 오차를 일으킵니다. 그래서 동적인 것을 제거한 깨끗한 디스크립터가 중요합니다. 여러 로봇은 GPS가 없으니 각자 원점(0)에서 출발한다고 가정하고 주행하는데, 주행이 끝나면 "이 위치와 저 위치가 사실 같은 곳이었다"는 대응 관계(correspondence)가 발견됩니다. 이를 고정 제약으로 삼아 최적화하면 각 로봇의 궤적이 올바른 절대 위치로 보정되고, 결국 하나의 통합 지도로 병합됩니다.

슬라이드 내용 정리

제목은 Dynamic-aware Scene Description. 목표(Goal): 온라인 동적 객체 제거(online dynamic object removal). 방법은 ① 지면 위쪽 공간을 빈 공간(free space)으로 간주, ② 거친→세밀 복셀 표현(coarse-to-fine voxel representation), ③ 슬라이딩 윈도우(sliding windows)와 재귀적 베이즈 필터(recursive binary bayes filter). 오른쪽 도식은 시점 tt-1에서 지면(ground)·점유 복셀·동적 영역을 칸별로 표시. 아래는 동적 객체 제거동적 인지 장소 기술의 (a)(b)(c) 결과, 그리고 Original STD 대비 Proposed 비교 이미지.

교스님 설명

여기서 핵심은 "지면 위에서 비어 있어야 할 공간을 점이 차지하고 있으면 그건 움직이는 물체일 가능성이 높다"는 직관입니다. 이를 자유공간 추정으로 판별합니다. 한 번에 정밀하게 보지 않고 거친 복셀에서 세밀한 복셀로 단계적으로(coarse-to-fine) 좁혀 효율을 높이고, 시간 흐름에 따른 여러 프레임을 슬라이딩 윈도우로 보면서 재귀적 베이즈 필터로 "이 복셀이 동적일 확률"을 누적 갱신합니다.

이렇게 동적인 것을 걸러낸 결과를 실제로 보니, 빨간색으로 표시된 움직이는 물체들이 생각보다 훨씬 많았습니다. 이것들을 제거하고 나면 깨끗한 정적 지도와, 그 위에서 안정적인 장소 기술자가 남습니다. 오른쪽 아래의 Original STD와 Proposed 비교가 그 효과를 보여줍니다.

보충 설명

재귀적 이진 베이즈 필터(recursive binary bayes filter)는 점유 격자 지도(occupancy grid)에서 흔히 쓰는 기법으로, 각 칸이 "차 있음/비어 있음" 두 상태에 대한 확률을 새 관측이 들어올 때마다 조금씩 갱신합니다. 한 프레임의 노이즈에 휘둘리지 않고 여러 관측을 누적해 판단하므로, 잠깐 스쳐 지나간 동적 물체와 항상 있는 정적 구조를 구분하는 데 적합합니다.

슬라이드 내용 정리

제목은 Multiple Pose-graph optimization(다중 포즈그래프 최적화). 핵심 구성요소(Key component)앵커 노드 기반 PGO(Anchor-node-based PGO)강건 커널(Robust kernel)을 제시. 왼쪽 범례에는 다섯 가지 요소가 있습니다 — Prior factor(사전 인자), Odom factor(오도메트리 인자), Loop factor(루프 인자), Anchor factor(앵커 인자), Pose node(포즈 노드), Anchor node(앵커 노드). 가운데 그래프는 여러 로봇의 포즈 노드 체인이 앵커 인자로 연결된 모습이고, 오른쪽은 QueryCentral 지도를 Merge(병합)해 하나로 합치는 결과입니다.

교수님 설명

여러 로봇이 각자 원점에서 출발해 만든 지도들을 합치려면, 서로 다른 좌표계를 묶어줄 기준이 필요합니다. 그 역할을 하는 것이 앵커 노드(anchor node)입니다. 각 로봇의 포즈 그래프를 앵커 노드에 연결(anchor factor)해두고, 로봇 간에 발견된 같은 장소 대응(루프)을 제약으로 추가하면, 전체를 한꺼번에 최적화하면서 모든 궤적을 일관된 하나의 좌표계로 정렬할 수 있습니다. 오른쪽 그림처럼 Query 지도와 Central 지도가 Merge되어 통합됩니다.

여기에 강건 커널(robust kernel)을 함께 씁니다. 동적 환경에서는 잘못된 매칭(이상치, outlier)이 끼기 마련인데, 일반 최소제곱 최적화는 이런 이상치 하나에도 결과가 크게 망가집니다. 강건 커널은 큰 오차를 내는 제약의 영향력을 줄여주어, 엉뚱한 루프 대응이 섞여도 전체 지도가 발산하지 않도록 안정시켜 줍니다. 이 방식을 5대 로봇으로 실험했고, 더 나아가 재작년에는 한 대의 서버에 모으는 중앙집중식 대신 로봇들끼리 분산형으로 합치는 달 탐사 로봇 프로젝트로 확장해, 큰 공간을 여러 대가 더 자유롭게 빠르게 매핑하도록 시도했습니다.

Part 9슬라이드 35~40

09필드 로봇 응용: 지하·해양·우주·농업 (1)

slide 35
슬라이드 35 · 다종 LiDAR·동적 객체 데이터셋(HeLiPR+INHA)
slide 36
슬라이드 36 · Uni-Mapper: 다종 LiDAR 통합 매핑 (ICRA 2024)
slide 37
슬라이드 37 · 동적 객체의 궤적(Trace) 분리
slide 38
슬라이드 38 · 행성 환경 탐사(달 동굴, PLANET-EX)
slide 39
슬라이드 39 · SKiD-SLAM: 분산형 멀티로봇 SLAM
slide 40
슬라이드 40 · 지하 동굴 매핑(제주 만장굴 용암동굴)
슬라이드 내용 정리

Dataset: HeLiPR(public) + INHA(custom) — "다양한 종류의 LiDAR + 동적 객체(Dynamic objects)"를 담은 데이터셋입니다. 표(TABLE I)는 멀티 세션·멀티 맵 병합(multi-session and multi-map merging)을 위한 데이터셋 구성을 보여줍니다.

시퀀스별로 플랫폼과 센서가 다릅니다. TOWN(HeLiPR)은 차량(Vehicle)에 Ouster OS2-128, Aeva Aeries II, Livox Avia를 탑재했고, INHA 자체 수집분은 WHEEL(AgileX-ScoutV2), DOG(Unitree-Go1, 4족), HAND1/HAND2(휴대형 handheld)로 구성됩니다. 각각 FOV, spinning(회전형)/solid-state(고정형) 타입, 동적 객체 밀도(별점 ★)가 표기돼 있습니다.

교수님 설명

저희 연구실의 관심은 결국 야외(outdoor) 환경에서 로봇이 잘 돌아다니는 것입니다. 그래서 먼저 환경을 잘 포착하는 센서 플랫폼부터 직접 만들었어요. 기계과는 아니라 차체를 만들지는 않지만, SLAM·주행·매칭을 모두 하려면 어떤 센서를 어떻게 조합해야 하는지가 핵심이라 여러 센서를 조합해 플랫폼을 구성했고, 이 데이터셋은 작년 ICRA에서 공개했습니다.

이렇게 한 이유는 큰 환경을 여러 대 로봇으로 함께 매핑하는 게 중요한 문제이기 때문입니다. 공간이 아주 크면 로봇 한 대가 30분 돌아봐야 커버 범위가 제한적이죠. 그래서 로봇 N대를 뿌려 분담시키는데, A로봇이 간 곳을 B로봇이 또 갈 필요는 없습니다. "바늘에 실을 꿰듯" 딱 겹치는 영역(overlap)만 의미 있게 맞추자는 전략입니다.

그런데 실제 환경은 예상보다 훨씬 동적(dynamic)이었어요. 점심시간 캠퍼스만 봐도 밥 먹으러 가는 사람, 자동차 등 온갖 움직이는 것이 가득합니다. 게다가 LiDAR는 제조사마다 스캔 패턴이 다릅니다(Ouster·Velodyne는 비슷해도 Livox는 전혀 다른 패턴). 같은 장소를 찍어도 스캔이 다르니, 서로 다른 센서를 든 로봇들의 정보를 하나로 융합하기가 어렵다는 게 출발점입니다.

슬라이드 내용 정리

Uni-Mapper: Unified Mapping Framework for Multi-modal LiDARs in Complex and Dynamic Environments (ICRA 2024 발표). 오른쪽 5개 썸네일은 데이터를 수집한 서로 다른 플랫폼(차량형, 바퀴형, 4족, 휴대형 2종)을 나타냅니다. 화면 중앙은 동적 객체(초록·주황)가 섞인 LiDAR 포인트클라우드 매핑 영상입니다.

교수님 설명

Uni-Mapper의 아이디어는 로봇이 어떤 LiDAR를 들었든, 포즈(pose)와 스캔(scan) 정보만 있으면 이를 융합해 하나의 지도로 만든다는 것입니다. 그래야 여러 로봇이 큰 환경을 주행할 때 지도 정보를 공간 차원에서 함께 활용할 수 있다고 제안했습니다.

핵심 기술은 디스크립터(descriptor) 기반 위치 인식입니다. 저희는 Scan Context 계열의 디스크립터로 매핑을 했는데, 동적인 물체가 그대로 남으면 그게 전부 피처(feature)로 등록되어 위치 인식 단계에서 큰 에러를 발산시킵니다. 그래서 매핑 과정에서 동적 물체를 걸러낸 디스크립터를 만들면, 겹치는 영역(overlap)이 적더라도 그 영역에서 강건하게 위치를 인식할 수 있습니다.

영상에서는 5대 로봇이 등장합니다. GPS가 없으니 모든 로봇이 자기 원점(0,0)에서 출발한다고 생각하고 시작하죠. 그래서 처음엔 다 한 점에서 출발해 제각각 흩어져 보이지만, 실제로는 같은 공간을 돈 겁니다. 주행이 끝나면 화면에 노란색 줄(correspondence)이 생기는데, "여기 위치와 저기 위치가 사실 같은 곳이었구나"라는 루프 클로저(loop closure)를 찾았다는 뜻입니다. 그걸 고정 제약으로 두고 최적화하면 흩어졌던 궤적이 하나의 일관된 지도로 정렬됩니다.

슬라이드 내용 정리

같은 Uni-Mapper 영상의 다른 장면. 빨간 점선 박스로 표시된 Trace of dynamic objects — 즉 지도에서 분리·제거된 동적 객체들의 흔적(궤적)을 강조합니다.

교수님 설명

실제로 동적인 것들을 걸러낸 결과를 보면, 돌아다니던 빨간 물체들(사람·차 등)이 동적 객체로 분류되어 지도에서 빠져 있는 것을 확인할 수 있습니다. 막상 보니 "생각보다 동적인 게 많았구나"를 눈으로 확인하게 되죠.

이게 중요한 이유는 환경마다 적합한 로봇이 다르기 때문입니다. 실내는 바퀴형 로봇으로 빠르게 매핑할 수 있지만, 공원처럼 모퉁이가 많고 울퉁불퉁한 곳은 바퀴 로봇이 못 갑니다. 그런 곳은 4족 로봇이 가야 하죠. 서로 다른 로봇·센서로 따로 돌아다녀도, 동적 객체를 걸러내고 겹치는 영역을 맞추면 하나의 지도로 합칠 수 있다는 것이 핵심입니다.

슬라이드 내용 정리

Planetary Environments(행성 환경). 위쪽은 달 표면의 동굴 입구(용암 동굴/스카이라이트) 사진. 아래쪽은 PLANET-EX 프로젝트 패널들로, 화성/달 탐사 로버, 다중 로봇 협력 매핑, SLAM 알고리즘 등을 소개합니다(한국어 도식 포함).

교수님 설명

재작년에 진행한 것이 달 탐사 로봇 프로젝트입니다. 달처럼 거대한 미지의 공간을 탐사하려면 로봇 한 대가 외롭게 다니기보다, 여러 대가 함께 매핑하면 큰 공간을 훨씬 빠르게 덮을 수 있습니다. 앞의 Uni-Mapper가 하나의 서버에 데이터를 모아 합치는 방식이었다면, 여기서는 한발 더 나아가 분산형(distributed)으로 서로 합쳐가는 방식을 시도했습니다. 그래야 로봇들이 더 자유롭게 다닐 수 있다고 봤죠.

흥미로운 배경 지식: 달 표면에서 실제로 사람이 거주할 만한 공간은 동굴입니다. 달 표면은 낮엔 너무 뜨겁고 밤엔 너무 추워서, 사람이 산다면 온도가 안정적인 용암 동굴로 들어가야 하거든요. 그래서 탐사 대상도 표면 입구와 동굴 입구가 함께 있는 구조가 됩니다. 이 동기에서 실제 실험지를 찾다가, 섬 전체가 용암동굴인 제주도로 가게 됐습니다.

슬라이드 내용 정리

SKiD-SLAM (Distributed SLAM) 파이프라인. (a) Front-end: LiDAR + IMU → Pose Estimation → Local Mapping, 각 단계에서 SOLiD Extraction(디스크립터 추출, α, β, γ). (b) Inter-robot PR(로봇 간 위치 인식)을 Message Pool로 데이터 교환. (c) Inter-robot Registration: Geometric Suppression → Feature Extraction & Initial Matching → Transformation Estimation. (d) Outlier Rejection: Truncated MSE, PCM. (e) Multi-robot Mapping으로 통합 지도 생성.

교수님 설명

SKiD-SLAM은 완전 분산형 멀티로봇 SLAM입니다. 중앙 서버 없이, 로봇들이 메시지 풀(message pool)을 통해 서로의 디스크립터(SOLiD)를 주고받고, 로봇 간 위치 인식(Inter-robot Place Recognition)으로 "우리가 같은 곳을 봤다"를 찾은 뒤, 기하 매칭과 변환 추정으로 좌표계를 정렬합니다. 잘못된 매칭은 아웃라이어 제거(Truncated MSE, PCM)로 걸러내어 견고한 통합 지도를 만듭니다.

이를 검증한 또 다른 현장이 경기도 연천 한국건설기술연구원의 달 모사(模寫) 환경입니다. 드론으로 찍어보면 크레이터와 바위가 있는 달 같은 지형인데, 건물과 달리 벽·테이블 같은 시각적 단서가 거의 없습니다. 디스크립터 매칭이 가장 어려운 조건이죠. 그런 무특징 환경에서도 로봇 간 매칭이 잘 되는지를 함께 실험했고, 여러 로봇이 각자 다른 구역을 주행하며 하나의 지도를 만들어내는 과정을 수행했습니다.

보충 설명

관련해 작년 IROS에서 발표한 재미있는 연구가 학습 기반 센서 캘리브레이션입니다(SLAM은 아닙니다). 보통 카메라-LiDAR 캘리브레이션은 큰 체커보드(checkerboard)나 알루미늄·아크릴 다이아몬드 패턴 판을 사람이 들고 흔들어야 해서 매우 번거롭습니다. 그래서 구(球) 형태의 공을 마커로 사용해, 한 로봇이 약 10cm 스티로폼 공을 들고 움직이면 다른 로봇이 그 공을 검출(detect)하면서 사람 개입 없이 자동 캘리브레이션하도록 했습니다. 공은 구 대칭이라 카메라가 뿌옇거나 진흙이 묻거나 1/4쯤 파손돼도 여전히 잘 검출되어, 야외·필드 환경의 자율 캘리브레이션(auto-calibration)에 적합합니다.

슬라이드 내용 정리

Underground Cave Mapping(지하 동굴 매핑)Underwater Cave Mapping with Heterogeneous Robots(이종 로봇을 이용한 (수중)동굴 매핑). 대상은 제주도 만장굴(Lava Tube in Jeju Island, Majang). 사진: 동굴 속 지상 로봇, 제주도 지형 위 매핑 결과, 사람이 손에 센서를 들고 동굴을 탐사하는 모습.

교수님 설명

달 동굴 거주 가설에서 출발해, 실제 실험은 제주 용암동굴에서 했습니다. 제주도는 섬 전체가 용암동이라 동굴이 아주 많고 대부분 문화재 보호구역입니다. 그중 일반인 출입이 안 되는 만장굴(만장 용암동굴)에 문화재청 협조를 받아 로봇을 들고 들어갔습니다.

현장은 생각보다 매우 열악했습니다. 불을 끄면 빛이 하나도 없는 완전 암흑이라 저도 그런 칠흑은 처음 겪었고, 박쥐도 날아다녔습니다. 이런 GPS도 빛도 없는 극한 환경에서, 앞서 캠퍼스에서 쓰던 것과 동일하게 통일(unify)된 센서 플랫폼을 그대로 들고 들어가 매핑을 수행했습니다. 이종 로봇(heterogeneous robots)이 각자 유리한 경로(한 대는 이쪽, 다른 한 대는 저쪽)로 들어가, 서로의 지도가 잘 정합(registration)되는지를 확인한 실험입니다.

이런 일련의 필드 경험에서 얻은 결론은, 험한 환경에서 잘 주행하려면 무엇보다 상태 추정(State estimation) — 로봇이 자기 위치를 정확히 추적하는 것 — 이 탄탄해야 한다는 점입니다. 더해서 지도를 만들 수는 있지만, 지도만 믿고 로봇이 그냥 다닐 수는 없다는 것이 다음 이야기의 출발점입니다.

Part 10슬라이드 41~43

10필드 로봇 응용: 지하·해양·우주·농업 (2)

slide 41
슬라이드 41 · 동굴 매핑 데모(RGB·Thermal·Depth) ×4 배속
slide 42
슬라이드 42 · Sequence 1 매핑 결과 포인트클라우드
slide 43
슬라이드 43 · 실세계 실험: 동굴 vs 달 모사환경 (ICRA 2025)
슬라이드 내용 정리

Sequence 1 · Mapping 장면을 ×4 배속으로 재생하는 매핑 데모입니다. 화면 가운데에 로봇의 자세를 나타내는 좌표축(coordinate frame)이 표시되고, 하단에는 같은 순간을 세 가지 센서로 본 영상이 나란히 붙어 있습니다 — RGB Image(어두운 동굴 내부), Thermal(열화상, 거의 균일한 회색), Depth(깊이). 빛이 거의 없는 동굴 환경에서 멀티모달 센서 융합으로 맵을 만들고 있음을 보여 줍니다.

교수님 설명

앞에서 다룬 매핑·최적화 아이디어 — 같은 위치를 다시 방문했다고 판단되면(루프) 그 위치를 고정·최적화해 지도를 다듬는 과정 — 을 실제 환경에 적용한 사례입니다. 실내를 바퀴 로봇으로 빠르게 매핑할 수도 있지만, 바위가 박혀 있거나 험한 곳은 바퀴로 못 가니 다리(legged) 로봇이 들어가야 한다는 점을 강조합니다. 또 매핑 과정에서 사람처럼 움직이는 동적 물체(dynamic object)를 걸러 보니 생각보다 그 수가 많았다는 것도 확인했다고 합니다.

이 데모의 핵심은 어둠입니다. RGB는 거의 보이지 않을 만큼 깜깜하기 때문에, 열화상과 깊이를 함께 써서 이런 극한 환경에서도 로봇이 자기 위치를 추정하고 지도를 쌓을 수 있음을 시각적으로 보여 주는 장면입니다.

보충 설명

동굴·지하처럼 빛과 시각적 특징이 부족한 곳에서는 카메라 한 종류만으로는 위치추정이 쉽게 흔들립니다. 그래서 RGB·Thermal·LiDAR(Depth)처럼 서로 약점을 보완하는 센서를 묶어 쓰는데, 이것이 DARPA SubT Challenge(지하 동굴·터널 탐사 대회) 이후 필드 로봇 분야의 표준 전략이 되었습니다.

슬라이드 내용 정리

위 데모로 완성된 Sequence 1 매핑 결과입니다. 보라·자홍색 포인트클라우드(point cloud)로 동굴/터널 형태의 3D 지도가 복원되어 있고, 위·아래 세 시점에서 같은 맵을 보여 줍니다. 길게 굽이치는 통로 구조가 한눈에 드러납니다.

교수님 설명

재작년에 진행한 달 탐사 로봇 프로젝트와 연결되는 결과입니다. 넓은 미지의 공간을 빠르게 탐사하려면 한 대가 순차적으로 도는 것보다 여러 대의 로봇이 함께 매핑하는 편이 낫다는 발상에서 출발했습니다. 기존처럼 하나의 서버로 모든 데이터를 모아 합치는 중앙집중형 대신, 로봇끼리 부분 지도를 주고받아 합치는 분산형(distributed) 멀티로봇 매핑을 적용하면 각 로봇이 더 자유롭게 돌아다닐 수 있다는 것이 골자입니다.

왜 하필 동굴이냐면, 달 표면은 너무 뜨겁고 너무 추워서 사람이 산다면 결국 용암동굴 안으로 들어가야 하기 때문입니다. 그래서 표면 입구와 동굴 입구가 함께 있는 구조를 가정하고, 지구에서 그와 가장 닮은 환경을 찾아 실험을 갔다고 설명합니다.

슬라이드 내용 정리

Real-world ExperimentsICRA 2025(애틀랜타), SPARO Lab. 두 종류의 실세계 실험을 나란히 제시합니다. 왼쪽은 실제 동굴(RGB 인셋: 로봇 라이트가 비추는 바위 동굴) 안에서 만든 포인트클라우드 맵과 로봇 좌표축. 오른쪽달 모사환경(RGB 인셋: 크레이터가 파인 회백색 지형)에서 만든 맵과 좌표축입니다.

교수님 설명

두 곳에서 실제로 실험했습니다. 하나는 제주도 만장굴 — 제주 전체가 용암동 섬이라 용암동굴이 많고, 만장굴은 문화재 보호구역이라 일반인 출입이 안 되는 곳입니다. 문화재청 허가를 받아 로봇을 들고 들어갔는데, 불을 꺼 보면 완전한 암흑이고 박쥐도 날아다닐 만큼 열악했습니다. 앞서 보여 준 것과 동일한 통합 센서 플랫폼을 그대로 들고 가, 두 대의 로봇이 각자 다른 방향으로 갈라져 만든 부분 지도가 잘 정합(registration)되는지를 확인했습니다.

다른 하나는 경기도 연천 한국건설기술연구원의 달 모사환경입니다(오른쪽). 크레이터와 바위로 달처럼 꾸민 곳인데, 건물은 벽·테이블 등 시각적 특징이 풍부한 반면 이런 지형은 시각적 특징이 거의 없다는 차이가 있습니다. 그래서 특징이 빈약한 환경에서도 로봇 간 매칭이 잘 되는지를 함께 검증했고, 여러 대가 따로 주행해 하나의 지도를 만드는 과정을 수행했습니다.

보충 설명

대본 뒷부분에서 교수님은 후속 연구 방향을 셋으로 정리합니다 — ① 험한 환경에서의 자세추정(state estimation), ② 지금 보이는 측정값에서 어디로 안전하게 갈 수 있는지를 찾는 주행 가능성(traversability), ③ 그를 바탕으로 한 지역 경로계획(local planning). 지도만 믿고 갈 수 없는 이유는, 과거엔 갈 수 있던 길이 지금은 막혀 있을 수 있어 인식과 주행을 함께 풀어야 하기 때문입니다.

또 IROS의 볼(sphere) 마커 캘리브레이션 연구도 언급됩니다. 보통 카메라-라이다 외부 캘리브레이션은 큰 평면 타깃을 사람이 들고 흔들어야 해 번거로운데, 로봇이 스티로폼 공(약 10cm)을 마커로 들고 움직이면 다른 로봇이 그 공을 검출해 사람 개입 없이 자동 캘리브레이션을 합니다. 구(sphere) 형태라 카메라가 뿌옇거나 진흙이 묻고 일부(약 1/4)가 가려져도 견고하게 검출돼, 필드 환경에 적합하다는 것이 설계 의도입니다. 끝으로 ICRA 발표 예정 연구로, IMU는 노이즈로 데이터가 쉽게 발산하므로 학습 기반으로 보정하되, 직진·회전 같은 흔한 모션만이 아니라 점프·넘어짐 같은 드문 이상 모션(anomaly motion)까지 균형 있게 학습시켜야 한다는 점을 강조합니다.

Part 11슬라이드 44~48

11공통 과제와 3대 키워드

slide 44
슬라이드 44 · 행성 모사 환경 실증 (4개 과제)
slide 45
슬라이드 45 · 자동 멀티로봇 캘리브레이션 (영상)
slide 46
슬라이드 46 · 강건한 상태추정 & 탐사 (섹션 표지)
slide 47
슬라이드 47 · 현장 장기 자율성의 3대 키워드
slide 48
슬라이드 48 · KISS-IMU: 모션 불균형 문제
슬라이드 내용 정리

제목은 행성 모사 환경에서의 실증(Test on Planet Emulation Environment). 달 표면처럼 만든 야외 테스트장에서 네 가지 능력을 검증한 사진들입니다. ① 자율주행(Autonomous Driving)정밀 매핑(Precise Mapping) — Color Map·Traversability Map·Elevation Map ③ 실시간 인지(Real-time Perception) — RGB Image 기반 ④ 협업 SLAM(Collaborative SLAM). 여러 대의 로봇이 동시에 주행한 결과가 보입니다.

교수님 설명

두 종류의 극한 현장에서 실험했다고 합니다. 하나는 동굴(문화재 동굴)입니다. 문화재청 허가를 받아 들어갔는데, 불을 비춰도 빛이 거의 반사되지 않을 정도로 깜깜하고 박쥐가 날아다니는 열악한 환경이었습니다. 캠퍼스에서 보여준 것과 동일한 통합 센서 플랫폼을 그대로 들고 들어가, 여러 로봇이 각자 다른 방향(한 대는 이쪽, 한 대는 저쪽)으로 가면서 지도를 잘 정합(registration)하는지를 봤습니다.

다른 하나는 경기도 연천의 한국건설기술연구원 달 모사 환경입니다. 크레이터와 바위로 달 표면처럼 꾸민 곳인데, 건물 실내처럼 벽·테이블 같은 시각적 특징(feature)이 풍부한 환경과 달리 여기는 단조로워서 매칭이 어렵습니다. 이런 조건에서도 협력 연구진(이하인 교수님, 프랑스 측 펀드)과 함께 매칭이 잘 되는지를 실험했고, 여러 대의 로봇이 각자 다른 구역을 주행하며 하나의 경로·지도를 만들어 냈다고 정리합니다.

슬라이드 내용 정리

제목 자동 멀티로봇 캘리브레이션(Automatic Multi-robot Calibration). 본문은 시연 영상 자리(검은 화면)이며, 작년 IROS에 발표한 연구입니다.

교수님 설명

현장에서 로봇을 정직하게 운용하려 했지만 캘리브레이션(센서 보정)이 자꾸 어긋나는 문제가 있었습니다. 보통 카메라 캘리브레이션은 큰 체커보드 판(평면 패턴)을 사람이 들고 이리저리 움직여야 하는데, 알루미늄·아크릴 같은 큰 판을 들고 하는 일은 너무 힘들고 "굳이 사람이 해야 하나"라는 의문이 있었습니다.

그래서 약 10cm 스티로폼 공마커(marker)로 삼아, 한 로봇이 공을 들고 움직이면 다른 로봇이 그 공을 검출(detect)해 사람이 개입하지 않고 자동으로 보정하도록 했습니다. 다만 야외에서 오토캘리브레이션(auto-calibration)을 하려니, 마커가 전혀 없는 빈 들판에서는 기준이 될 게 없어 보정이 불가능했습니다. 그래서 마커를 작고 들고 다닐 수 있게 만들되 구(球) 형태로 설계했는데, 구는 카메라가 뿌옇거나 진흙이 묻거나 4분의 1 정도 파손돼도 형상 추정이 꽤 정밀하게 유지된다는 장점이 있어 야외(필드) 환경에서도 캘리브레이션이 가능해졌습니다.

슬라이드 내용 정리

섹션 표지 슬라이드. 제목은 강건한 상태추정 & (주행가능성 기반) 탐사 — Robust State Estimation & Exploration (via Traversability). 오른쪽은 크레이터가 가득한 달 모사 지형의 3D 맵 이미지입니다.

교수님 설명

이런 울퉁불퉁한(bumpy) 야외 환경에서 주행을 잘하려면 결국 세 가지가 필요하다고 정리합니다. 첫째, 상태추정(State Estimation) — 로봇이 자기 자신의 상대적 위치를 잘 추적하는 것. 둘째, 단순히 지도(map)만으로는 부족하다는 점입니다. 지도가 있어도 그 길을 그대로 믿고 갈 수는 없는데, "원래는 갈 수 있었지만 지금은 못 가는 곳"이 너무 많기 때문입니다.

그래서 둘째로 주행가능성(Traversability), 즉 지금 보고 있는 측정값(measurement)에서 어디로 갈 수 있고 어떻게 가야 안전한지를 인식해야 합니다. 셋째로 주행가능성을 기반으로 로컬 경로(local path)를 잘 주면, 예컨대 탐사 임무에서 안전하게 최대 영역을 커버하는 주행이 가능해집니다. 이 세 축으로 연구를 진행했다고 도입합니다.

슬라이드 내용 정리

제목 현장에서의 장기 자율성(Long-term Autonomy in the Field). 세 개의 질문과 각각의 자체 연구가 흐름으로 연결됩니다. ① 강건한 상태추정(Robust State Estimation) — "복잡한 동역학 속에서도 로봇이 자기 운동을 계속 추정할 수 있는가?", 이슈: IMU 드리프트·동적 다리 보행·센서 불확실성 → KISS-IMU. ② 주행가능성 추정(Traversability Estimation) — "어디로 안전하게 갈 수 있는지 이해할 수 있는가?", 이슈: 거친 지형·로봇별 이동성·신뢰할 수 없는 임계값 → GSAT. ③ 신뢰도 인지 탐사(Confidence-aware Exploration) — "지도 신뢰도를 높이려면 어디로 가야 할지 결정할 수 있는가?", 이슈: 고르지 않은 지형·고도 불확실성·저신뢰 영역 → CUTE-Planner.

교수님 설명

앞에서 말한 세 가지 과제가 이 슬라이드의 세 박스로 정리됩니다. 첫 번째는 자세/상태추정을 어떻게 잘할까(KISS-IMU), 두 번째는 추정 이후 로봇이 어디로 안전하게 갈 수 있는지(주행가능성)를 찾는 것(GSAT), 세 번째는 그 주행가능성을 바탕으로 지도 신뢰도를 높이는 방향으로 탐사 경로를 결정하는 것(CUTE-Planner)입니다.

핵심은 이 세 단계가 따로 노는 게 아니라 하나의 파이프라인으로 이어진다는 점입니다. 강건하게 자기 위치를 추정해야 그 위에서 주행가능성을 판단할 수 있고, 주행가능성을 알아야 안전하면서도 정보 이득이 큰 탐사 경로를 짤 수 있습니다. 이어지는 슬라이드부터 각 연구를 순서대로 설명합니다.

슬라이드 내용 정리

제목 강건한 상태추정: KISS-IMU (ICRA 2026, Vienna 발표 예정). 도전 과제(Challenge): 학습 기반 관성 오도메트리의 모션 불균형(Motion Imbalance in Learning-based Inertial Odometry). 핵심 주장: ① 학습 기반 IO는 지배적 모션 패턴(dominant motion)에 편향될 수 있다 ② 드물지만 결정적인 모션(rare but critical motions)은 학습 데이터에서 과소표현된다 ③ 그 결과 복잡한 야외 로봇 모션에서 일반화 성능이 나빠진다. 오른쪽: GMM 재가중(Reweighting) 없이 학습한 경우와, 학습셋의 희소 성분(rare components)·성분 비율(Ratio of Components) 시각화. 좌측 그래프는 Dominant Motion vs Rare Motion 분포를 대비합니다.

교수님 설명

로봇 SLAM에서 IMU(관성측정장치)를 매우 많이 쓰지만, 솔직히 말하면 IMU는 노이즈가 심하고(saturation이 잘 일어나고) 조금만 지나도 데이터가 발산(drift)해 버립니다. 그래서 많이 쓰는 방법이 신경망(neural network)으로 센서 데이터를 처리하는 IMU 오도메트리(IMU odometry)입니다. 그런데 실제로 주행해 보니 문제가 있었습니다. 학습 데이터에는 직진·회전 같은 일반적인 모션은 너무 많은데, 갑자기 뛰거나 넘어지거나 경사(ramp)를 만나는 특이하고 드문 모션은 거의 없습니다. 그래서 네트워크가 흔한 모션에 편향되어, 정작 중요한 드문 모션에서 잘 못합니다.

그래서 핵심 아이디어는 IMU를 학습할 때 데이터를 그 희소성(rarity)에 맞춰 가중치를 다르게 주자는 것입니다(그림의 GMM Reweighting). 문제는 IMU 자세에 대한 정답(ground-truth)을 일일이 줄 수 없다는 점인데, 이를 위해 라이다(LiDAR) 포즈를 가이드로 삼아 자기지도 학습(self-supervised learning)하도록 구성했습니다. 즉 라이다네트로 의사 라벨(pseudo-label)을 만들고, 학습할 때는 단순히 다 외우는 게 아니라 기존 데이터와 새 데이터의 균형을 보며 "이 모션이 학습할 가치가 있는 희소·특이 모션인가"를 판단해 반영합니다. 마지막으로 데이터의 특이성과 현재 추정의 신뢰도를 결합해 최종 포즈(final pose)를 냅니다.

보충 설명

모션 불균형은 머신러닝의 클래스 불균형(class imbalance)과 같은 직관입니다. 흔한 사례(직진)는 수만 개, 드문 사례(점프·미끄러짐)는 몇 개뿐이면 모델은 다수를 맞추는 쪽으로 최적화되어 소수 사례를 무시합니다. GMM(가우시안 혼합 모델)로 모션 분포를 여러 성분(component)으로 나눈 뒤, 비율이 낮은 희소 성분에 더 큰 학습 가중치를 부여해 균형을 맞추는 것이 "재가중(reweighting)"의 핵심입니다. 또한 라이다를 정답 대용으로 쓰는 이유는, 라이다 기반 위치추정이 단기적으로는 IMU보다 정확해서 저렴한 IMU의 발산을 잡아 줄 교사(teacher) 신호 역할을 하기 때문입니다.

Part 12슬라이드 49~53

12연구실 연구: 멀티로봇 SLAM과 센서 플랫폼

slide 49
슬라이드 49 · KISS-IMU 전체 구조 (자가지도 학습 · GMM 분석 · 강건 추론)
slide 50
슬라이드 50 · 학습 데이터 양과 무관한 일반화 성능 (100/60/20%)
slide 51
슬라이드 51 · 주행 가능성(Traversability) 추정이란?
slide 52
슬라이드 52 · GSAT: 경험 기반 주행 가능성 학습 구조
slide 53
슬라이드 53 · GSAT 현장 주행 시연 (영상)
슬라이드 내용 정리

Robust State Estimation: KISS-IMU — 로봇 자세추정을 위한 강건한 상태 추정 기법의 전체 파이프라인입니다. 크게 왼쪽의 안정적 학습 과정(Stable Training Process)과 오른쪽의 강건한 추론 과정(Strong Inference Process)으로 나뉩니다.

학습 과정은 (a) 자가지도 학습(Self-Supervised Training)으로, ① IMU 네트워크 모듈 ② LiDAR 정합 모듈(LiDAR Registration) ③ 포즈 그래프 최적화(Pose Graph Optimization, R_training) ④ 중첩 점수(Synergistic Overlap Score) 기반 선택적 의사 라벨(Pseudo-Label) 생성으로 구성됩니다(예: overlap 0.81 vs 0.74로 신뢰할 만한 라벨만 선별). (b) GMM 분석은 추정 결과 분포를 가우시안 혼합 모델로 분석해 네트워크 최적화용 재가중치(reweighting factors)를 산출합니다. 오른쪽 (c) 센서 신뢰도 기반 포즈 그래프 최적화는 ① 적응적 가중치(Adaptive Weighting) ② R_inference 최적화로 실제 추론 시 강건성을 확보합니다.

교수님 설명

로봇 주행을 잘하려면 먼저 자세추정(pose estimation)을 잘해야 합니다. 로봇 분야에서는 IMU(관성측정장치)를 굉장히 많이 쓰는데, 사실 IMU는 적분(integration)을 거치면서 오차가 누적돼 금방 값이 튀어버리는 까다로운 센서입니다. 그래서 신경망으로 IMU 데이터를 처리하는 IMU odometry / IMU 네트워크 연구가 많이 진행돼 왔습니다.

그런데 실제로 주행해 보면 문제가 생깁니다. 직진·회전 같은 일반적인 모션은 데이터가 너무 많은 반면, 갑자기 뛰거나 넘어지거나 경사로(ramp)를 오르는 특이하고 희귀한(rare) 모션은 데이터가 거의 없습니다. 학습이 흔한 동작에만 편향되는 것이죠. 그래서 핵심 아이디어는 IMU 자세의 정답(ground truth)을 일일이 줄 수 없으니, LiDAR 포즈를 가이드 삼아 자가지도(self-supervised)로 학습하는 것입니다.

여기서 한 단계 더 나아갑니다. 단순히 IMU 네트워크를 학습시키는 게 아니라, 기존 데이터와 새 데이터의 균형(balance)을 배우고, 지금 보고 있는 모션이 학습할 만한 의미 있는·희귀한 모션인지를 판단합니다. 그 모션의 특이성과 현재 추정의 신뢰도를 함께 고려해 최종 포즈(final pose)를 산출하도록 설계했습니다.

보충 설명

왜 자가지도일까? IMU 자세의 진짜 정답을 얻으려면 모션 캡처 장비 같은 외부 측정이 필요해 현장 주행마다 확보하기 어렵습니다. 반면 LiDAR 정합으로 추정한 포즈는 별도 정답 장비 없이도 비교적 정확한 대용 라벨 역할을 할 수 있어, 이를 IMU 학습의 가이드로 쓰는 것입니다. GMM으로 분포를 분석해 신뢰도 낮은 샘플의 가중치를 낮추는 발상은, 잘못된 의사 라벨이 학습을 오염시키는 것을 막는 안전장치로 이해하면 됩니다.

슬라이드 내용 정리

"As shown in the video, generalization performance is preserved regardless of dataset size" — 학습 데이터 양과 무관하게 일반화 성능이 유지된다는 주장입니다. 학습 데이터를 100% / 60% / 20%로 줄여가며 만든 3차원 맵과 궤적(trajectory)을 비교했을 때, 20%만 써도 결과가 거의 동일하게 복원됩니다. 우측 상단의 "Top 3 rare components in train set"은 학습셋에서 가장 희귀했던 모션 성분 상위 3개를 가리킵니다.

교수님 설명

앞서 말한 "희귀한 모션을 골라 학습한다"는 아이디어의 효과를 보여주는 결과입니다. 데이터의 양 자체보다 어떤 모션을 학습했느냐가 일반화에 결정적이라는 것이죠. 영상에서 보듯 학습 데이터를 100%에서 60%, 20%로 크게 줄여도 추정한 궤적과 맵이 거의 그대로 유지됩니다.

즉, 흔한 데이터를 잔뜩 넣는 것보다 의미 있고 희귀한 모션을 선별적으로 학습하는 편이 효율적이고 강건하다는 점을 실험으로 입증한 부분입니다.

슬라이드 내용 정리

Traversability Estimation(주행 가능성 추정) — "이 로봇이 이 지형을 안전하게 통과할 수 있는가?"라는 질문입니다. 세 가지 의존성으로 정리합니다.

지형 의존(Terrain-dependent): 경사(slope), 거칠기(roughness), 턱 높이(step height), 식생(vegetation), 접지력(traction). ② 로봇 의존(Robot-dependent): 형태(morphology), 이동 방식(locomotion), 적재(payload), 제어 한계. ③ 불확실성 의존(Uncertainty-dependent): 희소한 센싱, 가림(occlusion), 노이즈가 섞인 고도 추정. 중요성(Why It Matters): 맵을 실제 행동 가능한 공간 표현으로 바꾸고, 미지·험지에서의 안전한 계획을 가능케 하며, 인지·이동·장기 자율성을 연결합니다.

교수님 설명

지도만 있으면 로봇이 잘 다닐 것 같지만 실제로는 그렇지 않습니다. 못 가는 곳이 너무 많고, 예전엔 갈 수 있던 곳이 지금은 막혀 있을 수도 있습니다. 그래서 자세추정 다음으로 필요한 것이 주행 가능성(traversability) 인식, 즉 "지금 보고 있는 환경에서 어디로, 어떻게 가야 안전한가"를 찾는 일입니다.

여기서 재미있는 점은 주행 가능성이 로봇마다 다르다는 것입니다. 누구는 바퀴, 누구는 다리가 달려 있고 이동 방식이 제각각이라, 같은 지면이라도 갈 수 있는 로봇과 못 가는 로봇이 갈립니다. 결국 주행 가능성은 지면·로봇·센서 세 요소에 모두 좌우되며, 이를 잘 표현하는 것이 핵심 과제입니다. 일반 도로에서 차선을 뽑듯, 야외·험지에서는 이 "갈 수 있는 지면 정보"를 뽑아 두어야 로봇이 제대로 움직일 수 있습니다.

슬라이드 내용 정리

GSAT(Traversability Estimation) 구조입니다. A. 자동 데이터 생성(Automated Data Generation): 로봇 궤적으로부터 BEV 표현(B^i)과 감독 격자(Supervision Grid)를 만들고, 필러 복셀화(Pillar Voxelization, P^i)를 수행합니다. B. 주행 가능성 네트워크: B.1 BEV 특징 추출기(Pillar Encoder + Pillar Backbone → (N_p,32), (N_v,32) 특징 벡터)와 Encoder MLP(→ (N_p,8), (N_v,8) 잠재 벡터), 그리고 Recon MLP(L_recon) · Regression MLP(L_reg) · L_anom 손실로 구성됩니다.

C. 경험 인식 주행 가능성 학습(Experience-Aware Learning): C.1 이상 탐지(Anomaly Detection)로 잠재 공간(Latent Space)에서 정상/이상을 분류하고, 양성 초구(Positive Hypersphere)를 갱신합니다. 즉 경험한 지형은 양성 영역으로 모으고, 경험과 다른 지형은 자연스럽게 밀려나도록 학습합니다.

교수님 설명

주행 가능성을 만드는 방법은 발전해 왔습니다. 예전엔 기하학적(geometric) 방식으로, LiDAR로 경사도·고도(elevation) 변화를 구해 "0.5 미만이면 갈 수 있다"는 식으로 잘랐습니다. 다음은 의미론적(semantic) 방식으로 수풀·물·땅처럼 의미 단위로 구분했죠. 그리고 최근에 많이 하는 것이 자기 경험(self-experience) 기반 학습입니다.

핵심 직관은 이렇습니다. 사람이나 로봇이 실제로 주행하면서 "명령한 대로 잘 갔는가"를 기록합니다. 1m/s로 명령했는데 그대로 갔으면 좋은 경험(positive), 진흙탕처럼 명령은 들어도 못 가면 나쁜 경험으로 봅니다. 이렇게 쌓은 경험을 LiDAR의 빛 특징·잠재(latent) 특징으로 표현해, 가본 곳과 유사한 지형은 양성(positive)으로, 안 가봤지만 비슷하면 갈 수 있는 곳으로, 완전히 다르면 밀어내는 방식으로 강건하게 학습합니다.

이를 위해 내부적으로 복원(Reconstruction)·회귀(Regression)·이상 탐지(Anomaly Detection)를 함께 씁니다. 경험하지 않은 영역도 잠재 공간에서 내 경험과 가까우면 갈 수 있다고 자연스럽게 판단하고, 잘못된·위험한 경험은 양성 공간 밖으로 밀려나도록 자가지도 학습을 구성한 것입니다.

보충 설명

"양성 초구(Positive Hypersphere)"는 이상 탐지에서 흔히 쓰는 발상입니다. 정상(=경험한 안전 주행) 데이터를 잠재 공간의 한 구(球) 안에 모이도록 학습하면, 그 구 밖으로 멀리 떨어진 샘플은 자동으로 "본 적 없는/위험한 지형"으로 분류됩니다. 일일이 위험 지형 라벨을 달지 않고도, 좋은 경험만으로 주행 가능 영역을 정의할 수 있다는 점이 강점입니다. BEV(Bird's-Eye View)와 필러(pillar) 인코딩은 LiDAR 점군을 위에서 내려다본 격자로 압축해 지면 특징을 효율적으로 다루는 표준 기법입니다.

슬라이드 내용 정리

제목만 Traversability Estimation: GSAT이고 본문은 시연 영상(현재 검은 화면)으로 채워진 슬라이드입니다. 앞 슬라이드의 GSAT 기법이 실제 험지에서 어떻게 동작하는지를 보여주는 데모입니다.

교수님 설명

가정(현장) 테스트 사례를 보여줍니다. 예컨대 우거진 수풀은 사람이라면 헤치고 지나갈 수 있는 곳이지만, LiDAR로 고도 지도(DEM, Digital Elevation Map)만 보면 풀을 뚫지 못해 "장애물·못 가는 곳"으로 잘못 판단합니다. 그래서 "1m는 가라 / 못 간다"는 신호가 심하게 충돌(요동)하게 됩니다.

하지만 "이런 풀밭은 실제로 가보니 괜찮았다, 좋은 경험이다"를 학습하면, 다음 주행부터는 그 지형을 갈 수 있는 곳으로 예측합니다. 이렇게 추정한 주행 가능성을 바탕으로 안정성(stability)·성능·목표 등을 고려해 최적 경로(optimal path)를 뽑아 탐사(exploration)할 수 있습니다. 지도가 사전에 주어지지 않아도 지도를 만들기 위한 주행 자체가 가능해지는 것이죠.

핵심은 배터리가 다할 때까지 로봇이 스스로 탐색을 이어가며 미션을 성공시킬 수 있는가입니다. 이 내용은 작년 우주 로봇 학회(iSpaRo 등)에서 발표했던 필드 환경 연구에 해당합니다.

Part 13슬라이드 54~57

13달 탐사·동굴 아날로그 실험과 필드 캘리브레이션

slide 54
슬라이드 54 · 주행가능성에서 신뢰도 기반 탐색으로
slide 55
슬라이드 55 · CUTE-Planner 핵심 4단계
slide 56
슬라이드 56 · GBP / Only_Trav / Ours 비교
slide 57
슬라이드 57 · 해양 로봇을 위한 강인한 인식
슬라이드 내용 정리

제목: 주행가능성에서 신뢰도 기반 탐색으로(From Traversability to Confidence-aware Exploration)

도전 과제 — 불확실한 험지에서의 안전한 탐색(Safe exploration on uncertain uneven terrain):

• 험한 지형은 주행가능성 추정을 불확실하게 만든다 — 크레이터, 경사, 바위, 희소한 LiDAR(라이다) 관측 때문.
안전한 경로(safe paths)정보가 많은 경로(informative paths)는 같지 않을 수 있다 → 탐색은 안전성과 지도 개선 사이의 균형을 잡아야 한다.
• 신뢰도가 낮은 영역(low-confidence regions)은 이후 항법 성능을 떨어뜨린다 → 부정확한 DEM(디지털 표고 모델) → 부정확한 주행가능성 → 위험한 계획.

전체 파이프라인: LiDAR 점군(Point Cloud) → A. 디지털 표고 모델(Height Extraction → Kalman Update → Confidence Mapping) → B. 주행가능성 분석(Slope, Roughness, Step Height) → 주행가능성 비용(Traversability Cost) → C. 자율 탐색(Traversability-based Sampling → Build Local Graph → Objective Shortest Paths → Path Evaluation → Path Execution) → Command Velocity → 제어(Control) → 행동(Action).

교수님 설명

실내에서 자동차가 차선을 뽑듯이, 야외·험지 환경에서는 로봇이 잘 다니려면 먼저 지면의 주행가능성(Traversability) 정보를 뽑아 놓아야 합니다. 그런데 이게 재미있는 게, 로봇마다 형태가 다 달라요 — 누구는 바퀴, 누구는 다리, 다리의 자유도도 제각각이죠. 그래서 "주행 가능하다"는 의미 자체가 지형에 따라, 로봇에 따라, 그리고 우리가 쓰는 센서에 따라 전부 달라집니다. 이걸 잘 표현하는 것이 사실 이 분야에서 가장 중요한 문제 중 하나예요.

기존에는 주행가능성을 두 가지 방식으로 잘랐습니다. 첫째는 기하학적(geometric) 방법 — 라이다로 찍어서 경사도, 표고(elevation) 높이 차이를 구하고 "0.5 미만이면 간다" 식으로 임계값으로 자르는 것. 둘째는 의미론적(semantic) 방법 — 수풀, 물, 땅처럼 의미적으로 단순하게 분류하는 것입니다. 하지만 최근에 많이 하는 것은 자기 경험(self-supervised) 기반이에요. 사람이 다니면서 "여긴 갈 수 있다"는 경험을 쌓듯이, 로봇도 주행 명령과 실제 결과를 비교합니다. 1m/s 명령을 보냈는데 1m/s로 잘 가면 좋은 경험(positive)이고, 웅덩이라 명령을 듣고도 못 가면 나쁜 경험으로 기록되죠.

이 그림의 파이프라인은 그 아이디어를 시스템으로 만든 것입니다. 라이다 점군에서 표고 모델(DEM)을 만들고 칼만 필터(Kalman Update)로 갱신하면서 동시에 각 셀의 신뢰도(Confidence)를 함께 추정합니다. 그 위에서 경사·거칠기(roughness)·단차(step height)로 주행가능성 비용을 계산하고, 마지막으로 그 비용을 바탕으로 그래프를 만들어 경로를 샘플링·평가해서 자율 탐색을 수행합니다.

보충 설명

"자기 경험 기반 학습"의 직관: 실제로는 재구성(Reconstruction)·회귀(Regression)·이상치 탐지(Anomaly Detection)를 씁니다. 로봇이 실제로 지나간 곳의 라이다 잠재 특징(latent feature)은 positive로 학습되고, 가보진 않았지만 특징이 비슷한 영역은 자연스럽게 positive 쪽으로, 전혀 다른 영역은 잠재 공간(latent space)에서 멀리 밀려나 "안 가본 곳(unknown)"으로 분류됩니다. 즉 라벨을 사람이 일일이 다는 것이 아니라, 주행 자체가 라벨이 되는 약지도학습(weakly-supervised) 방식이라 험지에서 특히 강력합니다. 예를 들어 풀숲은 라이다가 뚫지 못해 표고지도상으로는 "벽(못 감)"처럼 보이지만, 한 번 통과해 본 경험이 있으면 "사실 갈 수 있는 곳"으로 다시 학습됩니다.

슬라이드 내용 정리

제목: 자율 탐색: CUTE-Planner — 핵심 단계(Core Stages).

네 단계로 구성됩니다: ① 주행가능성 분석(Traversability Analysis) → ② 주행가능성 기반 샘플링(Traversability-based Sampling) → ③ 지역 그래프 구성(Local Graph Construction) → ④ 최적 경로 선택(Optimal Path Selection).

오른쪽 색상 막대: 값 1 = 위험(Dangerous), 0.5 = 중간, 0 = 안전(Safe). 각 그림은 주행가능성 맵 위에서 후보 경로를 어떻게 뽑고 평가하는지를 시각화한 것입니다.

교수님 설명

이렇게 자기 경험으로 주행가능성을 추정하고 나면, 로봇은 "내가 가본 곳 / 안 가본 곳 / 모르는 곳"을 구분해서 실제 주행에 반영할 수 있게 됩니다. 그리고 그 주행가능성 맵 위에서 최적(optimal) 경로를 뽑아 탐색을 수행하는 것이 바로 이 CUTE-Planner입니다. 지도 정보가 사전에 주어지지 않아도, 로봇이 스스로 지도를 만들기 위한 탐색 주행을 할 수 있다는 것이 핵심이에요.

구체적으로는, 주변 환경에 대한 주행가능성을 먼저 만들고(①), 그 위에서 경로를 샘플링한 다음(②), 후보들을 연결해 지역 그래프를 만들고(③), 안정성(stability)·성능(performance)·탐색 이득 같은 목적함수를 따져 가장 좋은 경로를 고릅니다(④). 단순히 "갈 수 있냐"만 보는 게 아니라, 안전하면서도 새 지도를 가장 많이 채울 수 있는 경로를 균형 있게 선택하는 것이죠.

슬라이드 내용 정리

제목: 자율 탐색: CUTE-Planner — 비교 실험 결과.

세 가지 방법을 행으로 비교: GBP(기존 그래프 기반 플래너), Only_Trav(주행가능성만 사용), Ours(제안 기법).

열(column)별 시각화: 왼쪽 = Gazebo 시뮬레이션(달 표면 아날로그 환경, 크레이터가 보임), 가운데 = 지역 계획 그래프 + 지역 주행가능성 맵(Dangerous↔Safe 색), 오른쪽 = 최적 탐색 경로 + 지역 신뢰도 맵(Reliable↔Unreliable 색). 모든 장면에 x5 배속 표시.

교수님 설명

여기서 가장 중요한 질문은 "배터리가 완전히 닳을 때까지 로봇이 계속 탐색하며 다닐 수 있느냐, 그래서 미션을 성공(mission success)시킬 수 있느냐"입니다. 왼쪽이 Gazebo로 시뮬레이션한 화면인데, 크레이터가 있는 달 표면 같은 환경에서 세 방법을 비교했습니다. 가운데 열은 각 방법이 만든 주행가능성 맵과 후보 경로 그래프이고, 오른쪽 열은 최종적으로 고른 탐색 경로와 함께 그 영역의 신뢰도가 얼마나 높은지(Reliable/Unreliable)를 보여줍니다.

작년에 i-SAIRAS 같은 우주 로봇 학회가 있었는데, 거기서 이런 필드 환경 결과를 발표했습니다. 핵심은 신뢰도를 함께 추정하는 우리 방법(Ours)이 위험 영역을 피하면서도 안정적으로 더 오래 탐색을 지속해, 같은 배터리로 더 넓은 영역을 안전하게 지도화한다는 점입니다.

슬라이드 내용 정리

제목: 덧붙여서… 해양 로봇을 위한 강인한 인식(In addition... Robust Perception for Marine Robots)

오른쪽에 수중 로봇 사진 두 장 — Girona(노란색 수중 로봇)와 Stevens(수상/수중 플랫폼). 지상 환경에서 다루던 인식 문제를 해양·수중 환경으로 확장한다는 전환 슬라이드.

교수님 설명

사실 제가 박사과정 때는 해양 로봇을 많이 다뤘습니다. 연구는 해양 로봇으로 하고 프로젝트는 자동차로 했었죠. 해양 환경에서도 결국 SLAM(슬램)을 해야 하는데, 여기서는 카메라뿐 아니라 소나(sonar) 센서를 가장 많이 씁니다. 소나로 수중 환경을 인식해서, 멀리 나갔다가 다시 돌아왔을 때 "내가 전에 왔던 곳"을 다시 알아보는 루프 클로저(loop closure)를 카메라가 아니라 소나로 해결하는 것이죠.

두 번째 문제는 수중 카메라 영상이 거의 안 보인다는 점입니다. 특히 우리나라 서해처럼 탁도가 심한 곳은 고프로를 들고 들어가도 아무것도 안 보여요. 그래도 그런 곳에서 로봇을 돌려야 할 때가 있으니, 카메라 영상을 좋게 만드는(영상 개선) 기술이 필요합니다. 여기서 재미있는 통찰은 — 안개 낀 사진처럼 가까운 것은 잘 보이고 먼 것은 흐릿하게 안 보인다는 점인데, 이는 곧 영상이 얼마나 잘 보이는지 자체가 거리 정보를 담고 있다는 뜻입니다.

그래서 네트워크가 영상을 잘 개선할 수 있다면, 그 네트워크는 동시에 이미지 안의 상대 거리(깊이)를 잘 추정하고 있다는 의미가 됩니다. 개선을 많이 해야 하는 곳은 멀리 있고, 덜 해도 되는 곳은 가까이 있는 식이죠. 이 점을 이용해 네트워크를 설계했습니다. 다만 딥러닝 깊이 추정(depth estimation)은 보기엔 그럴듯해도 실제 값을 뽑아 보면 엉망인 경우가 많고, 더 큰 문제는 "어디서부터 엉망이 되는지"를 모른다는 거예요.

보충 설명

그래서 쓴 해법이 불확실성(uncertainty) 추정입니다. 깊이 추정 네트워크가 "잘 보이고 정확한 영역"의 정보는 많이 신뢰하고, "정보가 거의 없는 어두운/탁한 영역"은 스스로 불확실하다고 표시하도록 작게 학습시킵니다. 이렇게 하면 수중 전용으로 영상 개선(image enhancement) + 깊이 추정을 함께 수행할 수 있고, 신뢰할 수 있는 깊이 정보만 골라 수중 매핑(underwater mapping)에 활용할 수 있습니다. 지상에서는 굳이 필요 없지만, 유럽·호주처럼 로봇 기반 해양 조사·산호초 매핑(coral reef mapping)이 중요한 곳에서는 이런 기술이 핵심 역할을 합니다. 앞서 본 신뢰도 기반 탐색과 같은 철학 — "센서가 못 믿을 영역을 스스로 알고 다루는 것" — 이 수중에서도 그대로 적용된 사례입니다.

Part 14슬라이드 58~60

14IMU 자기지도학습과 상태추정

slide 58
슬라이드 58 · 소나 기반 수중 SLAM
slide 59
슬라이드 59 · 수중 영상 인식(개선·깊이)
slide 60
슬라이드 60 · 깊이 추정과 메쉬 매핑
슬라이드 내용 정리

Underwater SLAM (Sonar-based) — 수중 로봇을 위한 소나(sonar) 기반 SLAM 알고리즘 연구·개발. 영상 소나(imaging sonar)를 표현하는 디스크립터(descriptor)를 설계하고 SLAM 파이프라인을 구축하는 것이 목표입니다. 슬라이드에는 직접 모은 SONAR Dataset, 장소 인식(Place Recognition) 결과, 그리고 "Place Recognition → Localization → Pose Graph SLAM"으로 이어지는 전체 처리 흐름이 그려져 있습니다. 출처: Kim, Hogyun, …, Younggun Cho, "Robust Imaging Sonar-based Place Recognition and Localization in Underwater Environments," ICRA (2023).

교수님 설명

발표자는 박사과정 때부터 해양 로봇(marine robot)을 주로 연구했다고 소개합니다. 해양 환경에서도 결국 SLAM을 해야 하는데, 물속에서는 카메라만으로는 한계가 커서 가장 많이 쓰는 센서가 바로 소나(sonar)입니다. 소나로 수중 환경을 인식해서, 한 바퀴 돌고 돌아왔을 때 "내가 전에 왔던 곳이 맞나?"를 판단하는 장소 인식(place recognition)·루프 클로저(loop closure)를 카메라가 아니라 소나 신호만으로 찾아내는 것이 핵심입니다.

이렇게 소나로 인식한 장소들을 이어 붙여 포즈 그래프(pose graph)를 만들고 최적화하면, 시야가 거의 없는 탁한 물속에서도 로봇이 자기 위치를 추정하며 지도를 만들 수 있게 됩니다. 그래서 수중 SLAM의 출발점은 "소나 영상을 잘 표현하는 디스크립터를 어떻게 만드느냐"가 됩니다.

슬라이드 내용 정리

Underwater Visual Perception — 수중에서 흐릿하게 들어온 원본 영상(Input)을 우리 방법으로 선명하게 복원한 결과(Ours), 그리고 그 영상으로부터 추정한 깊이 지도(Ours-Depth)를 보여줍니다. 깊이 결과에는 Uncert.(불확실성, uncertainty) 맵이 함께 표시되어, 추정값을 어느 정도 믿을 수 있는지까지 나타냅니다.

교수님 설명

수중에서는 카메라가 거의 무용지물입니다. 특히 우리나라 서해처럼 탁도(turbidity)가 높은 곳은 고프로를 들고 들어가도 아무것도 안 보일 정도죠. 그런데 여기서 재미있는 직관이 있습니다. 안개 낀 길을 찍은 사진처럼, 가까운 것은 선명하고 먼 것은 흐리게 보입니다. 즉 영상이 "얼마나 잘 보이느냐"는 그 자체로 이미지 안의 상대적 거리 정보를 담고 있다는 뜻입니다.

그래서 네트워크가 흐린 영상을 잘 개선(enhancement)할 수 있다면, 그 네트워크는 결국 거리 정보를 잘 추정하고 있는 셈입니다(많이 개선해야 하면 멀리, 덜 해도 되면 가까이). 이 아이디어로 영상 개선과 깊이 추정(depth estimation)을 한 네트워크에서 함께 풀도록 설계했습니다. 다만 딥러닝 깊이 추정은 눈으로 보면 그럴듯해도 실제 값을 뽑아보면 엉망인 구간이 있고, 어디가 엉망인지 알기 어렵다는 게 문제입니다. 그래서 "이 영역은 정보가 부족하다"를 스스로 알려주는 불확실성(uncertainty)까지 함께 추정하도록 작은 모듈을 붙여, 수중 전용 영상 개선·깊이 추정을 가능하게 만들었습니다.

보충 설명

"불확실성을 함께 추정한다"는 것은 모델이 단일 정답 대신 "이 픽셀의 깊이는 이 값이고 신뢰도는 이 정도"를 출력하도록 학습한다는 뜻입니다(aleatoric uncertainty 개념). 이렇게 하면 뒤이은 매핑 단계에서 믿을 수 없는 깊이값을 걸러내거나 가중치를 낮춰, 신뢰할 수 있는 영역만 골라 지도를 만들 수 있습니다.

슬라이드 내용 정리

Depth Estimation and Mesh MappingAUV(자율 수중 로봇)를 위한 사실적(photorealistic) 실시간 고밀도 3D 메쉬 매핑. 파이프라인은 영상과 깊이(Depth Anything 기반)를 입력받아 키프레임·포즈를 샘플링하고, TrackingMapping을 거쳐 글로벌 메쉬 모델을 만듭니다. 실제 데이터셋 FLSea-VI Canyons Flatiron, FLSea-VI Redseas Cross Pyramid Loop에서의 복원 결과를 보여줍니다. 출처: Jungwoo Lee and Younggun Cho, "Photorealistic Real-Time Dense 3D Mesh Mapping for AUV," ICRA-workshop (Field Robotics) (2024).

교수님 설명

앞에서 만든 깊이 정보와 영상 정보가 프레임마다 계속 나오기 때문에, 이를 함께 활용하면 수중 매핑(underwater mapping)으로 자연스럽게 이어집니다. 지상 환경에서는 굳이 이렇게까지 할 필요가 없지만, 유럽·호주처럼 로봇으로 해양 조사를 하고 산호초 매핑(coral reef mapping) 같은 작업을 하는 곳에서는 로봇이 영상을 보며 스스로의 상태를 확인하면서 정밀한 3D 지도를 만드는 기술이 매우 중요해집니다.

발표자는 이를 take-home message로 정리합니다. 필드 로봇이 잘 동작하려면 로버스트니스(robustness), 활용도(welfare/utility), 효율(efficiency) 세 가지가 함께 갖춰져야 하며, 공간 지능(spatial intelligence)도 예전처럼 단순히 위치추정·매핑을 잘하는 것에 그치지 않고 그 공간 위에서 실제로 행동(action)하는 단계로 넘어가고 있다는 것입니다. 스페인 해양 실험, 탐사 로봇 필드 테스트, 텐트 치고 나가서 하는 고된 야외 실험 사진들을 보여주며 "우리가 책상에서 세운 가정은 현실에서 너무 쉽게 깨지지만, 바로 그런 어려움을 동시에 풀어내는 것이 의미 있고 재미있다"고 마무리합니다.

보충 설명

여기서 메쉬 매핑(mesh mapping)은 점들의 집합(point cloud)을 삼각형 면(mesh)으로 이어 붙여 연속적인 표면으로 표현하는 방식입니다. AUV가 흐린 물속을 지나가도 키프레임마다 추정한 깊이를 누적해 표면을 채워 나가므로, 사후 처리 없이 실시간으로 산호초나 해저 지형 같은 복잡한 구조를 사실적으로 복원할 수 있습니다. 끝에 언급된 RAS(Robotics and Automation Society)의 필드 로보틱스 클러스터·안전보안 로봇 심포지엄은 이 연구 분야의 학술 커뮤니티 홍보입니다.

Part 15슬라이드 61~63

15주행가능성 추정과 능동 탐사

slide 61
슬라이드 61 · Take-home Message (표지)
slide 62
슬라이드 62 · 핵심 메시지 4가지
slide 63
슬라이드 63 · Why Field Robots? (현장 사진)
슬라이드 내용 정리

Take-home Message(핵심 정리) 섹션의 표지 슬라이드입니다. 발표 전체를 마무리하며 전달하고 싶은 메시지를 정리하기 위한 도입 화면입니다.

교수님 설명

본격적인 정리에 앞서, 교수님은 자신의 연구 배경을 잠깐 소개합니다. 원래 박사과정에서는 해양 로봇(marine robot)으로 연구를 했고, 프로젝트로는 자율주행차 등 다양한 분야를 함께 했다고 합니다.

해양 환경에서는 SLAM(동시적 위치추정·지도작성)을 할 때 카메라뿐 아니라 소나(sonar) 센서를 가장 많이 씁니다. 물속 환경을 인식해서 결국 루프 클로저(loop closure, 과거에 왔던 곳을 다시 알아보는 것)를 잘 찾아주는 것이 핵심인데, 카메라가 아니라 소나로 "내가 갔던 곳에 다시 돌아왔다"를 판단한다는 점이 지상 로봇과 다릅니다.

보충 설명

물속에서 카메라가 잘 안 보이는 이유는 탁도(turbidity, 물의 흐림 정도)가 높기 때문입니다. 우리나라 서해처럼 탁도가 심하면 고프로 같은 카메라로는 아무것도 안 보이죠. 그래서 빛 대신 음파를 쓰는 소나가 수중 인식의 주력 센서가 됩니다. 교수님은 여기에 더해, 그래도 카메라를 "좋은 입력으로 만들어" 쓸 방법이 있다는 흥미로운 접근을 다음 슬라이드 흐름에서 이야기합니다.

슬라이드 내용 정리

발표의 핵심 메시지를 네 가지로 정리합니다.

① 현장 로봇은 가정을 깨뜨린다(Field robots break assumptions) — 비정형 지형, 열화된 센싱, 동적 환경, 제한된 통신 때문에 현장 자율주행은 실내 로보틱스와 근본적으로 다르며, 그 결과 SLAM만으로는 부족하다(SLAM alone is not enough).

② 장기 자율주행에는 세 가지 능력이 필요하다(Long-term autonomy)Robustness(강건성): 외란 속에서도 추정 유지 / Reliability(신뢰성): 지도·움직임·지형에서 무엇을 믿을지 알기 / Efficiency(효율성): 제한된 연산·메모리·통신에서 동작 지속.

③ 공간 지능은 행동 가능해져야 한다(Spatial intelligence must become actionable)state estimation(상태 추정)에서 traversability understanding(주행가능성 이해)으로, 다시 confidence-aware exploration(신뢰도 기반 탐사)으로 나아간다.

④ 우리의 관점(Our perspective) — 현장 현실적 데이터, 강건한 추정, 행동 가능한 지형 이해, 탐사는 하나의 연결된 자율주행 스택(connected autonomy stack)으로 개발되어야 한다.

교수님 설명

이 슬라이드로 넘어오기 전, 교수님은 수중 영상 처리의 재미있는 직관을 설명합니다. 안개 낀 길이나 흐린 물속 사진을 보면 가까운 것은 잘 보이고 먼 것은 잘 안 보입니다. 너무 당연한 현상인데, 이는 곧 "영상이 얼마나 잘 보이느냐/안 보이느냐"가 이미지 안의 거리 정보(상대 깊이)를 담고 있다는 뜻입니다. 따라서 네트워크가 흐린 영상을 잘 개선할 수 있다면, 그 네트워크는 결국 이미지 속 상대 거리를 잘 추정하고 있는 셈입니다 — 많이 개선해야 하는 곳은 멀리 있고, 덜 개선해도 되는 곳은 가까이 있는 것이죠.

여기에 더해 교수님은 딥러닝 깊이 추정의 함정도 지적합니다. 결과 영상은 예뻐 보여도 실제 수치를 뽑아보면 틀린 영역이 많은데, 어디가 틀렸는지 알기 어렵다는 것이 문제입니다. 그래서 "이 지역은 정보가 정확하다 / 이 지역은 신뢰하기 어렵다"를 불확실성(uncertainty)으로 함께 추정하도록 작은 모듈을 만들어 학습시키면, 수중 환경 전용으로 영상 개선과 깊이 추정을 동시에 할 수 있게 됩니다. 이렇게 얻은 깊이 정보를 영상과 함께 쓰면 수중 매핑(underwater mapping)에도 활용할 수 있습니다.

이제 본 슬라이드의 거창한 take-home 메시지로 정리하면, 오늘 발표의 목표는 필드 로봇을 소개하고 그 과정에서 마주한 문제들을 어떻게 풀어왔는지 보여주는 자리였습니다. 결국 Robustness, Reliability, Efficiency 세 가지를 잘 갖추면 현장 환경에서 잘 동작하는 로봇을 만들 수 있고, 예전에는 매핑만 잘하면 됐던 공간 지능이 이제는 그 지도를 바탕으로 행동(action)하고 탐사하는 단계로 넘어가고 있다는 것이 핵심 메시지입니다.

보충 설명

이 섹션 제목인 traversability(주행가능성)는 "이 지형을 로봇이 실제로 지나갈 수 있는가"를 점수화한 개념입니다. 슬라이드의 흐름 — 상태 추정 → 주행가능성 이해 → 신뢰도 기반 탐사 — 은 "내가 어디 있는지 안다"에서 멈추지 않고, "어디로 갈 수 있는지", "어디를 더 확인해야 하는지(불확실한 곳을 골라 탐사)"까지 이어지는 발전 단계를 의미합니다. 수중 깊이 추정에서 본 confidence-aware(신뢰도 인식) 아이디어가 탐사 단계에도 그대로 연결된다는 점이 이 발표의 일관된 주제입니다.

슬라이드 내용 정리

Why Field Robots?(왜 현장 로봇인가?) — "Because… it's fun!(재밌으니까!)"이라는 답으로 시작합니다. 이어서 세 가지 이유를 적습니다: 가정이 깨지기 때문에(assumptions break), 현실은 지저분하기 때문에(reality is messy), 그래서 바로 그곳에서 자율주행이 진짜가 되기 때문에(that's where autonomy becomes real). 오른쪽과 아래에는 해양·필드 실험 현장 사진들이 모자이크로 배치되어 있습니다.

교수님 설명

마지막으로 교수님은 "사람들이 왜 그렇게 힘든 현장 로봇을 하느냐"고 물으면, 솔직히 막무가내 같아 보여도 재미있어서라고 답합니다. 슬라이드의 사진들은 실제 경험들입니다. 스페인에서 나갔던 해양 실험, 로봇을 만들어 물에 넣고 테스트하던 장면, 앞서 소개한 탐사 알고리즘을 검증하던 현장, 학생들과 함께 텐트를 치고 나가 테스트하던 모습 등이 담겨 있습니다.

이런 현장에서 얻은 교훈은 분명합니다. 우리가 책상에서 세운 가정은 너무 쉽게 깨지고, 현실은 정말 변수가 많다는 것입니다. 하지만 바로 그런 어려운 환경에서 문제를 풀어낼 때 의미가 크고, 그 점이 필드 로봇 연구의 매력이라는 메시지로 발표를 마무리합니다.

끝으로 교수님은 홍보를 덧붙입니다. IEEE 로봇·자동화 소사이어티(RAS) 안의 필드 로봇 클러스터에서 운영하는 안전·보안·구조 로봇 심포지엄(Safety, Security, and Rescue Robotics)을 6월에 개최하며(논문 제출 마감은 6월 5일경), 경비 로봇·소방 로봇 같은 주제도 포함되니 관심 있으면 투고·발표해보라고 권합니다. 또한 소개한 논문들은 99%가 오픈소스라 누구나 다운로드해 볼 수 있다고 안내하며 강연을 마칩니다.

Part 16슬라이드 64~65

16수중 로봇과 Take-home 메시지

slide 64
슬라이드 64 · SSRR 심포지엄 홍보
slide 65
슬라이드 65 · 마무리 인사와 논문 링크
슬라이드 내용 정리

Advertisement! (홍보) 한 장입니다. IEEE International Symposium on Safety, Security, and Rescue Robotics — 약칭 SSRR(안전·보안·구조 로봇 국제 심포지엄)의 안내 페이지를 캡처해 두었습니다. 개최지는 Incheon, Korea(인천), 일정은 November 07–04, 2026(11월)로 적혀 있고, 화면 아래에는 Submit paper(논문 제출)와 Learn more(자세히 보기) 버튼이 보입니다. 좌하단 로고는 발표자의 연구실 SPARO(Spatial AI and Robotics Lab)입니다.

교수님 설명

광고 슬라이드로 넘어오기 직전까지는 수중 인지(underwater perception) 이야기였습니다. 영상 개선(image enhancement)과 깊이 추정(depth estimation)을 함께 푸는 네트워크를 설계하는데, 핵심 아이디어는 "개선을 많이 해야 한다 = 멀리 있다, 덜 해도 된다 = 가까이 있다"처럼 영상 정보 자체에서 거리 단서를 끌어내는 것입니다. 또 딥러닝 깊이 추정 결과는 눈으로 보면 그럴듯한데 막상 뽑아서 쓰면 어디서부터 틀어지는지 알기 어려운 문제가 있습니다. 그래서 정확한 영역만 골라 쓰고, 신뢰가 낮은 영역은 불확실성(uncertainty)을 함께 추정하도록 작은 모듈을 붙여 학습하면, 수중 전용으로 영상 개선·깊이 추정을 안정적으로 할 수 있게 됩니다. 이렇게 얻은 깊이 정보는 결국 수중 매핑(underwater mapping)에도 함께 활용됩니다.

지상에서는 굳이 필요 없지만, 해양 조사나 (유럽·호주 등지의) 산호초 매핑(coral reef mapping)처럼 로봇이 맡아야 하는 임무에서는 영상을 잘 보면서 스스로의 상태를 확인하는 능력이 중요해 이런 기술이 필요해집니다. 이어진 Take-home 메시지는, 오늘 강연의 목표가 필드 로봇(field robotics)을 소개하고 거기서 마주친 문제들을 어떻게 풀어왔는지를 나누는 자리였다는 것, 그리고 Robust(강건함)·Long-term(장기 운용)·Efficiency(효율) 세 가지를 잘 살리면 필드 환경에서 제대로 동작하는 로봇을 만들 수 있으리라는 것입니다. 또 예전에는 공간 지능(spatial intelligence)이 경로 계획이나 매핑에 머물렀다면, 이제는 그 공간 위에서 행동(action)까지 다루는 방향으로 넘어가고 있다고 정리했습니다.

이 슬라이드 자체는 잠깐의 홍보입니다. IEEE RAS(로봇·자동화 학회)의 여러 기술 커뮤니티 중, 발표자가 속한 마이크로 로보틱스/필드 로봇 클러스터 산하의 SSRR(Safety, Security, and Rescue Robotics) 심포지엄을 소개합니다. 경비 로봇(security)이나 소방 로봇 같은 구조 로봇(rescue)이 주제로, 올해는 발표자가 직접 운영을 맡았고 논문 제출 마감이 6월 초(6월 5일경)라고 안내했습니다. 관심 있으면 제출해 발표해 보길 권했습니다.

보충 설명

불확실성 추정(uncertainty estimation)이 왜 중요한지 직관을 더하면: 깊이 추정 결과가 "틀릴 수 있다"는 것까지 모델이 스스로 말해주면, 매핑이나 항법에서 신뢰할 만한 값만 골라 쓰고 의심스러운 값은 버리거나 가중치를 낮출 수 있습니다. 수중은 빛 산란·탁도 때문에 영상 품질이 들쭉날쭉해 "겉보기엔 멀쩡한데 실제론 엉망"인 구간이 흔하므로, 정답을 더 잘 맞히는 것만큼이나 "어디를 믿으면 안 되는지"를 아는 능력이 안전한 자율 운용의 핵심이 됩니다.

슬라이드 내용 정리

마무리 슬라이드입니다. Thank you! 인사와 함께 연구 논문 모음 링크 https://sparolab.github.io/research/paper/, 그리고 연락 이메일 yg.cho@inha.ac.kr이 적혀 있습니다. 좌하단에 연구실 로고 SPARO — Spatial AI and Robotics Lab이 보입니다.

교수님 설명

강연을 닫으며, 연구가 겉보기엔 막무가내처럼 보여도 실제로는 무척 재미있다는 점을 직접 보여주는 현장 사진들을 곁들였습니다. 처음 스페인에서 나갔던 해양 실험, 로봇을 물에 넣어 테스트하던 장면, 앞서 소개한 탐사 임무 현장, 건물 안에서 진행한 실험, 학생들과 함께 텐트를 치고 나가 고생하며 테스트하던 모습 등입니다. 이런 필드 경험에서 얻은 교훈은 "우리가 책상에서 세운 가정은 너무 쉽게 깨지고, 현실에는 정말 변수가 많다"는 것, 그리고 바로 그렇기 때문에 이런 문제를 해결하면 큰 의미가 있고 또 재미있다는 것이었습니다.

정해진 1시간 중 52분 즈음에 발표를 마무리했습니다. 마지막으로, 소개한 논문들이 거의 전부(99%) 오픈소스(open source)이므로 슬라이드의 링크로 들어가면 직접 다운로드해 살펴볼 수 있다고 안내하며, 관심 있는 분들은 꼭 둘러보길 권했습니다. "잘 들었습니다, 감사합니다"로 강연을 끝맺습니다.

용어표 · English ↔ 한글

English
한글
의미
SLAM
동시적 위치추정·지도작성
지도를 만들면서 동시에 그 지도 안에서 자기 위치를 추정하는 기술.
Localization
위치추정
주어진 지도 위에서 로봇의 위치와 자세를 추정하는 과정.
Mapping
지도작성
추정된 위치를 기반으로 주변 환경의 지도를 구성하는 과정.
Loop Closure
루프 클로저(재방문 인식)
이전에 방문한 장소를 다시 방문했음을 인식해 누적 오차를 보정하는 것.
Data Association
데이터 연관
연속/비연속 관측들 사이에서 같은 대상·특징을 연결 짓는 작업.
Pose-Correspondence
포즈-대응 관계
데이터 간 연관성으로, 이것이 깨지면 지도·포즈 추정이 연쇄적으로 무너지는 핵심 요소.
Front-end / Back-end
프론트엔드/백엔드
센서처리·연관을 담당하는 프론트엔드와 최적화를 담당하는 백엔드로 나뉘는 SLAM 구조.
Physical AI
피지컬 AI
센서·액추에이터로 실제 물리 세계와 상호작용하는 인공지능 시스템.
Spatial AI
공간지능
다양한 정보를 결합해 주변의 기하학적 구조와 의미를 동시에 이해하는 기술.
World Model
월드 모델
에이전트의 행동에 따라 환경이 어떻게 변할지를 예측하는 모델.
Field Robot
필드 로봇
농업·산림·수중·우주 등 비정형·예측 불가능한 실환경에서 동작하는 로봇.
Degraded Perception
저하된 인지
분진·저조도·반사 등으로 센서 인지 성능이 떨어지는 상황.
Long-term Autonomy
장기 자율성
사람 개입 없이 로봇이 장시간 자율적으로 동작·탐사하는 능력.
Traversability
주행 가능성
현재 위치에서 어디로 안전하게 갈 수 있는지를 나타내는 척도로, 지면·로봇·센서에 따라 달라진다.
Self-supervised Learning
자기지도학습
라이다 포즈나 주행 경험 같은 자체 신호를 정답으로 활용해 라벨 없이 학습하는 방식.

스스로 점검

  1. SLAM에서 Localization과 Mapping이 왜 '닭이 먼저냐 달걀이 먼저냐' 문제로 비유되며, 이를 풀기 위해 왜 센서 융합이 필요한가?
  2. 프론트엔드와 백엔드의 역할 차이는 무엇이고, Pose-Correspondence가 왜 SLAM의 핵심 실패 지점이 되는가?
  3. 거울·유리벽 반사나 분진·동적 물체가 카메라·라이다 SLAM을 구체적으로 어떻게 망가뜨리는지 사례로 설명할 수 있는가?
  4. 필드 로봇 환경의 공통 제약(GPS·통신·visibility·센서 변동)과 Robust·Long-term·Efficient 세 키워드는 어떻게 연결되는가?
  5. 주행가능성(traversability)이 로봇·지면·센서에 따라 달라지는 이유와, 자기 경험 기반 자기지도학습으로 이를 추정하는 방식은 무엇인가?
  6. IMU 자기지도학습에서 라이다 포즈를 가이드로 삼고 희귀(rare)·특이 모션을 강조해 학습하는 이유는 무엇인가?
  7. 수중 영상개선 네트워크가 어떻게 영상 내 상대적 깊이(거리) 정보를 함께 추정할 수 있는가?