01반도체의 종류·기능과 비즈니스 모델
이번 주 강연은 삼성전자에서 오랜 기간 메모리(특히 DRAM) 기술을 이끌어 오신 황유상 펠로우님이 맡으셨습니다. 강의의 핵심 메시지는 "반도체 기술이 어디로 가고 있으며, 그 종착점이 결국 로봇(피지컬 AI)이 될 것"이라는 점입니다.
그래서 강의 전체가 ① 반도체 산업의 큰 흐름과 한계, ② 그 한계를 넘기 위한 새로운 메모리·패키징·소자 기술, ③ 그리고 이 기술들이 모여 완성되는 로봇용 반도체라는 순서로 이어집니다.
재료공학으로 학사·석사·박사를 마치고 버지니아 텍에서 포스트닥을 하신 뒤, 2014년부터 2017년 무렵까지 IEDM(반도체 분야 최고 권위 학회)의 아시아 의장 등을 맡으셨고, 2020년에 펠로우로 선임되셨으며 이후 사내 공과대학 교수 역할도 하셨다는 소개입니다.
약력에서 주목할 점은 경력 전체가 DRAM의 미세화(스케일링)와 함께한다는 것입니다. 셀 크기를 150nm에서 15nm까지 줄여 온 역사 자체가 이 강의가 말하려는 "스케일링의 시대와 그 한계"를 그대로 보여주는 배경이 됩니다.
강의의 전체 지도라고 보면 됩니다. 먼저 반도체 산업이 왜 지금처럼 움직이는지(가격·투자·수요 구조)를 본 다음, 그 기술이 로봇과 어떻게 만나는지, 로봇을 위해 어떤 반도체가 필요한지, 마지막으로 소자(트랜지스터·메모리) 차원에서 기술이 어디로 향하는지를 차례로 다룹니다.
지금 이 섹션은 첫 번째 블록, 즉 반도체의 종류·기능과 산업 비즈니스 모델을 이해하는 단계입니다.
반도체는 결국 사람의 뇌를 흉내 내는 부품이라는 관점입니다. 뇌가 하는 일을 셋으로 나누면 센싱(감각)·프로세싱(사고)·저장(기억)이고, 각 기능마다 전용 반도체가 있습니다. 센싱은 이미지 센서나 DVS 같은 센서 반도체, 프로세싱은 CPU·GPU, 저장은 메모리·스토리지가 담당합니다.
여기서 꼭 구분해야 할 개념이 메모리(Memory) vs 스토리지(Storage)입니다. 메모리는 작업 중인 데이터를 잠시 담아 두는 임시 기억 장치(DRAM)이고, 스토리지는 전원이 꺼져도 남는 영구 기억 장치로 게임의 '세이브'에 해당합니다. SSD는 이 두 성격을 함께 갖는 제품으로 소개됩니다.
비유를 이어가면, 메모리는 책상 위 작업 공간이고 스토리지는 책장입니다. 책상이 넓으면 한 번에 많은 일을 펼쳐 빠르게 작업할 수 있지만, 자리를 뜨면(전원 OFF) 책상 위 내용은 사라집니다. 그래서 작업물을 책장(스토리지)에 옮겨 보관해야 합니다. DVS(Dynamic Vision Sensor)는 화면 전체를 매 프레임 찍는 대신 '변화가 생긴 픽셀'만 알려주는 센서로, 저전력·고속이라 로봇·자율주행 같은 실시간 응용에서 주목받습니다.
반도체 기업의 비즈니스 모델을 세 가지로 정리합니다. 디자인(팹리스) 회사는 설계만, 파운드리는 제조만 전문으로 하며 대표 기업이 TSMC입니다. 그리고 설계와 제조를 함께 하는 회사가 IDM으로, 인텔과 삼성 메모리 사업부 등이 여기에 해당합니다.
삼성의 경우 사업 구조를 나눠서, 남의 칩을 위탁 생산하는 파운드리와 자체 설계를 하는 시스템 LSI로 사업부를 분리해 운영한다는 점도 언급됩니다. 즉 같은 회사 안에서도 '제조 서비스'와 '설계'가 서로 다른 조직으로 돌아간다는 것입니다.
피라미드를 이해하는 핵심은 아래일수록 무겁고(설비·투자 집약적), 위일수록 가볍다(설계·IP 집약적)는 점입니다. 팹리스(NVIDIA·Apple 등)는 피라미드 위쪽 설계만 맡아 거대한 공장 투자를 피하고, 그 제조를 파운드리(TSMC)에 맡깁니다. 반대로 IDM은 위아래를 모두 떠안아 투자 부담은 크지만 설계·공정을 한 몸으로 최적화할 수 있습니다. 이 산업 구조가 다음 슬라이드들에서 나올 '천문학적 투자 규모'와 '높은 리스크' 이야기의 출발점이 됩니다.
02반도체 산업의 특성: PPAC·투자·수요
반도체 산업의 가장 큰 특징은 기술 발전 속도가 너무 빨라서 가격이 끊임없이 떨어진다는 점입니다. 그래서 먼저 가격을 낮추는 기업이 시장을 선점하고 수익을 가져가는 게임입니다. 가격을 낮추려면 결국 스케일링(scaling), 즉 소자를 작게 만드는 미세화가 핵심이고, 이를 통해 한 번에 네 가지를 개선하려 합니다. 이것이 이른바 PPAC — Power(전력 감소), Performance(성능 향상), Area(면적 축소), Cost(비용 절감)입니다.
두 번째는 투자 규모가 어마어마하다는 것입니다. 반도체 라인 하나를 짓는 데 현재 약 5조 원이 들고, 앞으로는 7~8조 원까지 갈 것으로 봅니다. 세계에서 가장 높은 빌딩인 부르즈 칼리파(약 2.2조 원)의 두 배가 넘고, 인천공항 건설비와 맞먹는 수준입니다. 그만큼 한 번 판단을 잘못하면 회사가 파산할 수도 있는, 리스크가 큰 비즈니스라는 점을 강조하셨습니다.
왜 "가격이 떨어지는데도 돈을 버는" 구조가 가능한지가 핵심 직관입니다. 미세화를 하면 같은 면적(웨이퍼)에서 더 많은 칩을 찍어낼 수 있어 칩 한 개당 원가가 떨어집니다. 시장 가격이 떨어져도 원가를 더 빨리 떨어뜨린 기업은 마진을 유지하고, 따라가지 못한 기업은 적자를 봅니다. 그래서 "남보다 먼저 미세화에 성공해 가격을 내리는 자가 이기는" 산업인 것입니다.
반도체를 쓰는 디바이스가 폭발적으로 늘어나고 있다는 점을 보여주는 슬라이드입니다. 2003년 대비 약 10배로 늘어, 지금은 한 사람이 평균적으로 약 10개의 디바이스를 들고 다니는 시대가 되었습니다. 스마트폰, 태블릿, 스마트카, 스마트팩토리 등 새로운 애플리케이션이 계속 등장하면서 수요는 끝없이 확대됩니다.
그래서 이 시장을 성공적으로 선점하면 엄청난 수익이 따라옵니다. 대표적인 예가 SK 하이닉스의 HBM입니다. 앞으로의 응용 분야들은 지금보다 10~100배 높은 성능을 요구하기 때문에, 반도체 입장에서는 풀어야 할 숙제이자 동시에 거대한 기회라는 것입니다.
앞 슬라이드에서 말한 "10~100배 성능"이 구체적으로 어떤 항목들인지를 정리한 장표입니다. 통신은 더 빨라지고(데이터 레이트·트래픽 100배), 더 많은 기기가 연결되며(연결 100배), 화면은 더 선명해지고(해상도 10배), 응답은 더 즉각적이어야 합니다(지연 1/10). 이 모든 것의 중심에 딥러닝(Deep Learning)이 있습니다.
핵심은 이런 요구를 만족시키려면 결국 막대한 데이터를 빠르고 효율적으로 처리·저장해야 한다는 점이고, 이것이 다음 슬라이드의 '데이터 중심으로의 전환'과 메모리 수요 급증으로 이어집니다.
반도체 산업을 관통하는 키워드가 컴퓨터 중심(Compute Centric)에서 데이터 중심(Data Centric)으로 바뀌고 있다는 것이 이 슬라이드의 메시지입니다. 과거에는 "얼마나 빨리 계산하느냐"가 중요했다면, 이제는 자율주행·딥러닝·스마트시티 같은 응용들이 쏟아내는 방대한 데이터를 어떻게 다루느냐가 더 중요해졌습니다.
데이터가 폭증하면 그것을 담아둘 메모리 수요가 급증합니다. 교수님은 이를 "메모리 빅뱅"이라 부르며, 메모리가 산업의 주변부가 아니라 중심으로 올라서는 전환점이라고 설명하셨습니다.
이 슬라이드의 핵심은 AI 시스템에서는 메모리 값이 CPU 값보다 더 비싸다는 사실입니다. AlphaGo를 구성하는 데 든 비용을 따져보면 CPU에 약 $7.92M가 든 반면 DRAM에는 약 $12.96M가 들어, 메모리 비용이 CPU 비용의 약 1.5배입니다.
우리가 쓰는 일반 PC나 노트북에서는 메모리 비용이 CPU 비용의 1/10 수준에 불과합니다. 그런데 AI 시스템에서는 이 비중이 완전히 뒤집힙니다. 즉 AI 시대가 오면서 메모리가 가장 돈이 되는 비즈니스로 떠오르는 전환점이 시작된 것이고, 이것이 'DRAM 시장의 변화'라는 제목의 의미입니다.
"인공지능 파워 = 연산력 × 메모리 용량"이라는 식이 직관의 핵심입니다. 아무리 빠른 CPU·GPU가 있어도 처리할 데이터를 담아둘 메모리가 부족하면 성능이 나오지 않습니다. AlphaGo가 보여준 것은 AI의 성능이 연산뿐 아니라 메모리 용량에 크게 좌우된다는 점이고, 이 때문에 이후 HBM 같은 고성능 메모리가 AI 반도체의 승부처가 됩니다.
03데이터 중심 전환과 메모리의 부상
무어의 법칙(Moore's Law)은 "2년마다 칩 안의 소자(트랜지스터) 수가 2배로 늘어난다"는 경험 법칙입니다. 이 미세화(scaling)를 통해 전력(Power), 성능(Performance), 면적(Area), 비용(Cost)을 한꺼번에 개선(PPAC)해 왔습니다. 파운드리 기준으로 지난 50여 년간 채널 길이가 10마이크로(μm)에서 3나노(nm)까지 줄어든 것이 바로 이 곡선이 보여 주는 흐름입니다.
다만 10나노 이하부터는 숫자가 실제 물리적 치수가 아니라는 점을 강조하셨습니다. 5nm·4nm·3nm는 마케팅상의 '이펙티브(effective)' 명칭일 뿐, 실제 디멘션은 여전히 10nm 이상이라는 것입니다. 결국 진짜 물리적 미세화는 한계에 도달했고, 이제는 무어의 법칙이 사실상 종료되었다고 선언할 수 있다는 것이 이 슬라이드의 핵심 메시지입니다.
이 섹션의 큰 줄기는 컴퓨터 중심(computer-centric) → 데이터 중심(data-centric)으로의 전환입니다. 응용 분야에서 처리해야 할 데이터 양이 폭발적으로 늘면서, 단순히 연산을 빠르게 하는 것보다 데이터를 담아 둘 메모리의 수요가 급증했다는 흐름입니다.
교수님이 든 대표 사례가 알파고(AlphaGo)입니다. 일반 PC·노트북에서는 메모리 비용이 CPU 비용의 약 1/10 수준이지만, 알파고 같은 AI 시스템에서는 메모리 비용이 CPU 비용의 약 1.5배로 역전됩니다. 즉, 미세화가 한계에 부딪힌 바로 그 시점에 AI가 메모리를 '돈 되는 비즈니스'로 끌어올린 전환점이 되었다는 직관을 보여 줍니다.
앞 슬라이드에서 본 미세화의 한계 이후, 반도체 기술은 두 갈래로 나뉜다고 설명하셨습니다. 하나는 More Moore로, 기존 무어의 법칙을 어떻게든 더 연장해 보려는 시도입니다. 다만 이 방향은 이제 거의 마무리 단계에 와 있다고 보셨습니다.
다른 하나는 More than Moore로, 무어의 법칙을 따르지 않는 새로운 접근입니다. 여기서 핵심은 패키징 기술입니다. 칩을 더 작게 만드는 대신, 여러 칩을 효율적으로 쌓고 연결하는 방식(예: HBM, 3D 적층, 어드밴스드 패키징)으로 성능을 끌어올리겠다는 것입니다. 새로운 메모리(Emerging Memory)와 새로운 물질·구조도 이 다각화 축에서 모색되고 있습니다.
직관적으로 보면, More Moore는 "같은 방향(수직 미세화)으로 더 깊이" 가는 것이고, More than Moore는 "방향 자체를 옆으로 틀어" 기능을 다각화하고 칩을 조립·적층하는 길입니다. 한쪽 축이 막히니, 산업이 다른 축으로 성장 동력을 옮겨 가고 있다고 이해하면 됩니다.
여기까지가 첫 번째 장 '반도체 산업 Trend'의 마무리입니다. 핵심 결론은 두 가지로 정리됩니다. 첫째, 물리적 미세화(무어의 법칙)는 한계에 도달했고 산업의 무게중심이 데이터 중심으로 옮겨가면서 메모리·패키징이 부상하고 있다는 것. 둘째, 그 흐름의 정점에 AI와 로봇이 있다는 것입니다.
이제 강의는 두 번째 장인 '로봇과 반도체의 만남'으로 넘어갑니다. 데이터 중심 시대에 가장 많은 연산과 메모리를 요구하는 응용이 결국 피지컬 AI(휴머노이드 로봇)이며, 여기에 어떤 반도체 기술이 필요한지를 이어서 다루게 됩니다.
04무어의 법칙 종료와 포스트 무어
로봇이 더 이상 공장 한 자리에 볼트로 고정된 기계가 아니라, 스스로 판단하며 공간을 돌아다니는 자율 에이전트(autonomous agent)로 진화하고 있다는 큰 그림을 먼저 깔아 줍니다. 산업용 협동로봇에서 시작해 물류 창고의 무인 운반차, 가정·의료 서비스 로봇을 거쳐 결국 휴머노이드로 수렴한다는 흐름이죠.
교수님은 이 휴머노이드, 즉 피지컬 AI(Physical AI)를 반도체 기술이 향하는 궁극적인 목표로 제시합니다. 응용처가 늘어날수록 더 많은 반도체가 들어가고, 그래서 앞으로는 "로봇과 반도체가 함께 비즈니스의 중심이 될 것"이라는 전망을 강조합니다.
로봇을 사람 몸처럼 해부해서 각 부위마다 어떤 반도체가 들어가는지 짚어 줍니다. 뇌 역할은 프로세서(MPU·NPU·GPU)가, 눈과 같은 센싱은 CIS(CMOS Image Sensor)와 LiDAR·Radar가 맡아 주변을 3D로 인식합니다. 전원을 효율적으로 배분하는 전력 반도체(PMIC)는 배터리로 움직이는 로봇의 가동 시간을 좌우하는 심장이고요.
움직임 제어 부분에서 교수님은 슬라이드의 MCU·모터 드라이버에 더해 MEMS도 언급합니다. MEMS는 실리콘 공정으로 만든 초소형 기계 부품(마이크로 머신)으로, 자이로·가속도 같은 미세한 움직임 감지와 제어를 담당합니다. 핵심은 로봇 한 대를 만들려면 연산·센싱·전력·구동 반도체가 한 세트로 다 필요하다는 점입니다.
로봇이 머리(연산)를 클라우드에 의존하면 통신 지연 때문에 즉각 반응을 못 하고, 인터넷이 끊기면 멈춰 버리며, 데이터를 밖으로 내보내니 보안도 약해집니다. 그래서 연산을 로봇 자체에 심는 엣지 브레인, 즉 "온디바이스"로 가야 한다는 것이 이 슬라이드의 메시지입니다.
핵심은 클라우드 종속성에서 벗어나 로봇이 스스로 실시간으로 판단하게 만드는 것입니다. 그래야 통신 지연 없이 즉각 움직이고, 끊겨도 안정적으로 작동하며, 민감한 데이터를 기기 안에 묶어 둘 수 있습니다.
엣지(edge)란 데이터가 발생하는 현장(로봇·휴대폰·자동차) 쪽을 뜻하고, 그 반대가 멀리 떨어진 거대한 데이터센터인 클라우드(cloud)입니다. 자율주행이나 휴머노이드처럼 0.01초가 사고로 이어지는 일은 "물어보고 답 받는" 클라우드 방식이 구조적으로 위험해서, 연산을 현장으로 끌어오는 흐름이 필연적입니다.
앞의 엣지 브레인 논의를 이어받아, 휴머노이드에 들어갈 반도체가 반드시 갖춰야 할 세 가지 조건을 못 박습니다. 첫째 초저전력 — 교수님은 휴대폰을 충전하듯 쓸 수 있는 약 5W 수준까지 전력을 낮춰야 한다고 구체적인 숫자를 들었습니다. 둘째 실시간성 — 지연 없이 즉각 동작해야 하고, 셋째 내구성 — 사람처럼 다양하고 거친 환경에서 끊임없이 움직여도 견뎌야 합니다.
이 세 조건이 "생존 조건"이라 불리는 이유는, 하나라도 못 맞추면 휴머노이드가 실용화될 수 없기 때문입니다. 저전력·실시간·내구성을 동시에 만족시키는 것이 곧 이후 강의에서 다룰 반도체 소자·구조 혁신의 출발점이 됩니다.
이 슬라이드는 내용 전달보다 단원 전환을 알리는 표지판 역할을 합니다. 로봇 향 반도체 기술(엣지 브레인·생존 조건 등)을 마무리하고, 이제 마지막 갈래인 반도체 소자 기술 방향으로 넘어간다는 신호죠.
이어지는 단원에서는 무어의 법칙 한계를 넘기 위한 실제 소자 혁신 — FinFET·GAAFET 같은 3D 트랜지스터 구조, 백사이드 파워(BSPDN), 3D NAND 적층 등 — 이 다뤄질 예정입니다. 즉 "왜 로봇에 더 좋은 반도체가 필요한가"에서 "그 반도체를 어떻게 만들 것인가"로 초점이 옮겨 갑니다.
05로봇·휴머노이드를 위한 반도체
로봇과 휴머노이드에 들어가는 반도체는 역할별로 나뉩니다. 뇌 역할은 MPU(프로세서), 눈에 해당하는 센싱은 CIS(CMOS Image Sensor), 전력 관리는 전력 반도체, 그리고 움직임 제어는 실리콘 공정 기반의 MEMS가 담당합니다. 다만 휴머노이드가 진짜로 사람처럼 동작하려면 까다로운 조건이 붙습니다. 클라우드에 의존하지 않고 자체적으로 연산하는 엣지 브레인(Edge Brain), 휴대폰을 충전하듯 쓸 수 있는 5W 수준의 저전력, 지연 없는 실시간성, 그리고 다양한 환경을 견디는 내구성이 그것입니다.
이 조건을 막는 근본 원인이 바로 폰 노이만 구조입니다. CPU와 메모리가 떨어져 있어 데이터를 주고받을 때마다 전력이 소모되고 시간 지연이 생기기 때문입니다. 그래서 슬라이드처럼 메모리와 연산을 점점 가깝게 붙이는 방향으로 발전합니다. HBM은 데이터가 다니는 통로(IO)를 1024개로 늘려 효율을 높였고, 그 다음으로 메모리 옆(PNM)·메모리 안(PIM)·같은 칩(CIM)으로 연산을 끌어옵니다.
궁극적인 목표는 오른쪽 끝의 Brain-like, 즉 뇌처럼 연산과 저장을 동시에 수행하는 구조입니다. 뇌는 적은 전력으로 엄청난 양의 정보를 빠르게 처리하는데, 휴머노이드의 엣지 브레인·5W·실시간 요구를 만족시키려면 결국 이 방향으로 가야 한다는 것이 핵심입니다.
HBM은 별도의 새로운 메모리가 아니라 DRAM의 한 종류입니다. SSD가 NAND로 만들어지는 것과 같은 관계라고 보면 됩니다. 핵심 기술은 칩을 위로 쌓고 연결하는 TSV입니다. 깊이 약 30마이크로, 크기 약 5마이크로의 구멍을 뚫고 구리(카파)로 채워 위아래 칩을 수직으로 연결합니다.
HBM이 저전력이면서 고대역폭을 동시에 달성하는 비결이 바로 이 구조입니다. 핀 하나당 속도는 일부러 낮춰서 전력 소모를 줄이는 대신, IO(통로)를 1024개 이상으로 어마어마하게 늘려 전체 대역폭을 확보합니다. 다만 대가가 있습니다. 적층 때문에 일반 DRAM 대비 칩 크기가 1.5배 커져 웨이퍼당 생산량이 줄고, 여러 단을 쌓으니 4단이면 칩 4개 값이 들어 단가가 비쌉니다. 미세 배선을 위한 인터포저도 실리콘 기반이라 만들기 어렵고 비용이 높습니다.
반도체 산업의 큰 흐름이 컴퓨터 중심에서 데이터 중심(Compute-centric → Data-centric)으로 넘어가면서 메모리 수요가 폭발했습니다. 알파고 사례가 상징적인데, 일반 PC는 CPU 대비 메모리 비용이 1/10 수준이지만 알파고 시스템에서는 메모리 비용이 CPU의 1.5배에 달했습니다. AI 시스템에서 메모리 비중이 그만큼 커진 것입니다.
이 슬라이드의 숫자가 그 이유를 보여줍니다. 딥러닝은 방대한 데이터를 빠르게 옮겨야 하므로 대역폭과 용량이 곧 성능입니다. GDDR6를 12개 붙여도 HBM3E 4개를 못 따라가니, AI 가속기에는 HBM이 사실상 필수가 됩니다. 하이닉스가 HBM으로 큰 수익을 올린 것도 시장을 먼저 선점했기 때문이라는 점이 함께 강조됩니다.
이 표를 관통하는 원리가 있습니다. 핀 하나당 속도를 무작정 올리면 열이 너무 발생하기 때문에, 속도를 마냥 높이는 대신 채널과 IO 수를 늘려서 전체 대역폭을 키우는 방향으로 갑니다. HBM3에서 채널이 8개에서 16개로 두 배가 된 것이 그 신호입니다. 앞으로 HBM4는 IO를 2048개로 또 늘리면서 핀당 속도는 오히려 낮추는 식으로 갈 전망입니다.
전력 측면에서는 Low Voltage Swing과 공급 전압 인하가 핵심입니다. 데이터를 표현하는 전압의 진폭(스윙)을 줄이면 그만큼 전력 소모가 줄어듭니다. 표에서 VDDQ가 1.2V에서 0.4V로 떨어진 것이 바로 이 저전력 설계입니다.
다만 마지막 부제처럼, 더 높은 밀도·속도·저전력을 한꺼번에 잡으려 할수록 설계와 공정 난이도는 계속 올라갑니다. 더 먼 미래의 HBM5·HBM6는 전기 배선의 한계를 넘기 위해 광통신 기반 배선과, 범프를 아예 없애는 하이브리드 본딩(Hybrid Bonding)까지 도입하는 방향으로 연구되고 있습니다.
06폰 노이만 한계와 차세대 아키텍처
지금까지의 컴퓨터는 모두 폰 노이만(Von Neumann) 구조, 즉 CPU(연산)와 메모리(저장)가 따로 떨어져 있는 방식입니다. 문제는 데이터를 그 둘 사이에서 끊임없이 실어 나르는 데 있습니다. 이 이동 자체가 전력을 잡아먹고 시간 지연을 만듭니다. HBM이 통로(IO)를 1024개까지 늘린 것도 결국 "이동을 더 빠르게" 하려는 시도일 뿐, 이동을 없애지는 못합니다.
그래서 발상을 바꿉니다. 데이터를 옮기는 대신 연산을 메모리 쪽으로 가져가자는 것이죠. 그 거리에 따라 단계가 나뉩니다. 메모리 바로 옆에 두면 PNM, 메모리 칩 안에 넣으면 PIM, 아예 같은 소자에서 저장과 연산을 구분 없이 하면 CIM, 그리고 뇌처럼 저장과 연산이 본질적으로 한 몸이면 Brain-like가 됩니다.
핵심 메시지는 산업의 키워드가 컴퓨터 중심에서 데이터 중심(Computer-centric → Data-centric)으로 옮겨갔다는 점입니다. 처리할 데이터가 폭증하면서, 데이터를 어떻게 덜 움직이느냐가 곧 전력과 속도를 결정하게 된 겁니다.
비유하자면 폰 노이만 구조는 "주방(메모리)과 식탁(CPU)이 멀리 떨어진 식당"입니다. 음식을 나르는 종업원(데이터 버스)이 아무리 빨라도, 손님이 많아지면 복도가 막히고 음식이 식습니다. PIM·CIM은 "식탁 위에서 바로 요리하는" 발상으로, 나르는 일 자체를 없애 전력과 지연을 동시에 줄입니다.
PNM은 연산기를 메모리 "안"이 아니라 "근처"에 두는 절충안입니다. 메모리 공정 안에 로직을 욱여넣기는 어려우니, 메모리 옆에 있는 컨트롤러나 패키지 단에 연산 회로를 붙이는 거죠. 그래서 메모리 칩 자체는 거의 손대지 않으면서도 데이터 이동 거리를 크게 줄일 수 있습니다.
특히 이 구조는 CXL 환경에서 빛을 봅니다. CXL은 CPU에 메모리를 유연하게 확장·공유할 수 있게 해주는 인터페이스인데, 이 확장 메모리(CXL Memory Expander) 모듈 안에 연산기를 넣으면 호스트 CPU를 거치지 않고도 메모리 근처에서 데이터를 처리할 수 있습니다.
CXL(Compute Express Link)은 CPU·GPU·메모리를 고속으로 잇는 표준 인터페이스로, 메모리를 카드처럼 꽂아 늘리는 "메모리 풀링"을 가능하게 합니다. PNM은 바로 이 확장 메모리 카드 위에 연산기를 얹어, 멀리 있는 CPU까지 데이터를 보내지 않고 그 자리에서 처리하는 그림입니다.
PIM은 메모리 칩 내부에 직접 연산 회로를 박아 넣는 방식입니다. 데이터를 CPU까지 끌고 갈 필요 없이 DRAM 안에서 바로 곱하고 더하니, 이동에 들던 전력과 시간이 통째로 사라집니다. 슬라이드의 HBM-PIM이 그 대표 사례로, 여러 뱅크(Bank)에서 동시에 연산하는 뱅크 수준 병렬성 덕분에 체감 대역폭이 몇 배로 뛰는 겁니다.
다만 공짜는 아닙니다. 메모리는 메모리 공정으로, 로직은 로직 공정으로 최적화되어 있는데, 이 둘을 한 칩에 섞으면 양쪽 다 성능이 떨어지는 통합의 어려움이 생깁니다. 그래서 PIM은 모든 연산이 아니라 데이터 이동이 병목인 메모리 바운드(Memory-Bound) 연산, 특히 AI의 행렬·벡터 연산에 특화해 효과를 냅니다.
메모리 바운드란 "계산 자체보다 데이터를 가져오는 데 시간이 더 걸리는" 상황을 말합니다. AI 추론은 거대한 가중치를 끊임없이 읽어야 해서 전형적인 메모리 바운드 작업이고, 그래서 데이터를 옮기지 않는 PIM이 가장 잘 맞습니다. FP16은 16비트 부동소수점으로, 정밀도를 약간 낮춰 더 많은 연산기를 좁은 면적에 욱여넣고 전력도 아끼는 AI용 데이터 형식입니다.
이 슬라이드는 왜 새로운 칩이 필요한지를 GPU의 약점으로 설명합니다. GPU는 수천 개의 코어를 가져 병렬 연산에는 강하지만, 그 많은 코어가 결국 좁은 데이터 통로 하나로 메모리에 접근해야 합니다. 일꾼은 수천 명인데 자재를 나르는 다리는 하나뿐인 셈이라, 연산력이 아무리 좋아도 데이터를 못 받아 놀게 됩니다. 이게 데이터 병목(Bottleneck)이고, 막대한 전력과 지연으로 이어집니다.
그래서 등장한 것이 NPU(Neural Processing Unit)입니다. AI에 흔한 행렬 연산에 특화한 프로세서로, GPU가 모델을 학습시키는 데 강하다면 NPU는 학습된 결과를 적용하는 추론에 강합니다. 핵심 차이는 NPU가 연산 모듈마다 메모리를 가까이 내장해, 데이터를 멀리서 끌어오지 않고 즉각 처리한다는 점입니다. 결국 이번 섹션 전체의 메시지 — "데이터를 옮기지 말고 연산을 데이터 옆으로 가져가라" — 와 같은 방향입니다.
휴머노이드 같은 피지컬 AI에서는 이 차이가 결정적입니다. 클라우드에 의존하지 않는 엣지 브레인(자체 연산), 휴대폰 충전 수준인 5W 저전력, 지연 없는 실시간성이 동시에 요구되는데, 분리형 GPU 구조로는 전력·지연을 감당하기 어렵습니다. 그래서 NPU·PIM·뉴로모픽처럼 연산과 메모리를 붙이는 방향이 로봇 시대의 필수 기술로 꼽히는 것입니다.
07HBM 심층: 구조·공정·로드맵
NPU는 AI 연산, 특히 신경망의 핵심인 행렬 연산에 특화된 프로세서라고 설명하셨습니다. GPU가 원래 그래픽용 범용 병렬 연산 장치인 데 비해, NPU는 군더더기를 덜어내고 딥러닝 연산만 빠르게 처리하도록 설계되어 같은 전력으로 더 많은 AI 연산을 처리합니다.
역할 구분도 중요한 포인트였습니다. GPU는 학습(training)에 강점이 있고, NPU는 학습된 모델을 적용하는 추론(inference)에 강점이 있다고 하셨습니다. 또한 NPU는 슬라이드 그림처럼 연산 모듈마다 메모리를 가까이 내장해 두어, 데이터를 멀리서 끌어오지 않고 즉각 처리할 수 있다는 점을 강조하셨습니다. 이것이 데이터 이동에서 생기는 전력·지연 문제를 줄이는 핵심 아이디어입니다.
딥러닝 연산은 사실상 거대한 행렬 곱셈의 반복입니다. 그래서 "범용성"을 포기하고 행렬 곱셈 회로만 잔뜩 깔면 같은 전력으로 훨씬 높은 성능이 나옵니다 — 스마트폰의 얼굴 인식, 음성 비서 같은 기능이 배터리를 거의 안 먹으면서 즉각 도는 이유가 바로 이런 NPU 덕분입니다.
뉴로모픽 반도체는 인간의 뇌를 직접 모방하는 칩이라고 설명하셨습니다. 뇌의 뉴런과 시냅스는 연산·기억·신호 전달을 동시에 한 자리에서 수행하는데, 뉴로모픽 소자도 이를 흉내 내어 연산과 저장을 분리하지 않습니다. 시냅스의 "연결 강도"는 저항성 메모리(ReRAM, PRAM, MRAM)의 저항 값을 바꿔 가며 구현하는데, 이렇게 저항을 조절할 수 있다는 점(가변 전도도)이 시냅스 역할의 핵심입니다.
가장 큰 장점은 저전력입니다. 뇌가 필요한 순간에만 신경을 발화하듯, 뉴로모픽 칩도 필요할 때만 작동해 전력을 거의 쓰지 않습니다. 다만 한계도 분명히 짚으셨는데, AI 연산(패턴 인식 등)에는 강하지만 범용 연산에는 적합하지 않다는 점입니다. 그래서 모든 칩을 대체하기보다 특정 용도에 특화된 형태로 쓰이게 됩니다.
기존 폰 노이만 구조는 CPU와 메모리가 떨어져 있어 데이터를 왔다 갔다 옮기는 데 전력·시간을 다 씁니다(이른바 "폰 노이만 병목"). 뉴로모픽은 이 이동 자체를 없애려는 발상으로, 뇌처럼 "기억하는 자리에서 바로 계산"합니다. 인간 뇌가 약 20W로 슈퍼컴퓨터급 인지를 해내는 효율을 실리콘으로 좇는 시도라고 보면 됩니다.
이 슬라이드는 앞서 다룬 CPU·GPU·NPU 이야기를 하나로 묶는 결론에 해당합니다. 어느 한 종류의 프로세서가 다른 것을 완전히 밀어내는 것이 아니라, 각자 잘하는 일을 분담한다는 것이 핵심 메시지입니다. 직렬적이고 복잡한 제어 흐름은 CPU, 대규모 병렬 학습은 GPU, 전성비가 중요한 실시간 추론은 NPU가 맡는 식입니다.
그래서 미래의 칩은 이 세 가지를 한 다이(die) 안에 통합한 SoC 형태로 가고, 설계의 핵심은 "연산을 어떤 엔진에 배정해 전체 효율을 최대로 끌어올릴 것인가"가 됩니다. 이는 무어의 법칙 둔화 이후, 미세화 대신 패키징과 구조(More than Moore)로 성능을 끌어올리는 흐름과 맞닿아 있습니다.
강의 전체를 관통하는 네 개의 축을 정리한 목차 슬라이드입니다. 산업 트렌드(데이터 중심으로의 전환, 막대한 투자와 수요 증가)에서 시작해, 로봇(휴머노이드, 피지컬 AI)이라는 응용을 매개로 반도체 기술이 어디로 향하는지를 살펴보고, 마지막에 소자 기술의 방향성을 PPAC으로 정리하겠다는 흐름입니다.
여기서 PPAC은 반도체 발전이 동시에 추구하는 네 가지 목표 — Power(전력) 감소, Performance(성능) 향상, Area(면적) 축소, Cost(비용) 절감 — 을 가리킵니다. 스케일링이 한계에 다다른 지금은 이 네 가지를 한꺼번에 만족시키기가 어려워, 핀펫·GAAFET, 백사이드 파워, 3D 적층, HBM 같은 새로운 기술들이 각각의 항목을 메우러 등장한다는 점이 이후 내용의 핵심입니다.
08소자·메모리 기술 진화와 미래
소자 기술은 결국 PPA(Power·Performance·Area)를 동시에 끌어올리려는 싸움입니다. 성능(Performance) 향상의 첫 무기는 채널 길이 축소였고, 한계가 오자 새로운 물질(new material)과 스트레스 엔지니어링(stress engineering)으로 캐리어 이동도를 높였습니다. 슬라이드의 90nm 스트레스 라이너, 65nm의 eSiGe 소스/드레인이 그 사례입니다.
그런데 채널이 20nm 이하로 짧아지면 게이트가 채널을 제대로 못 잡아 숏채널 이펙트(short-channel effect)가 심해집니다. 평면(planar) 구조의 2차원 미세화만으로는 더 못 버티니, 채널을 세워 입체로 만드는 3D 구조로 패러다임이 넘어간 것이 이 곡선의 핵심 메시지입니다. 즉 "스케일링 + 신소재 → 3D 구조"라는 진화의 흐름입니다.
전력(Power)을 줄이는 핵심은 게이트 제어력입니다. FinFET은 게이트가 채널을 3면에서 감싸고, GAAFET(Gate-All-Around, 삼성은 MBCFET·나노시트로 부름)은 4면을 전부 감쌉니다. 감싸는 면이 많을수록 게이트가 채널을 더 단단히 통제해 누설(leakage)을 억제합니다.
게이트 제어력이 좋아지면 VT(문턱 전압)를 낮출 수 있고, VT가 낮아지면 동작 전압이 내려가 결국 전력 소모가 줄어듭니다. 함께 저유전율(low-k) 물질과 에어갭(air gap)을 적용해 기생 커패시턴스까지 줄이면 전력·속도가 더 개선됩니다. 그래프의 110mV 여유가 바로 이 "더 낮은 전압에서 켜고 끌 수 있다"는 이득을 정량적으로 보여주는 것입니다.
비유하자면 호스를 손가락 하나(평면)로 누르는 것보다 손 전체로 감싸 쥐는(GAA) 편이 물 흐름을 훨씬 정확히 막거나 흘릴 수 있는 것과 같습니다. 트랜지스터에서 "물"은 전류, "손"은 게이트입니다. 감싸는 면적이 클수록 적은 전압으로도 확실히 ON/OFF가 되어, 누설은 줄고 전력은 절약됩니다.
면적(Area)을 줄이려면 칩 한 셀의 높이·폭을 계속 좁혀야 하는데, 배선 간격(pitch) 축소가 한계에 부딪혔습니다. FinFET보다 GAAFET(MBCFET)이 면적 효율이 좋지만 그것만으로는 부족합니다.
그래서 나온 해법이 BSPDN(Back-Side Power Delivery Network, 백사이드 파워 딜리버리)입니다. 지금까지 앞면에 뒤섞여 있던 전원선(power line)을 웨이퍼 뒷면으로 옮기면, 앞면에는 신호선(signal line)만 남아 공간에 여유가 생기고 그만큼 면적을 더 줄일 수 있습니다. 삼성은 3nm에서 MBCFET, 2nm에서 BSPDN을 적용하며 기술 리더십을 보여주고 있습니다.
메모리(NAND)도 수평으로만 좁히면 셀 간 간섭이 심해져 한계에 부딪힙니다. 그래서 셀을 수직으로 쌓아 올리는 3D NAND로 전환했고, 현재 200단 이상까지 적층합니다. 같은 면적에 더 많은 비트를 넣으니 비트당 비용(Cost)이 내려갑니다.
다만 공정 난이도가 높습니다. 수직으로 깊은 채널 홀(channel hole)을 뚫고 그 안을 균일하게 메탈로 채워야 해서 공정 비용과 수율 관리가 까다롭습니다. 이런 수직 적층 흐름은 NAND에서 검증되었고, 이제 DRAM도 스택 DRAM·3D DRAM 형태로 같은 방향을 연구 중입니다.
마무리 메시지는 로봇과 반도체가 미래 비즈니스의 중심이 된다는 것입니다. 로봇은 단순 자동화(정해진 반복 작업) → 스스로 판단하는 자율화(클라우드에 의존하지 않는 엣지 브레인, On-Device AI) → 사람과 교감하는 상호작용 단계로 진화하며, 단계가 올라갈수록 요구되는 반도체 기술도 CPU/GPU에서 NPU, 나아가 뇌를 모방한 뉴로모픽으로 고도화됩니다.
그 과정에서 PPA를 동시에 만족시키기가 점점 어려워져, 용도별로 특화된 메모리(HBM, LP 시리즈 등)가 갈라져 발전합니다. 물리적 한계는 결국 다른 발상(different thinking)으로 돌파해야 하며, 스케일링 한계로 인한 팹 증설 가속은 역설적으로 그만큼 고용 기회 증가로 이어진다는 점이 산업 전망의 결론입니다.
이번 섹션 전체를 PPA 프레임으로 묶으면 이해가 쉽습니다. Performance는 신소재·3D 구조로(슬라이드 31), Power는 게이트 제어력으로(32), Area는 뒷면 활용 BSPDN으로(33), Cost는 수직 적층으로(34) 각각 개선합니다. 즉 평면에서 막힌 모든 지표를 3차원 공간을 새로 쓰는 방식으로 우회하는 것이 현대 반도체 기술 진화의 공통된 전략이며, 그 종착점이 슬라이드 35의 자율 로봇(피지컬 AI)입니다.
용어표 · English ↔ 한글
스스로 점검
- 디자인 회사·파운드리·IDM의 차이는 무엇이며, 삼성이 파운드리와 시스템LSI를 분리 운영하는 이유는?
- PPAC의 네 가지 지표는 무엇이고, '먼저 가격을 낮추는 기업이 이긴다'는 말의 의미는?
- 10nm 이하 공정명(5nm·3nm)이 실제 물리적 치수가 아니라는 것은 무슨 뜻인가?
- AlphaGo 사례에서 일반 PC와 달리 메모리 비용이 CPU를 넘어선 사실이 시사하는 산업 변화는?
- 폰 노이만 구조의 근본 한계는 무엇이며, PIM·PNM·CIM·브레인라이크는 각각 어떻게 이를 극복하는가?
- HBM이 저전력과 고대역폭을 동시에 달성하는 원리(낮은 핀당 스피드 + 많은 IO)와 그로 인한 비용 증가 요인은?
- FinFET에서 GAAFET으로의 전환과 BSPDN 적용이 전력·성능·면적(PPA)을 어떻게 개선하는가?