엔비디아 학습AI에서 추론AI로의 진화

최신 인공지능 가속기 '베라 루빈'

“삼성에 감사를 전하고 싶습니다.”

16일(현지 시간) 미국 캘리포니아 새너제이 SAP센터에서 열린 엔비디아의 연례 개발자 회의 ‘GTC 2026’ 현장. 기조연설에 나선 젠슨 황 엔비디아 최고경영자(CEO)는 엔비디아의 최신 인공지능(AI) 가속기 ‘베라 루빈’의 성능을 공개하는 자리에서 이례적으로 삼성전자에 대한 감사의 뜻을 밝혔다.

그는 “삼성이 우리를 위해 ‘그록(Groq)3’ 언어처리장치(LPU·Language Processing Unit)를 만들고 있다”며 “올 3분기(7∼9월)쯤 출하가 시작될 것”이라고 말했음
그록3 LPU는 엔비디아가 현 AI 가속기의 핵심인 그래픽처리장치(GPU) 이후 새로운 시장을 열 것으로 기대하는 추론형 AI 칩
엔비디아가 차세대 추론형 AI 칩 생산을 삼성전자에 맡겼다는 사실이 이날 처음 공개되면서, 삼성전자와 엔비디아의 ‘AI 반도체 동맹’이 기존 메모리 공급을 넘어 반도체 위탁 생산인 파운드리까지 확장됐다는 해석이 나옴

삼성전자에 추론형 AI 맡긴 엔비디아

엔비디아는 이날 신형 AI 가속기 베라 루빈의 추론 성능을 끌어올리기 위해 지난해 12월 200억 달러(약 29조8000억 원)를 들여 우회 인수한 AI 반도체 스타트업 그록의 LPU를 베라 루빈에 탑재한다고 밝혔음
그동안 AI는 많은 정보를 얼마나 빠르게 학습할 수 있는지가 중요해 대규모 병렬 처리에 능한 GPU가 핵심이었음
하지만 AI가 학습 단계를 넘어, 실제 임무 수행 단계에 접어든 ‘AI 에이전트’ 시대가 되면서 적은 전력으로도 데이터를 처리할 수 있는 추론 특화형 AI 칩이 각광받고 있음
엔비디아가 GPU에 이어 추론형 AI 칩 시장까지 장악하기 위해 내놓은 것이 이날 황 CEO가 언급한 그록3 LPU임
그록3 LPU는 삼성전자의 파운드리 4nm(나노미터·1nm는 10억분의 1m) 공정에서 생산
황상준 삼성전자 메모리개발담당 부사장은 GTC 2026 현장에서 기자들과 만나 “추론 전용 칩 그록은 평택 캠퍼스에서 생산하는 중”이라며 “이미 예상보다 많은 주문이 들어왔다”고 전했음
추론형 AI 칩 시장은 이미 빅테크들의 미래 선점을 위한 ‘각축장’이 됐음
메타는 추론에 특화된 자체 AI 칩 ‘MTIA’ 시리즈를 내놨으며, 마이크로소프트와 아마존도 각각 추론형 ‘마이아 200’과 ‘인퍼런시아’를 내놓고 고도화하는 중임
이런 상황에서 엔비디아가 삼성전자와 손을 잡고 추론형 AI 시장 장악에 나선 것임
황 CEO는 이날 기조연설에서도 추론형 AI의 중요성을 여러 차례 강조
그는 “AI 에이전트가 등장하면서 필요한 추론의 양이 챗GPT가 처음 등장했을 때의 1만 배로 증가했다”며 “추론의 변곡점이 도래했다”고 말했음
엔비디아는 차세대 AI 가속기인 베라 루빈에 그록3 LPU를 탑재한 뒤 대규모 연산은 GPU에, 신속한 답변은 그록3 LPU에 맡기는 방식으로 운영할 예정
엔비디아는 GPU와 LPU를 결합하면 전력 대비 성능 효율을 최대 35배로 높일 수 있다고 보고 있음
황 CEO는 삼성전자 GTC 2026 전시장을 찾아 “삼성이 세계 최고”, “가자(GO) 삼성” 등의 말을 남겼음
SK하이닉스 전시장을 찾은 자리에서는 최태원 SK 회장과 이야기를 나누며 “여러분은 완벽하다”고 말했음
그는 베라 루빈 시제품에 ‘젠슨♡SK하이닉스’라고 사인하기도 했음
황 CEO는 이날 내년 엔비디아 AI칩 매출 목표를 1조 달러(약 1490조 원)로 제시했는데, 이를 위해 삼성-SK와의 협력이 필요하다는 점을 강조한 것으로 풀이
한편 삼성전자는 이번 행사에서 차세대 고대역폭메모리(HBM)인 HBM4E(7세대) 제품을 처음으로 선보였음. 삼성전자는 올 3분기 HBM4E 샘플을 고객사에 공급하고 4분기(10∼12월) 양산을 시작할 계획

컴퓨팅 수요 100만 배 증가

엔비디아의 자신감은 식지 않는 AI 컴퓨팅 투자 열기에서 비롯
에이전틱 AI가 대세로 자리잡으면서 AI 개발사들의 최첨단 AI 칩 확보 경쟁이 치열해졌고 이 같은 수요에 대응할 수 있는 기업은 엔비디아가 독보적이라는 것
황 CEO는 “지난 2년 동안 컴퓨팅 수요가 100만 배 증가했다고 생각한다”며 “우리 모두가, 모든 스타트업이 느끼고 있다”고 말했음
컴퓨팅에 필요한 추론 등 각종 AI 칩에 대한 더 많은 수요가 기대된다는 설명

자료 : 서울경제신문

엔비디아는 추론 수요를 겨냥해 에이전틱 AI 전용 베라 CPU도 공개
베라 CPU는 전작 대비 2배 높은 효율과 50% 빠른 성능을 제공
처리량·응답성·효율성이 뛰어나 코딩 AI는 물론 소비자와 기업용 에이전트 개발에 유리하다는 평가
베라 CPU 256개로 랙(프레임 구조물)을 만들면 데이터센터 서버에 투입할 수 있음
서버용 CPU 시장을 주도했던 인텔과 AMD에 큰 위협이 될 수 있음
추론 시장에서는 여러 업무를 단계적으로 빠르게 처리하면서 여러 모델을 상황에 맞게 조합하는 CPU 성능이 중요
뱅크오브아메리카(BoA)는 CPU 시장이 2025년 270억 달러(40조 2300억 원)에서 2030년 600억 달러(89조 3700억 원)로 두 배 이상 성장할 것으로 내다봤음
엔비디아는 이미 메타·알리바바·코어위브와 같은 데이터센터 운영사와 베라 도입을 논의 중이며 델테크놀로지스, 휴렛팩커드 엔터프라이즈, 레노버 등 제조사와는 베라 기반 서버를 설계하고 있다고 소개
소프트웨어 기업 커서는 AI 코딩 에이전트 성능 향상을 위해 베라를 도입하고 있음
에이전틱 AI 개발을 위한 오픈소스(개방형) 소프트웨어인 ‘다이나모 1.0’도 이날 발표
컴퓨터 운영체제처럼 다이나모 1.0은 데이터센터에서 GPU와 메모리를 유기적으로 연결해 복잡한 AI 업무를 처리
다이나모는 엔비디아 블랙웰 GPU의 추론 성능을 최대 7배까지 향상시켰으며 토큰(AI가 문장을 처리하는 최소 단위) 비용을 낮추는 데 기여
엔비디아는 이날 주무대인 GPU 시장 경쟁력도 강화하기 위해 새로운 GPU 연결 방식인 ‘카이버’도 공개
144개의 GPU를 컴퓨팅 트레이에 통합하는 기술로 기존과 달리 트레이를 수평이 아닌 수직으로 배치해 지연 시간을 줄일 수 있음
카이버는 내년 출시될 엔비디아 차세대 AI 가속기인 ‘베라 루빈 울트라’부터 적용될 것으로 전망

학습에서 추론으로의 AI 진화

추론 중심의 진화는 단순히 연산 속도의 향상을 넘어 인공지능이 인간의 명령을 기다리는 수동적 도구에서 스스로 판단하고 행동하는 '에이전틱 AI(Agentic AI)'로 변화하고 있음을 의미
가트너(Gartner)를 비롯한 주요 시장 조사 기관들은 2026년을 기점으로 전체 인공지능 워크로드의 80~85%가 추론에 집중될 것으로 전망
이에 따라 하드웨어 아키텍처 역시 대규모 병렬 연산 위주의 GPU에서 저지연성과 높은 처리량을 동시에 만족시키는 복합 시스템으로 재편되고 있음
이러한 변화는 삼성전자와 SK하이닉스를 비롯한 글로벌 반도체 공급망 전체에 거대한 파급효과를 미치고 있으며, 특히 삼성전자가 엔비디아의 신규 추론 칩 생산을 맡게 됨에 따라 한국 반도체 산업의 위상은 새로운 국면을 맞이하고 있음

기술 사양 비교 항목	호퍼 (Hopper)	블랙웰 (Blackwell)	베라 루빈 (Vera Rubin)
주요 아키텍처 세대	2022-2023	2024-2025	2026-2027
추론 성능 (FP4/FP8)	N/A (FP8 위주)	10 PFLOPs (FP4)	50 PFLOPs (FP4)
메모리 기술	HBM3	HBM3E	HBM4
칩 간 연결 대역폭	900 GB/s	1.8 TB/s	3.6 TB/s
토큰당 추론 비용	1.0 (기준)	0.25 (예상)	0.1 (예상)
MoE 모델 학습 효율	1.0 (기준)	2.5x 향상	10x 향상

자료 : 1) NVIDIA Kicks Off the Next Generation of AI With Rubin — Six New ..., https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer

2) NVIDIA Rubin Finally Arrives, and Data Centers Will Never Be the Same Again, https://medium.com/@cognidownunder/nvidia-rubin-finally-arrives-and-data-centers-will-never-be-the-same-again-2e5cd04d9d5b

인공지능 기술의 진화는 기업들의 투자 전략에도 근본적인 변화를 일으키고 있음
2023년부터 2025년까지는 소수의 빅테크 기업들이 거대한 모델을 선점하기 위해 천문학적인 비용을 들여 인프라를 구축하는 '학습의 시대'였다면, 2026년은 구축된 지능을 통해 실제 수익을 창출하는 '추론의 시대'로 정의
인공지능 서비스의 대중화를 가로막는 가장 큰 장벽은 1회 사용당 발생하는 높은 연산 비용
그러나 엔비디아의 베라 루빈 플랫폼과 소프트웨어 최적화 기술은 추론 토큰당 비용을 10분의 1 수준으로 낮추는 데 성공
이는 기업들이 무료 검색 서비스나 중저가 구독 모델에서도 인공지능 기능을 기본적으로 탑재할 수 있는 경제적 토대가 마련되었음을 의미
가트너는 2026년 인공지능 최적화 IaaS(서비스형 인프라) 지출의 55%가 추론 워크로드에서 발생할 것이며, 이는 2029년까지 65% 이상으로 확대될 것으로 내다보고 있음

네모클로의 전략적 위상

추론 중심의 하드웨어 혁신은 소프트웨어 계층의 근본적인 변화를 동반
과거의 AI가 사용자의 질문에 답을 하는 '오라클' 수준이었다면, 2026년의 AI는 스스로 도구를 사용하고 문제를 해결하는 '에이전트'로 진화하고 있음
엔비디아는 이 시장을 선점하기 위해 '네모클로(NemoClaw)'라는 엔터프라이즈급 에이전트 플랫폼을 공개하며 소프트웨어 지배력을 강화하고 있음
엔비디아는 무서운 속도로 성장한 오픈소스 에이전트 프로젝트인 '오픈클로(OpenClaw)'를 적극 수용하면서도, 기업들이 요구하는 보안과 프라이버시를 강화한 네모클로를 선보였음
네모클로는 단순한 소프트웨어 패키지가 아니라, 프로세스 수준의 격리(Sandboxing)와 권한 제어를 담당하는 '오픈쉘(OpenShell)' 런타임, 그리고 상황에 맞는 모델을 선택해 추론 비용을 50% 이상 절감하는 'AI-Q' 청사진을 포함
이는 기업 내부의 민감한 데이터가 외부로 유출되지 않으면서도 자율적인 AI 에이전트가 업무를 수행할 수 있게 하는 핵심 기술
젠슨 황 CEO는 오픈클로를 인공지능 시대의 '윈도우'나 '리눅스'와 같은 운영체제로 비유하며, 모든 기업이 자신만의 에이전트 전략을 가져야 한다고 역설
어도비(Adobe), 세일즈포스(Salesforce), SAP와 같은 17개의 글로벌 소프트웨어 대기업들이 이미 엔비디아의 에이전트 툴킷을 채택하기로 협의한 것은, 향후 기업용 인공지능 생태계가 엔비디아의 소프트웨어 표준 위에서 작동하게 될 것임을 시사
이는 구글이 안드로이드를 무료로 배포하여 모바일 생태계를 장악했듯이, 엔비디아가 에이전트 인프라를 제공하여 자사의 GPU 수요를 영속화하려는 고도의 플랫폼 전략

<시사점>

미국 반도체 기업 엔비디아가 ‘GTC 2026’에서 공개한 차세대 추론 중심 인공지능 칩과 시스템은 AI 산업의 무게중심이 어디로 이동하고 있는지를 분명히 보여줍니다. 오늘 동아일보와 서울경제신문의 보도한 바와 같이 인공지능 경쟁의 핵심이 거대 모델을 만드는 ‘학습(training)’에서 실제 서비스를 구동하는 ‘추론(inference)’ 단계로 이동하고 있습니다. 이는 단순한 기술 발전이 아니라 AI 산업의 경제학 자체가 바뀌고 있음을 의미합니다.

지난 몇 년간 글로벌 빅테크 기업들은 초거대 언어모델을 구축하기 위해 천문학적 비용을 투자하는 ‘학습 경쟁’을 벌였습니다. 그러나 이제 중요한 것은 모델의 크기가 아니라 그 모델이 얼마나 빠르고 저렴하게 현실의 문제를 해결할 수 있는가입니다. 기업의 생산성 향상, 고객 서비스 자동화, 자율주행, 스마트 제조 등 실제 산업 현장에서 가치를 창출하는 단계가 바로 추론이기 때문입니다.

엔비디아가 발표한 ‘베라 루빈(Vera Rubin)’ 플랫폼과 LPU(Language Processing Unit) 기반 추론 가속기는 이러한 변화의 상징적 사례입니다. 이들은 초저지연 연산과 대규모 메모리 대역폭을 통해 추론 비용을 획기적으로 낮추고 실시간 AI 서비스를 가능하게 합니다. 결국 AI 경쟁의 기준은 ‘누가 더 큰 모델을 만들었는가’가 아니라 ‘누가 더 효율적으로 지능을 서비스로 전환하는가’로 패러다임이 바뀌고 있습니다.

이 변화는 인공지능의 역할 자체도 바꾸고 있습니다. 기존 AI가 질문에 답하는 도구였다면, 이제는 스스로 판단하고 행동하는 ‘에이전틱 AI(Agentic AI)’로 진화하고 있습니다. AI가 업무를 수행하고 의사결정을 보조하는 단계에 들어서면서 기업의 조직 구조와 산업 운영 방식까지 변화시키는 파급력이 나타나고 있습니다.

산업 구조에도 큰 영향을 미칠 것으로 예상됩니다. AI의 중심이 학습에서 추론으로 이동하면서 하드웨어 구조 역시 대규모 GPU 중심에서 CPU·GPU·특수 가속기가 결합된 복합 시스템으로 재편되고 있습니다. 동시에 데이터센터뿐 아니라 통신 기지국, PC, 스마트폰 등 엣지와 온디바이스로 추론 기능이 확산되면서 AI 인프라는 사회 전반에 분산되는 형태로 진화할 것으로 전망됩니다.

이 과정에서 한국 반도체 산업의 전략적 중요성도 더욱 커지고 있습니다. 삼성전자가 차세대 AI 추론 칩 생산을 맡고 SK하이닉스가 차세대 HBM 메모리 시장을 주도하는 구도는 한국이 AI 시대 핵심 인프라 공급망의 중심에 서 있음을 보여줍니다. AI 산업이 확장될수록 고대역폭 메모리와 첨단 파운드리의 수요는 더욱 커질 수밖에 없습니다.

AI 산업은 이제 ‘모델 개발 경쟁’에서 ‘지능 활용 경쟁’으로 넘어가고 있습니다. 추론 비용을 낮추고 실제 산업에 적용하는 기업이 승자가 되는 시대입니다. 학습 AI에서 추론 AI로의 전환은 인공지능이 실험실 기술에서 경제 시스템의 핵심 인프라로 자리 잡는 결정적 분기점이라 할 수 있습니다.

지금 벌어지는 변화는 단순한 반도체 기술 경쟁이 아니라, AI가 경제와 산업의 운영체제가 되는 시대가 본격적으로 시작되고 있다는 신호를 보내고 있습니다. 한국은 이 거대한 전환 속에서 공급망의 핵심을 넘어 혁신의 중심에 설 수 있도록 끊임없는 변화와 도전, 혁신을 추구해 나가야 하겠습니다.