Kearney Insight

Physical AI 시대의 도래와 대비 방안

2025.04.22

 


1. Physical AI란 무엇인가?

 

차세대 AI 패러다임

 

가상 세계를 넘어 현실 세계로 들어오는 AI
최근 개최된 CES 2025 기조연설에서 엔비디아 CEO 젠슨 황은 차세대 AI의 패러다임으로 Physical AI를 제시했다. ChatGPT, Stable Diffusion 등 여러 AI 소프트웨어들과 다양한 AI 에이전트는 모두 모바일과 PC에 머물 수 밖에 없다는 한계가 있다. 이제 AI는 앱과 웹 환경 뿐 아니라 물리적 세계까지 침투하고 있다. 소프트웨어에만 머무는 게 아니라 실생활에도 연결되는 것이다. 이에 젠슨 황은 Physical AI 시장에 “수조 달러 규모의 기회가 있을 것”이라며 큰 잠재력을 전망했다.

 

 


2. Physical AI의 구현 레이어


인지, 생각, 행동

 

Physical AI가 제대로 구현되려면, 환경을 인지하고, 생각하고, 행동하는 모든 영역이 종합적으로 발전해야 함
Physical AI는 인지, 생각, 행동의 전 과정을 아우르는 개념이다. 먼저, ‘인지’ 측면은 센서, 카메라 등을 통해 외부 환경과 상황을 감지하는 영역이다. 이러한 인지 정보를 바탕으로, 어떤 작업을 어떤 순서로 수행할지 의사 결정하고, 최적의 방식을 선택하는 과정이 ‘생각’의 영역이다. 이후, 결정된 내용을 로봇, 자동차, 드론, VR 등 하드웨어를 통해 실행에 옮기는 것이 ‘행동’ 측면에 해당한다. 하나씩 살펴보자.

 

 


인지(Perception)

 

생성형 AI를 통해 학습 데이터 생성 속도가 빨라지고, 저렴해짐
왜 지금 Physical AI가 주목받고 있을까? 생성형 AI가 실물 환경에서 작동하는 Physical AI의 성능 향상에 크게 기여하고 있기 때문이다. 가령, 생성형 AI는 자율주행 학습 데이터를 최적화하는 방향으로 활용되고 있다. 자율주행 기술은 10년 이상 연구되어 왔지만, 여전히 완전한 자율주행을 구현하기는 쉽지 않다. 이는 학습에 필요한 데이터의 부족, 다양한 물리적 환경을 재현할 수 있는 시뮬레이션의 한계 등 여러 요인이 있다. 하지만 생성형 AI를 활용하면 합성 데이터를 대량으로 만들어내고 복제할 수 있어, 차량이 다양한 상황을 보다 더 빠르게 학습할 수 있다. 이처럼 생성형 AI는 물리적 상황에서 AI가 학습하고 작동하는 방식을 근본적으로 변화시키며, Physical AI 발전을 가속화하는 촉매 역할을 하고 있다. 

 

 

 

Machine Readable Model (구글)
기계가 세상을 이해하고 상호 작용하기 위해서는, 기계가 이해할 수 있는 포맷으로 만들어야 한다. 인간은 눈을 통해 직관적으로 세상을 이해할 수 있지만, 기계는 그렇지 않다. 단순히 비디오나 이미지 데이터를 보는 것 뿐만 아니라, 이를 기계가 해석할 수 있는 형태로 만드는 것이 Machine Readable Model이다. 이 개념은 ‘디지털 트윈’과도 유사한 성격을 지니고 있다. 사진의 가장 왼쪽에 있는 포토리얼리스틱 3D 월드(Photorealistic 3D World)는 수많은 사진을 조합하여 실제와 유사한 형태의 3D 모델을 만든 것이다. Photorealistic 3D World가 구글 맵에서 봤던 것이라고 한다면, 오른쪽 사진의 Machine Readable 3D Model은 기계가 인지할 수 있는 형태로 만든 모델이다. 이러한 기술은 최근 2~3년 전부터 계속 발전하고 있으며, 이는 디지털 트윈(Digital Twin) 분야와도 밀접한 관계가 있다. 

 

 

 

World Foundation Model (엔비디아)
엔비디아는 Cosmos를 통해 기존 디지털 트윈 데이터에 질감, 무게 등 물리적 특성을 부여한다. 좌측 사진처럼 기존의 디지털 트윈은 현실 세계의 사진 데이터를 기반으로 3D 모델을 구현한다. 예를 들어, 엔비디아의 Omniverse는 위치나 형태 등 공간 정보를 중심으로 디지털 환경을 재현하고 있다. 이에 비해 Cosmos는 이러한 3D 모델 위에 질감, 강도, 무게 등 물리적 속성을 추가함으로써 더 발전시킨 모델이다. 이를 통해 실제 상황에 더 가깝고 정교하게 시뮬레이션을 할 수 있다.

 

 

 

물리적 특성 부여의 의미
물리적 특성을 부여한다는 말은 물리적인 세계와 비슷한 수준의 정교한 시뮬레이션이 가능하다는 것을 의미한다. 예를 들어, 물병 위로 물이 떨어지는 상황을 생각해보자. 실제 세계에서는 물이 아래로 떨어지고, 표면장력이 작용하는 등 물리 현상이 자연스럽게 발생한다. 그러나 AI 모델이 물리적 반응을 정확히 재현하려면, 각각의 현상을 별도로 다 학습시켜야 한다. 이 과정은 시간과 비용이 많이 든다. 이러한 물리적 현상들을 미리 학습시킨 모델이 Word Foundation Model 이다.
이는 생성형 AI 분야에서 언어 기반 파운데이션 모델이 등장하며 급격한 발전을 이룬 흐름과 유사하다. Physical AI 분야도 기업들이 완전히 처음부터 모든 것을 새로 학습시키지 않고, 일정 수준 이상의 기반에서 시작할 수 있다는 점에서 중요한 의미를 갖는다.

 

 


생각(Cognition)

 

생성형 AI를 통해, 로봇들이 예외사항에 대한 대처가 가능
BMW는 일부 공장부터 생성형 AI를 탑재한 휴머노이드 로봇을 실제 공정에 테스트 적용하고 있다. 이 사례 역시 생성형 AI 발달과 밀접한 관련이 있다. 사실 제조업에 AI 로봇이 도입된 것은 이미 오래 전의 일이다. 당시 로봇은 주로 정해진 규칙(Rule-based)에 따라 반복적이고 노동집약적인 작업을 수행했다. 하지만 문제는 상황이나 환경이 조금만 바뀌어도 로봇을 다시 세팅해야 한다는 점이다. 작업 범위가 넓거나, 변동성이 높은 업무에 로봇을 활용하는 것은 사실상 불가능했다. 전환점은 2022년으로, 이때부터 ‘로봇 뇌’ 역할을 하는 AI 모델들이 등장했다. 대표적으로 구글의 팜-세이켄(PaLM-Saycan) 모델이 있다. 이 모델은 멀티모달 AI 로봇으로서 이미지나 영상을 언어 형태로 해석하고, 이를 로봇이 행동할 수 있게 연결해준다. 예를 들어, 테이블 위에 주스가 엎질러졌을 때 사람은 자연스레 닦을 만한 물건을 찾아서 닦는다. 그러나 기존 로봇에게 이 작업은 쉽지 않다. ‘넘어졌다’라는 상황의 의미, ‘쏟아졌다’는 것은 얼만큼 쏟아진 것인지, ’닦는다’는 얼마만큼 닦아야 하는 것인지 등 모든 것을 사전에 명확히 정의하고 프로그래밍해야 하기 때문이다. 생성형 AI 기반의 팜-세이켄은 이러한 상황을 스스로 판단하고 적절한 행동으로 연결할 수 있는 수준에 이르렀다. 최근에는 오픈AI와 피규어(Figure)가 함께 개발한 휴머노이드 로봇은 이러한 기술을 실제 산업 현장에 적용하기 위해 테스트 단계에 들어간 상황이다. 

 

► AI 기반 로봇틱스 고도화 방향성

 

 

Point 1 : 시각/청각 정보를 언어로 바꿔서 업무를 수행 

  • 생성형 AI와 대규모 언어 모델(LLM)의 발전은 로보틱스 분야에도 중요한 변화를 불러오고 있다. 특히 언어를 기반으로 환경이나 사물을 인식하여 로봇이 한 번도 본 적 없는 환경에서도 스스로 탐색하고 조작할 수 있게 한다.
  • 대표적인 사례로는 NYU가 메타와 공동 개발한 ‘개방형 어휘 인식’ 기술이 있다. 기존 로봇은 새로운 환경에 놓였을 때, 그 변화에 적응하거나 적절히 행동하기 어려웠다. 반면 이 기술은, 로봇이 주변의 시각 정보를 텍스트로 변환해 이해하고, 언어 기반 명령에 따라 자율적으로 탐색하거나 동작할 수 있도록 한다. NYU와 메타가 개발한 ‘LM-Nav’는 이러한 언어 기반 인식 기술을 적용한 사례다. 이 모델은 사용자의 언어 명령을 이해해 로봇의 네비게이션 경로를 설정하고, 야외 환경에서도 사람의 말을 이해하고 스스로 이동할 수 있도록 설계돼 있다. 이처럼 생성형 AI는 로봇이 한 번도 본 적 없는 환경에서도 언어를 통해 상황을 인식하고 자율적인 의사결정과 행동을 가능하게 한다.
  •  

► NYU / 메타(Meta) AI의 개방형 어휘 인식 사례

 

 

Point 2 : 시각/청각 정보에 언어적 의미를 더해 시행착오를 줄임
로봇에게 적절한 행동을 학습시키기 위한 정책 학습의 제약사항을 대규모 언어 모델을 통해 해결할 수 있다. 기존 로봇에게 적절한 행동을 학습시키기 위한 대표적인 방식 중 하나는 모방학습이다. 이는 사람이 수행한 행동을 로봇이 그대로 따라하도록 학습시키는 방식이다. 하지만 이 접근법에는 한계가 있다. 사람이 작업한 환경과 조금만 달라져도 로봇이 상황을 제대로 인식하지 못하거나, 적절한 판단을 내리지 못하는 문제가 발생한다. 예를 들어, 사물이 약간 옆으로 치우쳐 있거나 예상과 다른 위치에 있을 경우에도 로봇은 이를 제대로 해석하지 못하는 경우가 많다.
LLM을 활용해 이러한 한계를 해결할 수 있다. 로봇한테 작업의 맥락과 목적을 언어적으로 명확히 전달하면, 환경에 다소 변화가 생기더라도 언어를 기반으로 상황을 이해하고 유연하게 대응할 수 있다. 다양한 환경에 적용하려면, Rule-based가 아니라, 강화 학습이 필요하다. 강화 학습할 때에도 로봇이 해야 할 작업과 상관없는 일을 시키는 게 아니라, 작업을 수행할 때 해야만 하는 아주 기본적인 내용을 사전에 제시하면 로봇은 적절한 범위 내에서 수행할 수 있다.

 

► 태슬라(Tesla)의 정책 학습 사례

 

 

Point 3 : 스스로 업무를 계획하고 실행함
로봇은 언어를 이해하더라도 이를 실제 행동으로 전환하는 데에는 한계가 있었다. 작업의 순서와 세부 단계를 사람이 모두 미리 정의해줘야 로봇이 업무를 수행할 수 있었던 것이다. 그러나 이제 로봇은 주어진 지시를 스스로 해석하고, 상황을 고려해 해야 할 업무를 순차적으로 수행할 수 있다. 예를 들어, 사용자가 구체적인 절차를 명시하지 않더라도, 로봇은 언어적 지시와 주변 환경 정보를 종합적으로 분석해 현재 상황에서 가능한 작업을 스스로 판단하고 수행할 수 있다. 물리적 세계에서의 Physical AI와 생성형 AI가 연결된 것이다.

 

► 구글 딥마인드(Google DeepMind)의 테스크 플래닝 사례

 

 

행동(Action)

 

휴머노이드 로봇의 전성 시대
: 뛰고, 돌고, 구르는 ‘행동‘ 위주의 휴머노이드 로봇에서 산업 및 실생활 ‘적용‘ 위주의 로봇으로 변화
로봇의 형태는 매우 다양하다. 펫 형태의 귀여운 로봇, 팔 형태의 산업 로봇 등이 있는데, 최근 사람과 유사한 형태를 갖춘 휴머노이드 로봇의 등장 속도가 눈에 띄게 빨라지고 있다. 2013년, 보스턴 다이나믹스(Boston Dynamics)가 휴머노이드 로봇을 출시한 이후, 몇 개의 로봇이 발표되긴 했지만 주목할 만한 것은 거의 없었다. 그리고 2022년부터 2024년 사이에 피규어(Figure), 피닉스(Phoenix), H1, 옵티머스(Optimus) 등 많은 휴머노이드 로봇들이 등장했다. 이러한 변화는 우연히 이뤄진 것이 아니라, 생성형 AI, 로보틱스, 그리고 외부 환경을 인지하는 센서 기술이 동시에 발전하며 나타난 결과다. 
휴머노이드 로봇은 특정 기능만 담당하는 로봇에 비해 제조 비용이 더 많이 든다. 그럼에도 불구하고 휴머노이드 로봇의 의미는 점점 더 커지고 있다. 로봇이 수행할 수 있는 업무의 범위와 활용 사례(Use Case)가 더 다양해졌기 때문이다. 사실 물리적 능력이 같더라도, 로봇의 뇌가 충분히 똑똑하지 않았다면 업무를 단순화하는 것이 훨씬 더 유리한 전략일 것이다. 그런데 이제 AI가 급격히 발전하고 있다. 다양한 작업을 수행할 수 있도록 물리적 구조를 범용적으로 만들고, 갈수록 똑똑해지는 뇌를 결합해 비용 대비 활용 가치를 극대화하는 방향으로 전략이 바뀌고 있다. 
무엇보다 휴머노이드 로봇이 가진 가장 큰 장점은 인간 중심의 물리적 환경에 최적화되어 있다는 점이다. 현대 사회의 모든 인프라는 사람을 기준으로 설계돼 있다. 따라서 사람과 유사한 키, 체형, 손과 발 구조를 가진 휴머노이드 로봇은 기존 인프라를 그대로 활용하면서 가장 효과적으로 쓸 수 있다. 

 

► 휴머노이드 로봇 런칭

 

► 대표적인 휴머노이드 로봇

 

 

피규어(Figure)의 01, 02 (*오픈AI 투자)
휴머노이드 로봇은 더 이상 컨셉이나 공상과학 속 미래 이야기가 아니다. 지난해 BMW의 Figure-01 모델은 스파턴버그 공장에 도입되었고, 하반기까지 성공적으로 부품 조립 테스트를 수행했다. 현재는 하루 1,000건의 작업을 end-to-end로 자동화하며 업무를 진행 중이며, Rule-based 방식이 아닌, 상황에 맞게 스스로 판단하며 제조 공정에 투입되어 작업하고 있다.
과거의 휴머노이드 로봇은 점프하거나 뒹구는 등 ‘재미’에 가까웠다면, 이제는 산업현장에 실제로 투입해 가치를 창출할 수 있을지를 본격적으로 고민하는 단계다.  작업 자체를 잘 수행하는 것을 넘어서, 해당 일을 얼마나 더 빠르고, 정밀하게 수행할 수 있을지도 함께 고려되고 있다.

 

► ’24년 초, BMW 생산 라인 투입 후, 성공적인 부품 조립 테스트를 수행 중

 

 

앱트로닉(Apptronik)의 아폴로(Apollo) (*벤츠 투자)
메르세데스 벤츠(Mercedez-Benz)는 앱트로닉의 아폴로 로봇에 투자하고, 올해 3월부터 독일 마리엔펠데(Marienfelde) 공장 라인에 해당 로봇을 투입했다. 벤츠는 이를 시작으로 공격적인 확장을 예고했다. 그동안 로보틱스 분야에서는 BMW가 벤츠보다 앞서 있었지만, 벤츠 역시 본격적으로 로보틱스를 강화하고 있다.

 

► ’25년 3월부터 독일 베를린 마리엔펠데 공장의 생산 라인에 투입

 

 

테슬라(Tesla)의 옵티머스(Optimus)
옵티머스 역시 생산라인 투입돼 테스트하고 있다. 앞선 사례들과 다른 점은, 테슬라는 자율주행 기술을 고민해온 기업이라는 점에서 옵티머스는 단순히 설비에서만 일하는 게 아니라, 사람과의 인터렉션을 기반으로 사람의 동선과 인프라를 그대로 따라 움직일 수 있다. 또한 충전도 스스로 수행한다. 
더 흥미로운 점은 옵티머스가 옵티머스를 생산하는 공정에도 투입되고 있다. 과거에는 생산공정을 설계할 때 구조가 고정적일 수 밖에 없었지만, 로봇들이 유연하게 움직일 수 있게 되면서 기존 대비 더 높은 수준의 커스터마이징이 가능한 공정과 아웃풋을 구현할 수 있게 되었다.

 

► ’24년 6월부터 테슬라 공장의 생산 라인에 투입되어 테스트 중

 

 

유니트리(Unitree)의 H1
미국과 유럽 뿐 아니라, 중국에서도 생산라인에 로봇이 투입되고 있다. 유니트리의 H1은 중국 기업 길리(Geely)의 생산라인에 투입되어 테스트 중이며, 동적 조립 라인에서 자율적으로 부품을 처리하고 설치할 수 있다. 중국은 기존의 생산역량이 충분히 갖춰져 있어 이를 레버리지하면서, 축적된 생산역량이 새로운 생산역량으로 이어지는 선순환 구조를 만들어가고 있다.

 

► 길리(Geely)의 생산라인에 투입되어 테스트 중

 

 

도봇(Dobot)의 아톰(Atom)
지금까지는 공장과 산업 분야에 초점을 맞춘 사례들이었다면, 이번에는 가정에서 활용되는 로봇 사례다. 2025년 3월에 공개된 도봇 영상 따르면, 도봇의 로봇인 아톰이 아침 식사를 준비한다. 사람처럼 재료를 배치하고 일부만 골라서 놓는 등 자연스러운 행동을 보인다. 웬만한 사람보다 미적 감각이 더 뛰어나다고도 느껴질 정도다. 그동안 사람만이 할 수 있다고 여기던 일들도 이제는 로봇이 수행하는 단계에 이르렀다.

 

► 아침 식사를 준비하는 것처럼, 아톰은 사람이 할 법한 업무를 수행

 

 

1X의 네오 감마(NEO Gamma)
로봇 감마는 가정 내 업무 수행을 위한 테스트가 진행 중이다. 2025년 말부터는 수백 가구 대상으로 본격적인 테스트를 실시할 계획이다. 우리가 흔히 “집안일 좀 대신해주는 사람이 있었으면 좋겠다”라고 말하곤 하는데, 이 로봇이 바로 그 역할을 시도하고 있다. 이 로봇은 엔비디아의 오픈소스 모델인 ‘이삭 그룻 N1(Isaac GR00T N1)’을 활용하고 있어, 기술적 측면에서도 의미가 있다. 

휴머노이드 로봇이 실제 현장에 본격 도입되는 시점에 대해서는 다양한 전망이 존재한다. 하지만 지금 시점은 하나의 분수령이 되고 있다. 2022년부터 2024년까지 생성형 AI의 폭발적인 성장과 함께 로봇 기술도 빠르게 발전하고 있으며, 실제 활용 사례도 눈에 띄게 늘고 있다. 이 시기에 준비해온 기술과 모델들이 2024년 초중반을 기점으로 본격적으로 모습을 드러내고 있다.

 

► ’25년 초부터, 실제 가정 환경에서의 데이터 수집을 통해 향후 개선 사항을 도출 예정

 


3. 시사점
Physical AI의 부상은 AI가 더 이상 앱이나 웹에 머무르지 않고, 실제 인류가 살고 있는 물리적 세상에 구현될 수많은 기술들과 결합되기 시작했다는 점에서 중요한 의미가 있다.

 

Physical AI가 제2의 ChatGPT 모먼트 촉발
생성형 AI의 확산이 일시적인 유행에 불과하다고 보는 사람은 거의 없다. Physical AI도 마찬가지다. 이는 갑작스럽게 등장한 개념이 아니고, 기존에 있었던 로보틱스, 디지털 트윈 등 여러 기술과도 긴밀하게 연결돼 있기 때문이다. 많은 기술들이 어느 정도 발전했음에도 해결되지 않았던 일부 영역을 생성형 AI가 풀어내기 시작했다. 이로 인해 활용 속도와 범위가 폭발적으로 증가하고 있다.

 

휴머노이드 로봇의 실전 투입 본격화
가장 중요한 애플리케이션 영역 중 하나인 휴머노이드 로봇의 실전 투입이 본격화되고 있다. 이것이 찻잔 속 태풍으로 그칠지, 빠르게 확산될지는 지켜봐야 하겠지만, 확실한 것은 지금 이 순간에도 로봇이 투입되고 있다는 점이다.

 

ROI를 만들어낼 ‘활용 사례’가 관건 
휴머노이드 로봇이 과연 투자 대비 수익(ROI)을 낼 수 있을지에 대한 우려가 있다. 생성형 AI가 주목받고 있는 것처럼 로보틱스 기술도 많은 관심을 받고 있지만, 기업 입장에서는 ‘실제로 어디에 어떻게 쓰이고 있느냐’가 중요하다. 이런 점에서 로보틱스 분야 역시 실질적인 활용 사례와 수익성에 대한 고민이 이어지고 있다.

Experts

  • 최인철

    Partner

  • 최원준

    Specialist Partner

  • 김수빈

    Principal

  • 이승원

    Principal

  • 신정훈

    Associate Partner

  • 두민균

    Principal

  • 임우석

    Principal