• 네이버가 영상을 이해하는 초거대 인공지능(AI)을 개발

  • 네이버는 최근 영상 속 사람, 제품, 장소, 음식 등 개체를 인식해 분석하는 AI 모델 ‘하이퍼클로바X 비디오’를 개발

  • 사진을 인식하는 것을 넘어 변화하는 장면에서도 구성 요소들을 정확하게 이해하도록 설계. 네이버 측은 “신모델은 사내에 공개돼 서비스 내부적으로 적용 방안을 검토하고 있는 단계”라고 설명

  • 네이버는 인물이나 생물 등의 의도를 분석하고 향후 전개까지 예측한다고 강조. 원하는 장면이 어느 시간대에 있는지도 찾아낼 수 있으며, 영상을 바탕으로 창작할 수도 있음

  • 네이버는 자사의 영상 이해 AI 성능이 오픈AI 모델과 맞먹는다고 소개. 네이버에 따르면 비디오MME 벤치마크에서 하이퍼클로바X 비디오는 61.4점을 기록해 오픈AI의 GPT-4V를 앞섰음. 다만 액티비티넷-QA 벤치마크에서는 55.2점을 기록해 GPT-4V에 근소하게 뒤처졌음

자료 : 서울경제신문


  • 네이버는 하이퍼클로바X 비디오를 자사 서비스에 투입해 플랫폼 역량을 강화. 이 AI 모델은 네이버 생태계 창작자의 활동을 지원할 수 있음

  • 네이버는 하이퍼클로바X 비디오를 기업간거래(B2B)·정부와 기업간 거래(B2G) 사업에도 활용한다는 목표

  • 네이버는 사우디아라비아의 아랍어 기반 거대 언어모델(LLM) 개발 사업을 진행하고 있고 엔비디아와 손 잡고 동남아 시장도 공략할 예정

  • 네이버의 참전으로 영상 이해 AI 시장은 더욱 뜨거워질 것으로 예상

  • 로봇 등 현실 세계와 상호작용할 수 있는 피지컬 AI의 주요 기술이기 때문에 오픈AI와 구글, 마이크로소프트 모두 영상이해 AI 개발에 뛰어든 상황

  • 엔비디아는 최근 영상 속 사물의 속성을 분석하는 ‘코스모스 리즌’ 모델을 발표

  • 중국 딥시크도 올해 초 영상을 이해하고 이미지를 생성하는 모델 ‘야누스 프로’를 선보였음

  • 국내에서는 스타트업 트웰브랩스가 이 분야에서 주목. 영상 이해 AI 모델 ‘마렝고’와 영상 언어 생성 AI 모델인 ‘페가수스’를 개발. 트웰브랩스는 기술력을 인정받아 지금까지 1억 700만 달러(약 1530억 원)를 투자받았음

<시사점>

네이버의 하이퍼클로바X(HyperClovaX)는 한국어 처리에서 우수한 성능을 보여주는 대형 AI언어모델입니다. 이 하이퍼클로바X가 비디오 분야로 진출, 한국어로 된 비디오 콘텐츠 생성의 효율성을 높이고, 자동화된 비디오 생성이 가능해졌습니다.

이러한 하이퍼클로바X 비디오의 출시는 콘텐츠 제작의 혁신과 멀티모달 기술(시각, 청각, 촉각, 미각, 후각 등 다양한 감각채널을 통한 정보활용기술)의 활용, 한국문화 특성 반영을 통해 다양한 산업분야에 적용될 것으로 전망됩니다.

네이버는 단순한 검색시장과 이커머스를 넘어 급변하는 인공지능과 로봇 시대를 준비하고, 새로운 도약을 꿈꾸는 미래형 성장기업이라 할 수 있습니다.

<관련 기사>

https://n.news.naver.com/article/newspaper/011/0004465175?date=20250325