네이버가 영상을 이해하는 초거대 인공지능(AI)을 개발
네이버는 최근 영상 속 사람, 제품, 장소, 음식 등 개체를 인식해 분석하는 AI 모델 ‘하이퍼클로바X 비디오’를 개발
사진을 인식하는 것을 넘어 변화하는 장면에서도 구성 요소들을 정확하게 이해하도록 설계. 네이버 측은 “신모델은 사내에 공개돼 서비스 내부적으로 적용 방안을 검토하고 있는 단계”라고 설명
네이버는 인물이나 생물 등의 의도를 분석하고 향후 전개까지 예측한다고 강조. 원하는 장면이 어느 시간대에 있는지도 찾아낼 수 있으며, 영상을 바탕으로 창작할 수도 있음
네이버는 자사의 영상 이해 AI 성능이 오픈AI 모델과 맞먹는다고 소개. 네이버에 따르면 비디오MME 벤치마크에서 하이퍼클로바X 비디오는 61.4점을 기록해 오픈AI의 GPT-4V를 앞섰음. 다만 액티비티넷-QA 벤치마크에서는 55.2점을 기록해 GPT-4V에 근소하게 뒤처졌음
네이버는 하이퍼클로바X 비디오를 자사 서비스에 투입해 플랫폼 역량을 강화. 이 AI 모델은 네이버 생태계 창작자의 활동을 지원할 수 있음
네이버는 하이퍼클로바X 비디오를 기업간거래(B2B)·정부와 기업간 거래(B2G) 사업에도 활용한다는 목표
네이버는 사우디아라비아의 아랍어 기반 거대 언어모델(LLM) 개발 사업을 진행하고 있고 엔비디아와 손 잡고 동남아 시장도 공략할 예정
네이버의 참전으로 영상 이해 AI 시장은 더욱 뜨거워질 것으로 예상
로봇 등 현실 세계와 상호작용할 수 있는 피지컬 AI의 주요 기술이기 때문에 오픈AI와 구글, 마이크로소프트 모두 영상이해 AI 개발에 뛰어든 상황
엔비디아는 최근 영상 속 사물의 속성을 분석하는 ‘코스모스 리즌’ 모델을 발표
중국 딥시크도 올해 초 영상을 이해하고 이미지를 생성하는 모델 ‘야누스 프로’를 선보였음
국내에서는 스타트업 트웰브랩스가 이 분야에서 주목. 영상 이해 AI 모델 ‘마렝고’와 영상 언어 생성 AI 모델인 ‘페가수스’를 개발. 트웰브랩스는 기술력을 인정받아 지금까지 1억 700만 달러(약 1530억 원)를 투자받았음
<시사점>
네이버의 하이퍼클로바X(HyperClovaX)는 한국어 처리에서 우수한 성능을 보여주는 대형 AI언어모델입니다. 이 하이퍼클로바X가 비디오 분야로 진출, 한국어로 된 비디오 콘텐츠 생성의 효율성을 높이고, 자동화된 비디오 생성이 가능해졌습니다.
이러한 하이퍼클로바X 비디오의 출시는 콘텐츠 제작의 혁신과 멀티모달 기술(시각, 청각, 촉각, 미각, 후각 등 다양한 감각채널을 통한 정보활용기술)의 활용, 한국문화 특성 반영을 통해 다양한 산업분야에 적용될 것으로 전망됩니다.
네이버는 단순한 검색시장과 이커머스를 넘어 급변하는 인공지능과 로봇 시대를 준비하고, 새로운 도약을 꿈꾸는 미래형 성장기업이라 할 수 있습니다.
<관련 기사>
https://n.news.naver.com/article/newspaper/011/0004465175?date=20250325