Q&A

home    〉   Q&A

영상을 이해하는 AI 원천기술로 글로벌 시장 공략: 트웰브랩스

라이더 0 3 10.28 11:59
역동성 잃은 K증시 박스권 갇혀지난 2000년 이후 미국 증시에선 시가총액 1위 기업이 수시로 바뀌고 있지만 한국에선 삼성전자 독주체제가 이어지고 있습니다.
이는 우리나라의 신사업 발굴 및 산업 구조 개편이 원활치 않은 탓으로 풀이됩니다. 미국에선 10년마다 혁신 기업이 배출돼 지속적인 증시 상승이 이뤄지고 있는 반면 코스피는 성장 방향성을 잃고 박스권만 맴돌고 있다는 지적입니다. 28일 블룸버그에 따르면 지난 20년간 미국 시가총액 상위 10위권 자리를 유지하고 있는 곳은 마이크로소프트 가 유일한 것으로 확인됐습니다. 10년 단위로 살펴보면 2004∼2014년 6개가 2015∼2024년 8개가 각각 10위권 안으로 신규 편입했습니다. 특히 10년마다 창업 20년 안팎의 혁신기업이 등장해 증시 상승을 주도하는 모습을 보였습니다. 구글의 모회사 알파벳 메타 테슬라 등이 대표적입니다. 시가총액 1위 자리도 예외는 아닙니다. 2000년 이후 MS 제너럴일렉트릭 엑슨모빌 애플 등으로 1위 자리가 빈번히 바뀌었고 현재도 애플 MS 엔비디아 등 3파전이 치열하게 전개되고 있습니다. 반면 우리나라는 삼성전자가 1999년 이후 25년째 1위를 차지하고 있으며 포스코 현대차 등도 시가총액 10위권에 계속 포진해 있습니다. 한국 산업에 혁신 기업 등장이 더뎌지면서 한국 증시의 역동성이 점점 떨어지고 있는 것입니다. 이창양 전 산업통상자원부 장관은 산업 구조적으로 내수를 주로 담당하는 중소기업 경쟁력이 취약한 편이라며 중소기업 정책을 획기적으로 전환하거나 대대적으로 개선할 필요가 있다고 말했습니다. 데스크톱 프로세서 애로우레이크-S 및 루나레이크 선보여 한재준 기자 = 인텔이 차세대 PC 프로세서를 국내 출시했습니다. 고성능의 프로세서 제품군을 바탕으로 인공지능 PC 확산에 나선다는 전략입니다. 인텔코리아는 28일 서울 여의도 콘래드 호텔에서 미디어 간담회를 열고 PC 프로세서 신제품인 인텔 코어 울트라 200S 데스크톱 프로세서와 인텔 코어 울트라 200V 노트북 프로세서를 국내 출시한다고 발표했습니다. 데스크톱 프로세서인 애로우레이크-S는 뛰어난 게이밍 성능과 컴퓨팅 성능을 제공하면서도 전력 사용량을 획기적으로 낮춘 제품입니다. 이전 세대 프로세서 대비 전력 사용량을 최대 58 줄일 수 있습니다. 잭 황 인텔 세일즈 마케팅그룹 전략매니저는 이날 애로우레이크-S는 성능은 유지하면서 전력을 절반으로 줄였습니다. 전성비에 심혈을 기울였다며 경쟁사의 플래그십 프로세서 대비 최대 50 빠른 AI 성능도 제공한다고 설명했습니다. 노트북용 프로세서인 루나레이크는 전작 대비 4배 이상 향상된 NPU 성능은 물론 혁신적인 x86 전력 효율성 획기적인 그래픽 성능 등을 자랑합니다. 전작 대비 전력 효율을 50 개선해 한 번의 충전으로 최대 20시간 사용할 수 있습니다. 인텔은 루나레이크가 경쟁사인 퀄컴의 X1E-84-100 보다 68 빠른 게이밍 속도도 제공한다고 강조했습니다. 이날 행사에는 인텔의 파트너사인 삼성전자 LG전자 레노버 HP 델 테크놀로지스 에이서 에이수스 등 노트북 제조사와 ISV인 마이크로소프트 관계자도 참석했습니다. 삼성전자 노트북 신제품인 갤럭시 북5 프로 360과 LG전자 그램 프로 HP 옴니북 울트라 플립 레노보 요가 슬림 7i 아우라 에디션 에이수스 젠북 S14 에이서 스위프트 14 AI 델 XPS 13 등이 공개됐습니다. 배태원 인텔코리아 사장은 인텔은 AI PC 시대를 가속화하며 그 기반이 되는 프로세서와 AI 소프트웨어 생태계 및 제조사와의 협력을 통해 이용자들에게 총체적인 경험으로 제공할 수 있는 기업이라며 이번 코어 울트라 신제품 출시를 통해 생태계 내 파트너들과 함께 국내 이용자들이 AI의 혜택을 누리고 일상을 혁신할 수 있도록 노력하겠다고 밝혔습니다. 초거대 영상-언어 AI 모델 트웰브랩스전성민 가천대 경영학부 교수이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스에 게재된 기사입니다.
트웰브랩스의 창업은 다소 특별한 곳에서 시작되었습니다. 2019년 트웰브랩스의 이재성 대표는 국군 사이버작전사령부에서 김성준 개발총괄이사와 이승준 기술총괄이사를 만났습니다. UC 버클리 브라운 등 미국 명문대학에서 공부한 경험을 공유하던 이들은 국방부군 생활 동안 함께 일을 하며 서로의 역량을 확인하고 AI 기술에 대한 공통의 관심을 발견했습니다. 이들은 업무 상 텍스트 분석을 하는 툴을 많이 다루게 되던 중 영상에 대한 툴은 매우 부족하다는 점을 느끼게 되었습니다. AI 논문을 같이 읽으며 공부하던 이들은 박사과정을 진학할지 산업계에 뛰어들지 고민하다 빠르게 성장하던 AI 사업기회를 잡기 위해 함께 창업하기로 마음을 먹게 되었습니다. 군대에서 만난 창업 팀입대 시기가 서로 달라 한 명씩 전역하면서 국방부 면회처인 스타카페에서 창업 계획을 세웠습니다. 모두가 민간인이 된 2021년 3월 군대 월급 등 200만 원을 모아 트웰브랩스를 창립했습니다. 거대언어모델 등 생성 AI가 공개되면서 그들은 영상 데이터 분석에 대한 가능성을 보고 함께 사업을 시작하기로 결심하게 되었습니다. 초기 연구 환경 구축을 위해 이승준 CTO는 KTX로 개인 GPU 를 직접 공수해왔습니다. 이 GPU 2080 TI는 몬스터 라는 별명으로 불리며 투자유치 전까지 회사의 유일한 GPU로 활용되었습니다. 글로벌 무대에서 인정받고 싶었던 트웰브랩스 팀은 국내에 안주하지 않고 미국으로 눈을 돌렸습니다. 2021년 7월 컴퓨터 비전 분야 최고 권위의 학회인 국제컴퓨터비전학회 에서 트웰브랩스는 첫 성과를 냈습니다. 밸류 챌린지 2021의 영상 검색 트랙에서 우승을 한 것입니다. 이 대회는 7만 4천 개의 다양한 동영상에 담긴 시각 및 음성 정보를 분석하여 주어진 문장에 해당하는 영상 내 구간을 가장 정확하고 빠르게 찾아내는 것이 목표였습니다. 트웰브랩스는 시각 정보뿐만 아니라 음성과 시간의 흐름 등 다양한 정보까지 인식할 수 있는 AI 모델을 개발하여 텐센트 카카오브레인 컬럼비아 대학 등 유수의 기업과 연구기관을 제치고 우승을 차지했습니다. 트웰브랩스의 기술은 해당 제목의 영상을 찾아주는 수준이 아니라 영상 내 특정 구간까지 구체화해 검색 결과를 제시해준다. 예컨대 흰 셔츠를 입고 춤추는 여자가 나오는 영화라고 검색하면 영화 펄프 픽션의 해당 장면이 뜬다. 글로벌 성장과 투자 유치트웰브랩스는 곧바로 글로벌 엑설러레이터인 테크스타즈 의 시애틀 프로그램에 참가하면서 미국 내 네트워크를 늘렸습니다. 이 대표는 이 프로그램을 통해 AI 연구 B2B 서비스형 소프트웨어 혁신적 창업 영역의 전문가들을 집중적으로 만나고자 했습니다. 고 참여 의도를 강조했습니다. 세계적인 AI 석학으로 꼽히는 페이페이 리 스탠퍼드대 교수를 비롯한 현지 전문가들이 관심을 가지며 자문단으로 합류했습니다. 2022년 3월 시드 투자로 인덱스벤처스 엑스파벤처스 등 미국 유명 벤처캐피털 의 투자를 받았습니다. 이 대표는 VC들을 직접 찾아가 영상 내의 시각적 청각적 정보와 의미를 인간의 언어와 연계할 수 있는 초거대 AI 모델 개발이 필요하다는 점을 어필했습니다. 군 경험을 바탕으로 뭉친 초기 팀은 투자자들에게 신선한 매력으로 다가왔습니다. 특히 이스라엘 스타트업들의 성공 사례를 통해 군 경험이 스타트업의 성공에 미치는 긍정적인 영향이 입증된 만큼 투자자들은 이 팀의 성장 가능성을 높게 평가했습니다.
2023년에 들어서는 미국 엔비디아의 투자도 유치했습니다. 엔비디아는 국내 AI 스타트업에 직접 투자한 적이 없었습니다. 130억 원 규모의 프리 시리즈A 투자 유치에 엔비디아 외에도 인텔 삼성전자의 기업형 벤처캐피털 삼성넥스트 한국투자파트너스 등도 참여했습니다. 동영상을 이해하는 AI오늘날 매 순간 수백만 개의 비디오가 생성되고 소비되고 있습니다. 소셜 미디어를 중심으로 확산된 비디오는 이제 단순한 엔터테인먼트를 넘어 교육 소통 보안 등 다양한 분야에서 필수적인 도구가 되었습니다. 하지만 방대한 양의 영상 데이터를 효과적으로 이해하고 분석하는 것은 여전히 어려운 일입니다. 먼저 영상 데이터를 처리하기 위해서는 컴퓨팅 부담이 매우 크다. 영상 데이터는 텍스트나 이미지에 비해 시간적 정보까지 담고 있어 처리해야 할 데이터의 양이 훨씬 많다. 예를 들어 1초짜리 영상을 1초에 30 프레임으로 처리한다고 가정하면 1분짜리 영상은 1 800개의 프레임을 처리해야 합니다. 여기에 생성 AI의 트랜스포머 모델의 계산 복잡도까지 더해지면 영상 데이터 처리에 드는 시간과 비용은 기하급수적으로 증가하게 됩니다. 트랜스포머 모델에서 각 단어는 다른 모든 단어와의 관계를 고려해야 합니다. 만일 10개의 단어로 이루어진 문장이 있다면 셀프 어텐션은 10 x 10 = 100번의 계산을 수행해야 합니다. 만약 문장의 길이가 100개로 늘어나면 계산 횟수는 무려 10 000번으로 급격하게 증가하게 됩니다. 이처럼 트랜스포머 모델의 셀프 어텐션은 시퀀스 길이가 길어질수록 계산량이 기하급수적으로 증가하는 특징을 가지고 있습니다. 동영상은 연속적인 이미지의 집합이므로 각 프레임 간의 시간적 관계를 파악하는 것이 중요합니다. 가령 사람이 걷는 동작을 인식하기 위해서는 각 프레임에서의 자세 변화를 시간적으로 연결하여 분석해야 합니다. 이처럼 영상을 이해하기 위해서는 시간 정보를 모델링하는 것이 핵심이며 이를 위해 일반적인 이미지 인식 모델과는 다른 시간 정보에 특화된 기술이 필요한 것입니다. 더욱이 동영상은 시각 정보와 동기화된 오디오 신호를 함께 제공하여 시청자에게 더욱 풍부한 정보를 전달합니다. 따라서 영상 분석 시에는 시각 정보와 더불어 시간에 맞춰 변화하는 오디오 신호를 함께 분석해야 합니다. 트웰브랩스의 기술이 비전-언어 초거대 모델이라고 할 수 있습니다. 이는 기존의 컴퓨터 비전 모델과는 다른 것입니다. 전통적인 비전 기술은 디지털 이미지를 이해하기 위해 뉴럴 네트워크와 머신러닝을 사용하다 보니 객체 사물 행동 등은 잘 식별하지만 영상 속의 상황을 이해하기 어려웠습니다. 사물과 행동 간의 관계를 식별하는 데 에는 한계가 있었던 것입니다. 트웰브랩스의 파운딩 솔루션 아키텍트인 트래비스 쿠튀르 는 기존 영상 분석 방식의 한계를 콘텐츠 vs 컨텍스트 라는 개념으로 설명합니다. 즉 영상을 작은 단위로 나누어 분석하는 기존 방식은 영상이 가진 전체적인 맥락을 놓칠 수 있으므로 트웰브랩스는 영상을 통째로 이해하고 처리하는 새로운 접근 방식을 제시한 것입니다.
인간의 뇌가 끊임없이 방대한 양의 정보를 받고 해석하고 정리하는 것처럼 트웰브랩스의 멀티모달 AI는 인간의 뇌처럼 다양한 정보를 통합하여 의미를 파악합니다. 영상 속 시간 객체 음성 텍스트 등 다양한 요소를 벡터로 변환하여 수학적으로 모델링하고 이를 통해 행동 인식 패턴 인식 등 다양한 작업을 수행합니다. 올해 트웰브랩스는 arXiv에 비디오 파운데이션 모델 평가 논문을 출판했습니다. 이 논문에는 영상 이해의 핵심 능력인 외관 및 동작 이해를 측정할 수 있는 평가 프레임워크를 제시되어 있습니다. 기존의 영상 분석 모델들은 외관 또는 동작 이해 중 하나에 한계가 있으며 이러한 문제를 해결하기 위해 트웰브랩스는 TWLV-I라는 새로운 영상 기반 모델을 제안했습니다. TWLV-I는 영상의 핵심 정보를 효과적으로 포착하여 고품질의 시각적 표현을 생성하며 이는 마치 사람이 영상을 보며 얻는 직관적인 이해와 유사합니다. 출처 Lee H. Kim J. Baek K. Kim J. 분당 네일 네일리 Go H. Ha S. Lee A. TWLV-I Analysis and Insights from Holistic Evaluation on Video Foundation Models. arXiv preprint arXiv2408. 솔루션 도입 사례의 스포츠엔터 회사 MLSE 는 방대한 영상 데이터를 효율적으로 관리 및 활용하기 위해 트웰브랩스를 이용하고 있습니다. 경기 후 짧은 시간 안에 하이라이트 영상 제작 및 배포하고 소셜 미디어를 통해 팬들의 참여를 유도합니다. MLSE는 트웰브랩스의 영상 분석 솔루션을 도입하여 팬들에게 더욱 풍성한 콘텐츠를 제공하고 새로운 수익 모델을 만들어낸다. 이를 통해 MLSE는 팬 참여를 높이고 브랜드 가치를 향상시키는 효과를 얻고 있습니다. 한편 세종시는 트웰브랩스의 영상 분석 기술을 스마트 시티 구축에 활용하고 있습니다. 트웰브랩스의 솔루션은 세종시의 방대한 CCTV 영상 데이터를 실시간으로 분석하여 이상 징후를 탐지하고 범죄 예방에 기여합니다. 특히 사람의 움직임 사물의 변화 등을 정확하게 인식하여 위험 상황 발생 시 신속하게 대응할 수 있도록 지원합니다.
서울-샌프란시스코 이원 운영트웰브랩스는 서울과 샌프란시스코라는 글로벌 핵심 거점을 통해 효율적인 이원 운영 체제를 구축하고 있습니다. 서울은 뛰어난 기술 인력을 기반으로 한 연구개발의 중심지 역할을 수행하며 샌프란시스코는 글로벌 시장 진출을 위한 전략적 거점으로서 투자 유치와 파트너십 구축에 집중하고 있습니다. 서울과 샌프란시스코 도시의 특성을 살려 최고 수준의 AI 인재를 확보하여 글로벌 시장에 대한 접근성을 높이고 투자 유치를 통해 성장을 가속하며 서로 다른 문화와 기술 배경을 가진 구성원들의 협업을 통해 혁신적인 아이디어를 만들어가고 있다는 점에서 한국의 새로운 글로벌 스타트업 모델을 제시하고 있다고 볼 수 있겠다. 하지만 이러한 이원 운영 체제는 시차 문화적 차이 조직 관리의 복잡성 등 다양한 어려움이 있습니다. 특히 시차로 인한 실시간 협업의 어려움은 생산성 저하로 이어질 수 있으며 서로 다른 문화적 배경은 의사소통 오해와 협업의 장벽으로 작용할 수 있습니다. 또한 두 개의 거점을 다양한 이력을 가진 인재들을 효율적으로 관리하고 통합하기 위해서는 복잡한 조직 관리 능력이 필요합니다. 트웰브랩스는 이러한 어려움을 극복하기 위해 다양한 노력을 기울이고 있습니다. 업무를 위해 영어를 공식 언어로 채택하고 실시간 커뮤니케이션 도구를 활용하여 원활한 소통 체계를 구축했습니다. 특히 서울 시간으로 오전 8시부터 11시까지를 골든 타임으로 정하여 양쪽 팀이 함께 일하는 시간을 확보함으로써 실시간 협업을 최대화하고 있습니다. 1년에 네 번 글로벌 워크숍을 통해 두 도시의 팀원들이 직접 만나 협업하고 회사의 비전을 공유하며 팀워크를 강화하고 있습니다. 새로 입사한 직원들은 한국 사무소에 방문하여 2주 동안 한국 직원들과 함께 생활하며 회사의 가치관과 문화를 직접 체험하는 온보딩 프로그램에 참여합니다. 트웰브랩스는 영상 AI 분야의 혁신을 이끌며 글로벌 무대에서 메이저리거로서 빠른 성장을 이루고 있습니다. 서울과 샌프란시스코라는 두 개의 핵심 거점을 기반으로 글로벌 네트워크를 구축하고 끊임없는 연구 개발을 통해 새로운 가능성을 열어가고 있습니다. 구성원들의 열정과 혁신적인 아이디어를 바탕으로 트웰브랩스가 더욱 성장하여 글로벌 최정상의 AI 기업으로 발돋움하기를 기대해 본다. 전성민 가천대 경영학부 교수 0. 오프닝1. 마키나락스2. Claythis3. 네이션A4. 플립션5. 환경 분야6. 라이너7. 핏스탑커넥트8. 올거나이즈9.

Comments