네이버 클라우드가 내년 ‘시노씨(Sinossi·시놉시스의 이탈리아어)’를 통해 비디오 분석 시장에 뛰어든다. 이 서비스는 1시간 분량의 긴 영상을 단 2분 이내로 압축해 숏폼 콘텐츠를 자동으로 생성하는데, 기존 기술에 비해 차별화된 우위를 자랑한다. 현재 네이버 쇼핑라이브에 적용돼 있고, 네이버(NAVER(035420)) 클립에 ‘AI 하이라이트’ 기능으로도 준비 중이다. 특히 내년 상반기 외부 시장에 출시되면 방송, 교육, 쇼핑 등에서 숏폼 콘텐츠를 쉽고 빠르게 생성할 수 있을 전망이다.

17일 업계에 따르면 인공지능(AI)을 활용해 긴 영상을 숏폼 콘텐츠로 변환하는 비디오 분석 시장에 네이버클라우드가 시노씨로 본격 참전을 앞두고 있어 경쟁이 치열해질 전망이다.

숏폼 콘텐츠 자동 생성 시장은 스포츠 경기, 라이브쇼핑 등에서 시청자들이 원하는 특정 인물이나 구간을 선별해 보고 싶어하는 수요가 커짐에 따라 주목받는다. 1~2시간에 달하는 긴 영상에서 핵심 정보만 담은 숏클립은 원본 콘텐츠로 사용자를 끌어들이는 효자 노릇을 하지만, 수동으로 편집하려면 시간과 비용이 많이 든다.

이에 따라 이를 자동화하는 시장에 국내 기업인 리턴제로의 ‘아이코(AICO)’와 싱가포르의 샵라이브 ‘AI클립’ 등이 진출해 있었다. 리턴제로의 ‘아이코(AICO)’는 유튜브 링크를 입력하면 AI가 자동으로 흥미로운 구간을 찾아 숏폼 콘텐츠를 생성하는 서비스다. 샵라이브의 ‘AI클립’은 시청자 반응을 바탕으로 숏폼을 자동 생성하는 방식이다.

그러나 네이버클라우드의 시노씨는 기존 솔루션들과 접근 방식이 다르다. 기존 숏폼 생성 솔루션들은 주로 ‘좋아요’나 댓글 등 이용자 반응을 기반으로 숏폼을 생성하는 방식이라면, 시노씨는 이용자 데이터 없이도 중요 시각 정보에 초점을 맞춰 콘텐츠를 분석하고 숏폼을 생성한다. 예를 들어 쇼핑라이브에서는 쇼호스트의 시식, 시연, 시착 등이 구매 결정에 중요한 요소인데 시노씨가 이를 분석해 해당 장면을 숏폼 콘텐츠로 자동 생성하는 것이다.

여기서 사용되는 기술이 바로 ‘구간 분할’과 ‘구간 분석’이다. 구간 분할은 영상에서 특징을 추출하고, 특징간 유사도를 계산해 유사한 구간들을 묶는 방식이다. 타사 서비스들이 영상을 이미지화해 분석하는 방식인 반면, 시노씨는 영상의 유사도를 기준으로 구간을 분할하고, 해당 구간에서 중요한 메타데이터를 추출한다. 이 방식을 사용하면 탐색 속도와 추론 효율성을 크게 향상시키고 기존의 반응 기반 시스템에서 다루지 못했던 행동 인식(action recognition)을 통해 더 정밀하고 빠르게 핵심 장면을 추출할 수 있다는 설명이다.

빠르고 경제적…방송사, OTT, 교육, 쇼핑 적용 가능

시노씨는 경제적인 측면에서도 강점이 있다는 게 네이버의 설명이다. 저사양 GPU와 CPU 서버만으로도 1시간 분량의 영상을 2분 이내로 분석할 수 있으며, 기존 글로벌 서비스보다 비용 면에서도 이점이 있다는 것이다. 위동윤 네이버클라우드 비디오 리더는 “비디오 분석이 느리고 비쌀 수 있다는 인식을 바꾸기 위해 많은 노력을 기울였다”며 “최적화 덕분에 6배 빠른 서비스 속도를 자랑하며, 글로벌 서비스 대비 3배 저렴한 가격에 제공될 수 있을 것”이라고 설명했다.

현재 네이버클라우드는 20개 이상의 미디어 서비스사와 비공개 베타 테스트(CBT)를 진행 중이며, 내년에 클라우드 기반 서비스(B2B SaaS)형태로 시노씨를 공식 출시할 예정이다.

시노씨는 숏폼 콘텐츠뿐만 아니라 추천 시스템, 구간 검색, 키워드 하이라이트 등 다양한 용도로 확장할 수 있다. 이를 통해 방송사, OTT 플랫폼, 교육 콘텐츠 제공업체, 쇼핑 라이브 등은 효율적으로 숏폼을 생성해 사용자들의 관심을 끌 수 있을 전망이다. 네이버클라우드는 시노씨를 오디오 기반 분석과 영상 간 분석으로 확장할 계획이다.