- 보도자료
SenseNova 6.5 업그레이드로 본 센스타임의 도약… AI, 도구를 넘어 ‘인간형 인터랙션’으로
멀티 모달 정보의 감지와 처리 능력은 AGI의 핵심 요건이자 언어 모델에서 AGI로 나아가기 위한 필수 경로다. 멀티 모달 감지와 추론 그리고 상호작용으로 이어지는 멀티모달 지능의 진화는 AI의 다음 단계 성장을 견인하게 될 것으로 보인다.
2025년 7월 27일 전국 공상연합 인공지능 위원회가 주최하고 센스타임이 주관한 「대애무강·미래를 빚다」 WAIC 2025 대형 모델 포럼에서 센스타임은 새로운 SenseNova V6.5 대형 모델을 공개했다. 이번 발표를 통해 멀티 모달 기초 대형 모델은 획기적인 업그레이드를 맞이했으며 AI는 ‘생산성 도구’에서 ‘생산성 그 자체’로 도약하는 전환점을 제시했다. 이와 함께 센스타임의 핵심 제품인 ‘센스타임 라쿤(SenseTime Raccoon)’ 역시 지능형 에이전트로의 업그레이드를 완료했다.

1950년 튜링은 ‘모방 게임’을 통해 AI를 ‘인간과 유사한 능력’으로 정의했지만 실제 AI는 오랫동안 ‘도구’의 범주를 벗어나지 못한 채 한때 발전의 정체기를 겪어왔다. 그러나 대형 모델 시대에 접어들면서 AI는 멀티 모달 융합 역량의 돌파를 기반으로 AGI의 경계에 점차 다가서고 있으며 비로소 ‘인간 유사성’이라는 기준에 근접하기 시작했다.
전국 공상연합 인공지능 위원회 주석단 초대 순환 주석이자 센스타임 이사회 의장 겸 최고경영자인 쉬리(徐立)는 “센스타임은 인공지능의 본질을 끊임없이 탐구하며 기술 혁신을 통해 최대의 지능을 발현하고 AI가 ‘도구’에서 ‘인간’으로도약하도록 이끌어 진정한 생산력이 되도록 추진해 왔습니다”고 밝혔다.

SenseNova V6.5 새 단장… 획기적 업그레이드로 ‘이해의 깊이’ 확장
센스타임의 SenseNova V6.5 멀티 모달 기초 대형 모델은 세 가지 핵심 영역에서 획기적인 업그레이드를 이뤄냈다.
2) 고효율 구조: 멀티 모달 아키텍처 전반의 최적화를 통해 비용 대비 성능이 3배 이상 향상됐다.
3) 지능형 에이전트 역량: 데이터 분석 성능이 크게 앞서며 엔드 투 엔드 시나리오 구현을 지원해 실질적인 가치 폐쇄 루프를 완성한다.
멀티 모달 추론 과정 데이터를 기반으로 한 고도화된 이미지·텍스트 교차 추론 과정 데이터 합성을 통해 SenseNova V6.5는 멀티 모달 추론과 인터랙션 성능 전반에서 비약적인 향상을 실현했다.

【핵심 지표】텍스트 추론 능력과 멀티 모달 추론 성능이 크게 향상돼 Gemini 2.5 Pro와 Claude 4 Sonnet를 넘어섰다. 멀티 모달 인터랙션 역량 역시 Gemini 2.5 Flash와 GPT-4o를 상회하며 전반적인 성능 지표 전반에서 두드러진 경쟁력을 보였다.
센스타임의 SenseNova V6.5는 이미지와 텍스트가 교차되는 추론 과정 기술에서 선제적으로 돌파구를 마련했다. 대형 모델에 ‘형상적 사고(시각적 사고)’를 도입해 국내 최초로 이미지·텍스트 교차 사고를 구현한 상용급 대형 모델로 자리매김했다.
인간의 사고 과정에서는 형상적 사고와 논리적 사고가 동등하게 중요하며 두 요소가 유기적으로 결합될 때 비로소 종합적인 사고 능력이 형성된다. 흔히 ‘한 장의 그림이 천 마디 말보다 낫다’고 하듯 이미지는 긴 텍스트보다 더 효과적으로 사고를 촉발하는 경우가 많다. 현재 주류 멀티 모달 모델들은 입력 단계에서 여러 모달 리티의 결합을 구현했지만 실제 사고·추론 과정은 여전히 언어 추론에 크게 의존하고 있어 시각·공간 추론 측면에서는 한계가 존재한다.
멀티 모달 추론 과정을 구축하는 핵심은 정보를 그래픽화해 표현하는 데 있다. 이는 순수 텍스트 기반 사고 사슬보다 훨씬 도전적인 과제로 텍스트 형태의 사고 과정뿐 아니라 사고의 노드로 기능하는 이미지를 함께 생성해야 하며 이를 순수 인력만으로 대규모 구현하기는 어렵다. 센스타임 연구 개발팀은 먼저 사고 과정에 대한 이해를 바탕으로 시드 데이터를 구축하고 감독 미세조정(SFT) 학습을 통해 모델에 이미지·텍스트 교차 사고 능력을 초기 부여했다. 이후 다단계 강화학습을 거쳐 멀티 모달 추론 성능을 유의미하게 끌어올렸다.

이와 함께 센스타임은 멀티 모달 모델의 융합 아키텍처를 개선해 모달 간 초기 단계 융합을 한층 강화했다. 새로운 아키텍처는 대폭 경량화된 시각 인코더와 깊고 좁은 백본 모델을 채택해 시각 표현이 전 방향 연산의 초기 단계에서부터 언어와 정렬·융합되도록 설계됐다. 이를 통해 인지 효율은 높아지고 모달 간 융합 깊이는 더욱 심화됐다.
이러한 모델 아키텍처 개선에 힘입어 SenseNova V6.5는 비용 최적화를 달성하는 동시에 사전 학습 처리량이 20% 이상 향상됐으며 강화 학습 효율은 40%, 추론 처리량은 35% 이상 증가했다. 성능과 비용 간의 균형을 동시에 달성한 것이다. 이전 버전인 SenseNova V6.0과 비교하면 SenseNova V6.5의 가성비는 약 3배 수준으로 개선됐다.

AI는 곧 생산력: ‘SenseTime Raccoon’ 오피스용 최강 지능형 에이전트 등장
대형 언어 모델은 이미 많은 이들의 업무를 보조하는 도구로 활용되고 있지만 대형 언어 모델만으로는 AI가 ‘도구’에서 ‘사람’으로 도약하기에는 한계가 있다.
인간의 일상적인 업무 활동은 본질적으로 텍스트, 이미지, 영상, 웹페이지 등 다양한 멀티모달 정보의 처리를 수반한다. 생산성 도구에서 생산성 그 자체로의 전환을 가르는 핵심은 바로 멀티 모달 정보의 입력·처리·출력 능력에 있다.
센스타임의 SenseNova V6.5가 지닌 강력한 멀티 모달 데이터 분석 역량을 기반으로 센스타임의 핵심 오피스 지능형 에이전트 ‘Raccoon’은 전면 업그레이드를 이뤘다. 복잡한 멀티 모달 입력을 처리하고 멀티모달 융합을 통한 심층 분석을수행하며 멀티 모달 결과를 전문적인 시각화 형태로 출력할 수 있다. 이를 통해 ‘업무 환경을 위한 AI 생산력’을 구현하고 AI를 ‘생산성 도구’에서 ‘생산성 그 자체’로 도약시키고 있다.

또한 센스타임 ‘Raccoon’은 복잡한 데이터 분석 역량에서 세계 선도 수준을 지속적으로 유지하고 있다. 고객 시나리오 기반 종합 테스트에서 Raccoon은 데이터 분석 및 에이전트 분야의 국제적 기준으로 평가되는 Claude 4 Opus와 동급의 성능을 보였고 OpenAI o3 등 모델을 큰 폭으로 앞섰다. 특히 시계열 계산, 데이터 매칭, 수리 계산, 이상 탐지 등의 과제에서는 정확도가 100%에 근접했다.

현실의 업무 환경에서는 데이터 입력 형태가 매우 복잡하다. 데이터 분석 업무에서는 스크린샷, 문서, PDF 등 다양한 형식의 자료가 흔히 등장하며 그중 구조화 정보와 표가 차지하는 비중은 약 70%에 불과하다. 겉보기에는 기본적인 엑셀 표처럼 보여도 병합 셀, 결과값, 중첩된 하위 표, 내장 차트 등 복잡한 요소가 포함되는 경우가 많아 처리 난도가 크게 높아진다.
센스타임 ‘Raccoon’은 멀티 모달 사고를 바탕으로 전체 맥락을 종합 분석할 수 있으며 사고 사슬을 구성해 여러 단계의 사고와 검토를 거친 뒤 최종적으로 구조화된 결과를 출력한다.
실제로 어떤 표는 단순해 보이지만 그 이면의 논리적 인과관계는 매우 복잡하다. 현재 Raccoon은 이러한 복잡한 표를‘단순하게’ 다룰 수 있도록 만든다.
사용자가 병합 셀, 결과값, 하위 표, 내장 차트, 외부 이미지가 포함된 복잡한 엑셀 표를 업로드하면 Raccoon은 표 내용을 정확히 파싱하고 하위 표들 사이의 논리적 연결 관계를 구축한 뒤 최종적으로 완전한 분석 보고서를 생성한다.

또 다른 복합 입력 사용자 사례로 소상공인이 Douyin 등 동영상 플랫폼에서 유용한 표 형태의 정보를 발견한 뒤 이를 캡처해 업로드하는 경우가 있다. 센스타임 ‘Raccoon’은 이미지 정보 기반으로 과제를 분해하고 불필요한 요소를 제거한 뒤 표 데이터를 추출해 한 번의 클릭으로 편집 가능한 엑셀 파일로 변환해 제공한다. 이를 통해 사용자는 바로 내용을 입력할 수 있으며, 입력·분석·출력 전 과정이 멀티 모달 역량에 의해 끊김 없이 지원된다.

기존 AI 도구는 주로 보조 역할에 머물러 핵심 작업은 여전히 사용자가 주도해 수행해야 했다. 반면 센스타임 ‘Raccoon’은 인터랙션 패러다임을 한 단계 끌어올렸다. AI가 핵심 과업을 능동적으로 맡고 정밀한 질문과 사용자 확인을 통해 중요한 정보를 보완하는 방식으로 협업 로직이 마치 동료와 함께 일하는 것과 유사하다.
최근 Raccoon이 선보인 작업 기획 기능은 이러한 새로운 상호작용 방식을 한층 더 직관적으로 보여준다. 예컨대 얼마
전 큰 화제를 모은 ‘쑤차오(苏超)’ 사례를 들 수 있다.
사용자가 이미지 형태의 표를 업로드하며 ‘쑤차오 TOP 선수’ 분석을 요청하면 Raccoon은 자동으로 온라인 정보를 수집하고 전문가 지식을 바탕으로 과업 목록 (예: TOP5 기준 설정, 유소년 육성 성과 분석 등)을 생성해 체계적인 분석을 수행한다. 이후 고품질 분석 문서를 완성하며 결과물은 엑셀, PPT, HTML 등 편집 가능한 형식으로도 내보낼 수 있다. 전체 흐름은 다음과 같다. ↓↓↓

단계를 나눠 살펴보면 다음과 같다. 과업을 전달받은 후 Raccoon은 먼저 작업 세부 사항을 능동적으로 정리하고 핵심 단계마다 사용자에게 명확한 질문을 던진다 (예: “아래의 1·2·3 단계에 따라 진행해도 될까요?”). 이를 통해 과업의 방향성을 정확히 확인하며 ‘AI가 주도적으로 작업을 수행하고 사용자는 의사결정을 통해 관리·검증하는’ 고효율 협업 모델을 실현한다. ↓↓↓

다음으로는 전문가 지식을 바탕으로 작업 목록을 생성하고 (예: ‘TOP5’ 기준 확정, 유소년 육성 성과 분석 등)
체계적인 분석을 진행할 수 있으며 그 다음 단계에서 무엇을 해야 하는지, 어떻게 협의하며 진행할 수 있는지
한눈에 들어온다.↓↓↓

전문 데이터와 도구 호출을 결합해 고품질 콘텐츠 생성 과정을 구현하며↓↓↓

최종적으로 완성도 높은 분석 문서를 생성하고 엑셀, PPT, HTML 등 편집 가능한 형식으로도 내보낼 수 있다. ↓↓↓

강력한 복합 과제 처리 역량을 바탕으로 센스타임 ‘Raccoon’은 산업 전반으로의 확산을 가속하고 있다. 이번에는 두 가지 구체적인 적용 시나리오를 겨냥한 교육용 버전과 금융용 버전을 선보였다.
Raccoon 교육용 버전은 학생의 학습 성과, 수업 효과, 학습 행동 패턴을 지능적으로 분석한다. 현재 500개 이상의 교육기관과 10여 개 교육 시나리오에 적용됐으며 25만 명 이상의 교사와 학생을 지원하고 있다. 이를 통해 학습 효율을
15~30% 향상시키는 한편 다수의 학교에서 교수·학습 연구를 지원해 학업 불안 발생률을 40% 낮추고 수업 참여도를
2.1배 높였으며 교육 자원 미스매칭 비율을 30% 줄였다. 또한 심리 건강 개입의 적시성도 50% 개선됐다.
Raccoon 금융 버전은 금융 산업을 대상으로 지식 어시스턴트, 지능형 질의응답, 멀티 모달 지능형 보험금 심사 등 다양한 제품과 솔루션을 제공하며 금융 분야의 ‘인간 - AI 협업’ 기반 지능형 의사결정의 새로운 패러다임을 구축하고 있다. 현재 ‘Raccoon 패밀리’ 제품 매트릭스는 다수의 산업 분야 기업에 폭넓게 서비스되고 있으며 사용자 수는 1천만 명을 넘어섰다.

멀티 모달 기술로 AI 생산력을 활성화하는 가운데 센스타임의 SenseNova 대형 모델은 지속적으로 진화하며 산업과 함께 AI 진화의 다음 단계로 나아가고 있다. 이는 AGI 시대로 향하는 여정을 한층 더 가속화할 것으로 기대된다.

되돌아오다
스마트 비지니스
스마트 시티
스마트 라이프
스마트 오토