보도자료

SenseNova V6 일상 속 AI의 기준을 다시 쓰다

2025-09-27

2025년 4월 10일 센스타임은 상하이와 선전 등지에서 전면 업그레이드된 SenseNova V6 (이하 SenseNova 6) 대형 모델 체계를 공개했다. 


이번 발표를 통해 멀티 모달 장기 사고 사슬  학습, 전역 메모리, 강화 학습 분야의 기술적 돌파를 이뤄내며 선도적인 멀티 모달 추론 역량을 구축하는 동시에 비용 한계를 뛰어넘었다.


SenseNova 6는 장기 사고 사슬, 추론, 수리 계산, 전역 메모리 전반에서 모델 성능이 대폭 향상됐으며 멀티 모달 추론 능력에서는 국내 최고 수준을 달성했다. 성능 기준은 OpenAI o1에 맞먹고 데이터 분석 역량은 GPT-4o를 큰 폭으로 앞서고 고성능과 저비용의 결합도 실현했다. 멀티 모달 학습 효율은 언어 모델 학습 수준에 맞춰 업계 최고 수준을 기록했고 추론 비용 역시 업계 최저 수준을 달성했다.


또한 새롭게 선보인 경량형 전 모달 인터랙션 모델 SenseNova V6 Omni는 국내 최강의 멀티 모달 상호작용 역량을 제공한다. 여기에 국내 최초로 10분 길이의 중·장편 영상을 심층 분석할 수 있는 대형 모델을 포함했으며 성능은 Gemini 2.5 Turbo와 어깨를 나란히 하는 동급 최강 수준에 도달했다.


日日新1.png


센스타임 이사회 의장 겸 최고 경영자인 쉬리(徐立)는 “AI의 길은 일상의 활용에 있다. SenseNova V6는 멀티 모달의 경계를 넘어 추론과 지능의 무한한 가능성을 펼쳐 나갈 것입니다”이라고 밝혔다.


日日新2.png


SenseNova V6 멀티모달 심층 사고의 진화 

6,000억개 (600B) 이상의 파라미터를 갖춘 MoE 기반 네이티브 멀티 모달 범용 대형 모델인 SenseNova V6는 다수의 기술적 돌파를 이뤄냈다. 단일 모델만으로 텍스트 및 멀티 모달 등 다양한 과제를 폭넓게 수행할 수 있다는 점이 특징이다.


1) 장기 사고 사슬: 2,000억 (200B) 이상 규모의 고품질 멀티 모달 장기 사고 사슬 데이터를 구축했으며 사고 사슬 길이는 최대 64K까지 지원한다.



2) 수리·분석 역량: 데이터 분석 능력이 GPT-4o를 큰 폭으로 앞선다.



3) 추론 역량: 멀티 모달 심층 추론 성능이 국내 최고 수준이며 OpenAI o1을 벤치마크로 한다.



4) 전역 메모리: 국내에서 선제적으로 장시간 영상 이해의 한계를 돌파해 10분 길이의 영상 이해 및 심층 추론을 지원한다.




日日新3.png


권위 있는 추론 역량 및 멀티 모달 성능 평가에서 SenseNova V6는 여러 핵심 지표에서 SOTA를 달성했다.


日日新4.png


【핵심 지표】순수 텍스트 과제의 종합 성능은 국제 최상위 모델과 어깨를 나란히 하며 멀티 모달 성능은 전반적으로 선두를 기록했다. 순수 텍스트 추론과 멀티모달 추론 역량 모두 GPT-4.5와 Gemini 2.0 Pro 등 글로벌 일류 모델 수준에 도달했다.


日日新5.png


【강력한 추론 능력】SenseNova 융합 모델은 5.5 버전에서 V6 및 V6 Reasoner로 진화하며 추론 성능이 크게 향상됐다. 독립 평가에서 멀티 모달 및 언어 기반 심층 추론 과제 모두에서 OpenAI o1과 Gemini 2.0 Flash-Thinking을 상회하는 성과를 기록했다.


2,000억 (200B) 이상 규모의 고품질 멀티 모달 장기 사고 사슬 데이터를 기반으로 센스타임은 다중 에이전트 협업을 통해 장기 사고 사슬의 합성과 검증을 수행했다. 이를 통해 SenseNova V6는 두드러진 멀티 모달 추론 역량을 형성했으며 최대 64K 길이의 멀티 모달 장기 사고 사슬 합성을 지원해 모델의 장시간 사고 능력을 구현한다.


현실 환경의 복잡한 문제에 대응해 SenseNova V6는 강력한 이미지·텍스트 혼합 이해 및 추론 역량으로 다양한 사용자 과제를 해결할 수 있다.


복잡하고 번거로운 문서 처리 시나리오에서도 SenseNova V6는 멀티 모달 강추론 능력을 바탕으로 사용자의 난제를 효과적으로 해소한다. 


관련 기능은 센스타임 오피스 지능형 에이전트 Raccoon에서 체험할 수 있다.


체험하기:  https://xiaohuanxiong.com/office


보험금 청구 사례를 예로 들면 SenseNova V6는 상업 의료보험 청구 자료를 바탕으로 제출 서류의 적합성을 판단하고 과잉 처방이나 불필요한 검사 여부, 자료 누락 또는 불일치 문제를 점검한다.


日日新7.png


소액 보험금 청구는 금액은 작지만 처리 기간이 길어지는 경우가 많다 (보통 3~7일). SenseNova V6를 적용하면 모델이 스스로 위험 신호를 감지하고 교차 검증을 수행한 뒤 매우 상세하고 다차원적인 결론을 사용자에게 제공함으로써 모델 활용에서 고객 사용에 이르는 ‘마지막 1마일’을 완성한다.


또한 멀티 모달 강화 학습의 돌파를 통해 센스타임은 다양한 이미지·텍스트 과제를 대상으로 한 혼합 강화학습 프레임워크를 구축했다. 이는 난이도 단계화와 다중 보상 모델을 결합한 강화학습 훈련을 기반으로 한다.


국내 최초! 10분 영상 한계 돌파… 초장편 콘텐츠도 초 단위 추론·분해


‘전역 메모리’ 역량을 바탕으로 SenseNova V6는 기존 모델이 짧은 영상만 지원하던 한계를 넘어 10분 길이의 영상을 전 프레임 기준으로 분석할 수 있다.


강력한 이해 능력을 바탕으로 SenseNova V6는 영상 속 핵심 장면을 지능적으로 선별해 자동 편집·출력하는 기능도 제공한다. 이를 통해 사용자는 소중한 순간을 효과적으로 보존하고 재활용할 수 있다.



블랙 미스: 오공 게임 플레이 녹화 영상을 대상으로 게이머들이 일상적으로 축적해 온 플레이 영상과 실황 데이터를 SenseNova V6에 입력하면 영상 속 하이라이트와 기록할 만한 구간을 자동으로 이해·식별해 주요 장면만을 편집해 낸다. 또한 해설 문구를 사용자 취향에 맞게 생성할 수 있어 플레이 경험과 인상적인 조작 순간을 보다 효과적으로 공유할 수 있다.


센스타임의 자체 개발 기술은 시각 정보 (화면), 청각 정보 (음성·효과음), 언어 정보 (자막·발화) 그리고 시간 축의 논리를 정렬해 멀티 모달 통합 시계열 표현을 구축한다. 이를 기반으로 세밀한 단계적 정보 압축과 콘텐츠 민감형 동적 필터링을 적용해 장시간 영상을 고비율로 압축할 수 있다. 그 결과 10분 분량의 영상도 핵심 의미를 유지한 채 16K 토큰 수준으로 압축 처리할 수 있다.


SenseNova V6 Omni 공개… 인간형 인터랙션 본격화


센스타임의 SenseNova V6 발표와 함께 센스타임의 실시간 인터랙션 융합 대형 모델은 SenseNova V6 Omni로 업그레이드됐다. 해당 모델은 역할 연기, 번역 점독, 문화·관광 가이드, 그림책 해설, 수학 설명 등 다양한 시나리오를 중심으로 심층적인 최적화를 거쳤다.


번역 점독 시나리오를 예로 들면 SenseNova V6 Omni는 사용자가 손가락으로 가리키는 것만으로도 정확한 위치 기반 공간 상호작용을 구현한다. 동시에 국소 정보와 전체 맥락 간의 관계를 정밀하게 이해해 인간의 자연스러운 직관에 더욱 부합하는 점독형 인터랙션 경험을 제공한다.



SenseNova V6 Omni는 인간에 더욱 가까운 감지 및 표현 역량과 감정 이해 능력을 갖추고 있으며 이미 체화 지능 등 다양한 분야에서 다수의 산업·시나리오에 적용돼 국내 최초의 상용화된 전 모달 실시간 인터랙션 모델로 자리 잡았다.