보도자료

센스타임 SenseNova-SI-1.3 오픈소스 공개 - 공간 지능 벤치마크 8개 부문 종합 1위

2026-03-12

SenseTime이 공간 지능 모델 SenseNova-SI-1.3을 공식 오픈소스로 공개했다. 


해당 모델은 공간 측정, 시점 변환, 종합 추론 등 핵심공간 지능 과제에서 성능이 크게 향상됐으며 이전 버전 대비 단답형 질문에 대한 응답 능력도 강화됐다.


권위 있는 공간 지능 벤치마크를 통합 평가하는 플랫폼 EASI benchmark platform에서 SenseNova-SI-1.3은 종합 성능 면에서 Gemini 3 Pro를 넘어섰고 EASI-8에서 평균 점수 기준 1위를 기록했으며 특히 시점 변환 등 고난도 공간 추론 과제에서 뛰어난 성능을 보였다.


nova1.png


SenseNova-SI-1.3, 공간 지능 핵심 난제 정밀 돌파

 

EASI-8은 공간 이해 능력을 집중적으로 평가하기 위해 설계된 고난도 테스트 문제 세트를 포함하고 있다. 이러한 문제들은 Gemini 3 Pro를 비롯한 여러 모델에서도 오류가 자주 발생할 정도로 까다로운 것으로 알려져 있다. 그렇다면 SenseTime의 SenseNova-SI-1.3은 어떤 성능을 보였을까.


nova2.png


문제 1: 


두 장의 사진 속 건축 모형의 총 개수를 계산하는 것이다. 핵심 난점은 두 이미지 간의 대응 관계를 정확히 이해해 가려진대상 때문에 발생하는 누락 계산이나 동일 객체의 중복 계산을 피하는 데 있다. 두 번째 이미지의 시점에서는 첫 번째 이미지에서 가려져 있던 짙은 회색 건물 모형이 드러나며 일부 모형은 두 이미지에 중복으로 등장한다. 


Gemini 3 Pro는 중복 제거를 완전히 수행하지 못해 6개라는 잘못된 결과를 제시한 반면 SenseTim의 SenseNova-SI-1.3은 “4개”라는정확한 답을 제시했다.


nova3.png


문제 2: 


서재의 일부를 촬영한 두 장의 사진을 제시하고 iMac이 방의 북쪽에 위치해 있다는 조건을 바탕으로 학생이 숙제를 하는 학습 공간의 위치를 판단하는 것이다. 핵심은 먼저 두 이미지가 동일한 공간에 속한다는 점을 이해한 뒤 시각적 단서를 통해공간 구조를 재구성하는 것이다.


Gemini 3 Pro는 학습 공간의 위치를 서쪽으로 잘못 판단했다. 반면 SenseTime의 SenseNova-SI-1.3은 해당 위치를 “북서쪽 코너”로 정확하게 식별해 공간적 논리와 완전히 일치하는 답을 제시했다.


nova4.png


문제 3:  


안경을 쓰지 않은 남성의 시점을 기준으로 옆에 있는 안경을 쓴 남성의 위치를 판단하는 것이다. 이 문제는 참조 좌표계 전환 능력을 평가하는 것으로 모델이 쉽게 관찰자 시점으로 방향을 판단하는 오류를 범할 수 있다. 


Gemini 3 Pro는 이를 잘못 판단해 “오른쪽”을 선택했다. 반면 SenseTime의 SenseNova-SI-1.3은 “왼쪽”이라는 정확한 답을 제시했다.


nova5.png 


문제 4: 


분홍색 병을 기준으로 앞·뒤·왼쪽·오른쪽에서 촬영한 네 장의 사진이 주어지고 네 번째 사진 시점에서 병 왼쪽에 있는 물체를 묻는다. 이 문제는 다중 시점 정보를 통합해 방 전체의 공간 구조를 재구성한 뒤 목표 시점으로 전환해 위치를 판단해야 하는 고난도 과제다. 특히 네 번째 사진에서는 병의 왼쪽이 완전히 시야 사각지대에 놓여 있어 앞선 세 장의 사진에 나타난 창문, 침대, 옷장 등의 단서를 통해 공간 관계를 추론해야 한다. 


Gemini 3 Pro는 “창문과 파란 커튼”을 답으로 선택했지만 SenseNova-SI-1.3은 “옷장과 문”을 정확하게 찾아냈다.


nova6.png


또 다른 문제는 이층 버스와 버스 정류장 장면을 제시한다. 여기서는 “영국 버스는 좌측 통행이므로 정류장도 왼쪽에 있다”는 일반 상식에 의존하는 오류를 피하고 실제 이미지 속 시각 정보를 기반으로 위치를 판단해야 한다. 


Gemini 3 Pro는“왼쪽”을 답으로 선택했지만 SenseNova-SI-1.3은 실제 장면을 정확히 해석해 “오른쪽”이 정답임을 제시했다.

 

공간 지능은 매우 독특한 멀티모달 능력이다.


nova7.png

Core Knowledge Deficits in Multi-Modal Language Models(2025)에 따르면 시점 변환(viewpoint transformation) 과제는 다른 멀티모달 과제들과의 상관성이 낮은 것으로 나타났다.


2025년 머신러닝 분야 최고 권위 학회인 International Conference on Machine Learning(ICML)에 발표된 논문 Core Knowledge Deficits in Multi-Modal Language Models는 흥미로운 사실을 제시한다. 연구에 따르면 시점 변환 능력은 기존 멀티 모달 모델의 다른 능력들과의 상관성이 비정상적으로 낮은 것으로 나타났다. 이는 현재 주류로 사용되는 알고리즘 경로가 공간지능 형성에 효과적인 접근 방식이 아닐 가능성을 시사한다. 또한 이러한 결과는 선도적인 멀티 모달 대형 모델들이 공간지능 관련 과제에서 기대보다 낮은 성능을 보이는 이유를 설명하는 근거가 된다.


nova8.png

Core Knowledge Deficits in Multi-Modal Language Models(2025) 연구에 따르면 모델 규모를 확대하는 것만으로는 시점 변환(Perspective)과제의 성능을 효과적으로 향상시키기 어렵다는 결과가 나타났다.


해당 논문은 또 하나의 특징적인 현상도 지적한다. 바로 공간 지능 영역에서 나타나는 ‘역(逆) 스케일 효과’다. 즉 모델 규모가 커질수록 공간 지능 과제를 더 잘 해결하는 것은 아니라는 점이다.


또한 EASI benchmark platform의 공식 보고서에서도 유사한 분석을 확인할 수 있다. 보고서는 시점 전환 과제가 여전히 가장 어려운 기본 능력 중 하나라고 지적한다. 이러한 결과는 결국 공간 지능을 위해서는 기존과 다른 새로운 학습 패러다임이 필요하다는 점을 시사한다.

 

3D 세계 데이터 부족에서 드러난 공간 지능의 스케일 효과


nova9.png

공간 지능의 핵심인 시점 전환 과제는 세 가지 주요 단계로 나뉜다. 즉, 시점 간 연결을 설정하고, 시점의 움직임을 이해하고, 시점 변화를 상상하는 것이다. 이러한 세 가지 기본 능력을 해결하는 데 초점을 맞춰 방대한 양의 훈련 데이터가 구축된다.


학계에서 사용되는 기존 데이터셋은 대부분 객체 인식과 장면 이해에 초점을 맞추고 있어 모델이 종종 이미지 패턴 매칭 수준에 머무르고 안정적인 공간 이해 능력을 형성하기 어렵다. 이러한 관찰에 따르면 공간 지능 특히 시점 변환 과제를 해결하기 위해서는 단순히 관련 데이터 규모를 늘리는 것만으로는 충분하지 않다.


이 근본적인 문제를 해결하기 위해 연구팀은 시점 변환을 2차원 시각 정보에서 3차원 공간 관계 이해로 나아가는 핵심 연결 고리로 정의했다. 또한 이를 점진적인 능력 단계로 분해해 난이도가 단계적으로 높아지는 세 가지 과제 수준(시점 간 대응 관계 구축, 시점 이동 이해, 시점 변화 상상)으로 구성했다. 이를 중심으로 대규모 이면서도 계층적으로 구조화된 학습 데이터를 구축해 모델이 완전한 공간 이해 능력을 형성하도록 했다.


또한 데이터 규모가 지속적으로 확대되는 과정에서 SenseNova-SI 연구팀은 다양한 다중 시점(multiview) 학술 데이터 자원을 발굴하고 재구성했다. 이를 통해 과거 충분히 활용되지 않았던 여러 데이터의 주석 정보를 시점 변환 학습 데이터로 재활용했다. 예를 들어 MessyTable dataset은 복잡한 객체 구성을 가진 장면을 제공하는 다중 시점 연관 데이터셋으로 서로 다른 시점에서의 객체 일관성 정보와 정확한 카메라 위치·자세 주석을 포함하고 있어 객체 대응 관계 학습과 카메라 이동 추론 능력을 훈련하는 데 활용됐다.


또한 일부 실내 공간 스캔 데이터셋인 CA-1M dataset에는 객체의 방향 정보가 포함된 샘플이 존재하는데 이는 모델이시점 변환과 공간적 상상 능력을 학습하는 데 필요한 희소 데이터를 보완하는 데 활용됐다.


이처럼 서로 다른 데이터 소스를 재구성하고 재활용하는 접근 방식을 통해 대규모이면서도 체계적인 공간 이해 학습 데이터 구축이 가능해졌다.


nova10.png

공간 지능의 스케일 효과… SenseNova-SI, 시점 변환 과제에서 GPT-5 능가


대규모의 고품질 공간 지능 데이터는 SenseNova-SI 연구팀을 통해 결국 공간 지능의 스케일 효과를 실증적으로 확인하는 결과로 이어졌다.


실험 결과 SenseNova-SI의 8B 파라미터 기반 모델은 GPT‑5와 같은 강력한 폐쇄형 모델을 능가하는 성능을 기록했다. 또한 2B 파라미터의 소형 모델 역시 뛰어난 성능을 보였으며 동일한 데이터 규모 조건에서 New York University의 Cambrian‑S와 ByteDance의 VST model 등 7B 파라미터 모델보다 더 높은 성능을 나타냈다.


nova11.png

Ego-Exo4D 데이터셋만을 사용하여 1인칭/3인칭 시점 매칭 모델을 학습시키면 MMSI 2D 미로 탐색 문제에서 성능이 크게 향상될 수 있다(+90.4%)


더 흥미로운 점은 연구 과정에서 지능 창발(emergence)의 초기 징후로 보이는 현상도 관찰됐다는 것이다. 겉보기에는 서로 관련이 없어 보이는 과제들이 실제로는 공통된 기저 능력을 공유하며 함께 발전하는 경향을 보인다는 점이 확인됐다.


또한 시점 변환 과제로 학습된 모델이 심상 재구성이나 종합적 공간 추론과 같은 능력도 동시에 향상시키는 것으로 나타났다. 이는 공간 지능 학습이 여러 고차원 인지 능력의 동시 발전과 연결될 가능성을시사한다.

 

센스타임, 공간 지능 보편화 생태계 구축 주도

 

SenseTime이 SenseNova-SI-1.3 모델을 업그레이드해 공개한 배경에는 최첨단 공간 지능 기술의 장벽을 낮추고 더 많은 개발자와 기업이 이를 활용할 수 있도록 하겠다는 전략이 자리하고 있다.


연구자에게 SenseNova-SI-1.3은 공간 지능 분야에서 데이터 스케일 효과를 검증한 모델이라는 점에서 의미가 크다. 기존 기반 모델과 완전히 호환되면서도 공간 지능 능력에 특화된 강력한 사전학습 모델이자 기준 모델로 활용할 수 있기 때문이다. 실제로 SenseNova-SI는 VSI-Bench, MMSI-Bench 등 주요 공간 지능 벤치마크에 공식 수록됐다. 연구자들은 이를 기반으로 새로운 알고리즘을 설계하거나 추가 학습을 진행해 공간 지능 연구를 인간 수준에 더 가깝게 발전시킬 수 있다.


기업 입장에서도 SenseNova-SI-1.3을 활용하면 다양한 공간 지능 기반 서비스를 빠르게 구현할 수 있다. 이를 통해 연구개발 기간을 단축하고 기술 도입 장벽을 낮추는 효과를 기대할 수 있다.


일반 사용자에게도 변화가 예상된다. 앞으로는 공간 지능 기술이 적용된 제품이 일상생활 곳곳으로 확대될 전망이다. 스마트 가전, 자율주행, 산업용 로봇, 교육용 장비 등 다양한 분야의 제품이 공간 구조와 상황을 더 정확히 이해하고 실제 사용 환경에 맞게 작동하는 지능형 시스템으로 발전할 것으로 기대된다.


nova12.png

구체화(Embodied) 과제를 통해 공간 지능의 중요성 확인


오픈소스 정보 (검색창에 아래 링크를 복사하여 사이트 방문)


SenseNova-SI 모델 패밀리

https://huggingface.co/collections/sensenova/sensenova-si


SenseNova-SI 오픈소스 코드
https://github.com/OpenSenseNova/SenseNova-SI


Discord 커뮤니티 초대 링크
https://discord.gg/WBzH62bk