보도자료

NEO-unify: 엔드투엔드 멀티모달 이해·생성을 위한 네이티브 통합 아키텍처

2026-03-06

현재 멀티 모달 인공지능 아키텍처의 한계


오랫동안 멀티 모달 연구 분야에서는 하나의 기본적인 구조가 사실상 표준처럼 자리 잡아 왔다. 즉 Vision Encode (VE) 가 시각 정보를 인식하고 이해하는 역할을 담당하고 Variational Autoencoder (VAE) 가 콘텐츠 생성 기능을 맡는 방식이다. 최근 일부 연구에서는 이러한 구조를 개선하기 위해 공유 인코더를 구축하려는 시도가 이어지고 있다. 그러나 이러한 절충 방식은 종종 새로운 구조적 설계상의 트레이드오프를 발생시키는 한계를 드러내고 있다.


이 같은 문제의식 속에서 연구의 출발점을 제1원리(First Principles) 로 되돌릴 필요가 있다는 목소리가 나온다. 즉 모

델이 중간 표현을 거치지 않고 픽셀 자체와 텍스트 자체 등 원시 입력을 직접 처리하는 통합 모델 구조를 구축해야 한다는 접근이다. 이에 SenseTime 은 Nanyang Technological University 와 공동으로 새로운 아키텍처 패러다임 ‘NEO-unify(프리뷰)’ 를 제안했다. 


NEO-unify는 네이티브 기반의 통합형 엔드투엔드 멀티모달 모델 아키텍처로 기존의 시각 표현 방식에 대한 논쟁을 넘어서는 동시에 사전학습 기반의 구조적 한계와 스케일링 법칙의 병목 문제에서도 벗어나는 것을 목표로 한다. 가장 주목할 점은 기존 멀티 모달 모델의 핵심 구성 요소로 여겨져 왔던 VE와 VAE가 모두 필요하지 않다는 점이다.


연구진은 현재 모델의 규모를 지속적으로 확장하며 반복적인 성능 개선 작업을 진행하고 있으며 향후 더 많은 모델과 오픈소스연구 성과를 순차적으로 공개할 계획이라고 밝혔다.


NEO-unify 네이티브 통합 아키텍처 새로운 패러다임


unify1.png


NEO-unify는 진정한 의미의 엔드투엔드 통합 프레임워크로 나아가는 첫 시도다. 이 모델은 거의 손실이 없는 정보 입력으로부터 직접 학습하며 모델 자체가 내부 표현 공간을 형성하도록 설계됐다.


먼저 이미지의 입력과 출력을 하나의 체계로 통합하기 위해 준(準)무손실 시각 인터페이스를 도입했다. 이를 통해 이미지 데이터를 동일한 표현 방식으로 처리할 수 있도록 했다. 또한 Mixture-of-Transformer( MoT) 구조를 채택해 이해와 생성 기능이 하나의 모델 구조 안에서 협력적으로 작동하도록 설계했다. 이 구조는 기존처럼 이해 모델과 생성 모델을 분리하는 방식이 아니라 동일한 아키텍처에서 두 기능이 동시에 수행되도록 하는 것이 특징이다.


마지막으로 통합 학습 프레임워크를 통해 멀티 모달 공동 학습을 구현했다. 텍스트와 시각 데이터를 각각 다른 방식으로 최적화하면서도 하나의 모델 안에서 학습이 이뤄지도록 설계했다.


모델 성능


  1.  정량적 결과 분석


unify2.png

unify3.png


2. 이미지 효과


unify4.png

unify5.png


기술적 발견

 

1.     인코더 없는 설계, 추상적 의미와 세밀한 표현을 동시에 유지

 

[이미지 재구성 과제]


이전 연구 NEO(Diao et al., ICLR 2026)는 네이티브 엔드투엔드 모델 역시 풍부한 의미적 표현을 학습할 수 있음을 보여준 바 있다. 이를 바탕으로 추가 실험을 진행한 결과 흥미로운 현상이 관찰됐다. 이해 분기를 동결한 상태에서도 독립적인 생성 분기가 표현공간으로부터 정보를 추출해 세밀한 시각적 디테일을 복원할 수 있다는 점이다.


이러한 발견을 기반으로 NEO-unify(2B) 모델을 학습했다. 초기 9만 스텝의 사전 학습 이후 모델은 MS COCO 2017 데이터셋에서 PSNR 31.56, SSIM 0.85를 기록했다. 비교 대상으로 사용된 Flux VAE는 각각 PSNR 32.65, SSIM 0.91의 성능을 보였다. 이 결과는 사전 학습된 VE나 VAE에 의존하지 않더라도 준무손실에 가까운 원생 입력 방식만으로도 고품질 의미 이해와 픽셀 수준의 세밀한 정보 보존을 동시에 달성할 수 있음을 시사한다.


외부 영역 이미지 재구성 (2B NEO-unify with frozen understanding branch):



 unify6.png


[이미지 편집]


이러한 발견을 바탕으로 추가적인 실험을 진행했다. NEO-unify는 모든 조건 컨텍스트를 이해 경로로 전달하고 생성 경로가 새로운 이미지를 직접 생성하는 구조를 채택한다.


이해 분기를 동결한 상태에서도 NEO-unify(2B)는 여전히 강력한 이미지 편집 성능을 보여준다. 동시에 토큰 효율성도 크게 향상됐다.


공개된 텍스트-투-이미지(T2I) 및 이미지 편집 데이터셋을 활용해 약 6만 스텝의 혼합 학습을 진행한 결과 이해 분기를 동결한 상태에서도 ImgEdit 벤치마크에서 3.32점을 기록했다.


소규모 데이터 검증 (2B NEO-unify, 분기 동결 이해)


unify7.png


ImgEdit 프롬프트 유효성 검사(2B NEO-unify, 고정된 이해 분기 포함)


unify8.png



2. 인코더 없는 설계, MoT 백본과의 시너지…내재적 충돌 최소화

 

사전 학습된 이해 분기와 생성 분기를 기반으로 NEO-unify는 동일한 중간 학습(MT) 및 지도 미세조정(SFT) 데이터 소스를 사용해 두 분기를 공동 학습했다. 데이터 비율과 손실 가중치를 비교적 낮게 설정한 조건에서도 이해 능력은 안정적으로 유지됐고 생성 성능은 더 빠르게 수렴하는 결과를 보였다. 두 기능은 MoT 백본 구조 안에서 함께 진화했으며 이 과정에서 이해와 생성 사이의 내재적 충돌은 매우 낮은 수준으로 유지됐다.


unify9.png



3.     인코더 없는 아키텍처, 더 높은 데이터 학습 효율 입증

 

또한 먼저 web-scale 사전 학습을 진행한 뒤 다양하고 고품질의 데이터 코퍼스를 기반으로 중간 학습(MT)과 지도 미세조정(SFT)을 순차적으로 수행했다. 그 결과 NEO-unify는 Bagel model과 비교했을 때 더 높은 데이터 학습 효율을 보여줬다. 더 적은 학습 토큰을 사용하고도 더 우수한 성능을 달성한 것이다.


unify10.png


향후 전망


이번 연구는 단순한 모델 아키텍처 실험을 넘어 차세대 지능 형태로 나아가는 중요한 단계로 평가된다.

  • 인지와 생성이 결합된 폐루프 구조

  • 전 모달 추론

  • 시각 추론

  • 공간 지능

  • 세계 모델


새로운 기술 로드맵도 제시되고 있다.


미래의 모델은 더 이상 서로 다른 모달리티 사이를 단순히 변환하는 방식으로 작동하지 않는다. 대신 모달리티를 넘어 원생적으로 사고할 수 있는 구조로 발전하게 된다. 멀티 모달 AI 역시 단순히 서로 다른 시스템을 연결하는 수준을 넘어 처음부터 분리되지 않은 하나의 통합 지능체를 구축하는 방향으로 나아가고 있다. 그리고 필요한 능력들은 이 통합된 시스템 내부에서 자연스럽게 emerge하게 된다.