商湯資訊

商湯開源多模態多任務通用大模型「書生2.5」

2023-03-15

2023年3月15日────商湯科技發佈多模態多任務通用大模型「書生（INTERN）2.5」，在多模態多任務處理能力方面實現多項全新突破，其卓越的圖文跨模態開放任務處理能力可為自動駕駛、機器人等通用場景任務提供高效精準的感知和理解能力支持。「書生（INTERN）」最初版本由商湯科技、上海人工智能實驗室、清華大學、香港中文大學、上海交通大學在2021年11月首次共同發佈，並持續聯合研發。

「書生2.5」多模態多任務通用模型的視覺核心，是由InternImage-G通用視覺大模型作技術支撐。「書生2.5」擁有30億參數，在視覺主流圖像分類數據集ImageNet上，僅基於公開數據便達到了90.1%的Top-1準確率，不僅是目前世上開源模型中準確度最高、規模最大的模型，也是物體檢測標桿數據集COCO中唯一超過65.0 mAP的模型。目前，「書生2.5」多模態通用大模型已在通用視覺開源平台OpenGVLab開源（https://github.com/OpenGVLab/InternImage）。

當前，人工智能技術的發展正面臨著大量跨模態任務的挑戰。此次全新發佈的「書生2.5」致力建構多模態多任務通用模型，可接收處理各種不同模態的輸入，並採用統一的模型架構和參數處理各種不同的任務，促進不同模態和任務之間在表示學習方面的協作，逐步實現通用人工智能領域的融會貫通。

邁向AGI通用人工智能大幅提升通用場景感知和理解能力

「書生2.5」實現了通過文本來定義任務，從而可以靈活地定義不同場景的任務需求，並根據給定視覺圖像和任務的提示性語句，給出相應的指令或作答，進而具備通用場景下的高級感知和複雜問題處理能力，比如圖像描述、視覺問答、視覺推理和文字識別等。

例如在自動駕駛等通用場景下，「書生2.5」可輔助處理各種複雜任務，包括準確地輔助車輛判斷交通信號燈狀態、道路標誌牌等信息，為車輛的決策規劃提供有效信息輸入。

「書生2.5」同時具備人工智能生成內容（AIGC, AI-Generated Content）「以文生圖」的能力，可根據用戶提出的文本創作需求，利用擴散模型生成算法，生成高質量、自然的寫實圖像。例如在自動駕駛技術研發方面，「書生2.5」可以通過生成各類真實的道路交通場景，如繁忙的城市街道、雨天擁擠的車道、馬路上奔跑的狗等，進而訓練自動駕駛系統對Corner Case場景的感知能力上限。