商湯(00020)今日發布及開源原生理解生成統一模型日日新 SenseNova U1系列。 該系列基於商湯於今年三月自主研發的 NEO-unify 架構,在單一模型架構上統一了多模態理解、推理與生成。SenseNova U1系列模型實現語言和視覺訊息的高效協同,讓理解與生成能力同步增强,既保持語義豐富度,亦維持像素級視覺保真度,可用於生成複雜的訊息圖(infographics),亦是業內首個實現連續性圖文創作輸出的模型。 在邏輯推理與空間智能等範疇,SenseNova U1 系列亦能深度理解物理世界的複雜佈局與精細關係,未來可為機器人提供具身大腦,於單一模型閉環內完成環境感知、邏輯推演到精準任務執行的全流程,為技術與產業發展提供重要基礎與關鍵引擎。 Neo-unify 架構突破此限制,捨棄了主流的拼接方式,去除了 VE 和變分自編碼器(VAE),重新構建了統一的表徵空間。建基於 Neo-unify 的 SenseNova U1,猶如一個同時掌握多項技能的人,無需先看懂圖像,再翻譯成文字、交給另一個系統理解,而是在同一套「思考方式」中直接處理圖像、文字等不同訊息; 圖像和語言不再由兩套系統「接力」,而是在同一個大腦中自然融合,可以減少訊息損耗,也能在相對精簡的模型規模下,高效實現更强的多模態理解與生成能力。 (JJ)
<匯港通訊>
