創(chuàng)澤機器人 |
CHUANGZE ROBOT |
近幾年,大模型推動人工智能技術(shù)迅猛發(fā)展,極大地拓展了機器 智能的邊界,展現(xiàn)出通用人工智能的“曙光”。如何準確、客觀、全 面衡量當前大模型能力,成為產(chǎn)學研用各界關(guān)注的重要問題。設計合 理的任務、數(shù)據(jù)集和指標,對大模型進行基準測試,是定量評價大模 型技術(shù)水平的主要方式。大模型基準測試不僅可以評估當前技術(shù)水平, 指引未來學術(shù)研究,牽引產(chǎn)品研發(fā)、支撐行業(yè)應用,還可以輔助監(jiān)管 治理,也有利于增進社會公眾對人工智能的正確認知,是促進人工智 能技術(shù)產(chǎn)業(yè)發(fā)展的重要抓手。全球主要學術(shù)機構(gòu)和頭部企業(yè)都十分重 視大模型基準測試,陸續(xù)發(fā)布了一系列評測數(shù)據(jù)集、框架和結(jié)果榜單, 對于推動大模型技術(shù)發(fā)展產(chǎn)生了積極作用。然而,隨著大模型能力不 斷增強和行業(yè)賦能逐漸深入,大模型基準測試體系還需要與時俱進, 不斷完善。
本研究報告首先回顧了大模型基準測試的發(fā)展現(xiàn)狀,對已發(fā)布的 主要大模型評測數(shù)據(jù)集、體系和方法進行了梳理,分析了當前基準測試存在的問題和挑戰(zhàn),提出了一套系統(tǒng)化構(gòu)建大模型基準測試的框架 —— “方升”大模型基準測試體系,介紹了基于“方升”體系初步開 展的大模型評測情況,并對未來大模型基準測試的發(fā)展趨勢進行展望。 面向未來,大模型基準測試仍存在諸多開放性的問題,還需要產(chǎn)學研 各界緊密合作,共同建設大模型基準測試標準,為大模型行業(yè)健康有 序發(fā)展提供有力支撐
人工智能技術(shù)發(fā)展迅速,大模型、RAG、AGENT、 具身智能、 AGI等新概念和新技術(shù)層出不窮。大模型基準測試作為研究較為深入 的領(lǐng)域,將帶動其他新技術(shù)的研究。當前雖然 AGI 仍未有明確的定 義,但針對 AGI 的探索性評測研究已有初步成果。例如微軟發(fā)布論 文《通用人工智能的火花:GPT-4 的早期實驗》,通過數(shù)學、編程、 視覺、醫(yī)學、法律、心理學等復雜度較高的任務證明GPT-4已經(jīng)進入 AGI 的早期階段。北京通用人工智能研究院發(fā)布《通智測試:通用人 工智能具身物理與社會測試評級系統(tǒng)》,提出一種基于能力和價值維 度的 AGI 的評測方法。中國科學院和美國俄亥俄州立大學等先后推 出AGIBench 和MMMU 評測數(shù)據(jù)集,從多模態(tài)、多學科、多粒度等 維度衡量大模型距離AGI 的差距。雖然當前AGI 的發(fā)展仍然處于初 期階段,但通過基準測試的研究,可以為未來 AGI 的發(fā)展方向提供 思路,并對AGI 的能力進行監(jiān)控以指引其正向發(fā)展。
機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 紫外線消毒機器人 消毒機器人價格 展廳機器人 服務機器人底盤 核酸采樣機器人 智能配送機器人 導覽機器人 |