當(dāng)前位置：首頁 > 新聞資訊 > ai智能 > 2024年AI大模型技術(shù)變遷情況回溯：技術(shù)演進(jìn)方向,推動(dòng)機(jī)器人場景應(yīng)用落地,AI應(yīng)用商業(yè)化

2024年AI大模型技術(shù)變遷情況回溯：技術(shù)演進(jìn)方向,推動(dòng)機(jī)器人場景應(yīng)用落地,AI應(yīng)用商業(yè)化

來源：中國移動(dòng)智慧家庭運(yùn)營中心編輯：創(chuàng)澤時(shí)間：2025/1/2 主題：其他 [加盟]

2024 年大模型技術(shù)快速演進(jìn)，相較于 2023 年的大小模型之爭，技術(shù)的進(jìn)步方向逐步向應(yīng)用落地方向傾斜，降低端側(cè)模型部署門檻，縮短模型推理時(shí)延，提升模型交互能力，大模型的發(fā)展迎來了新的變化。本文將從技術(shù)視角梳理 2024 年以來大模型各個(gè)領(lǐng)域發(fā)生的變化，以行業(yè)領(lǐng)先實(shí)踐為佐證，提出大模型技術(shù)演進(jìn)方向。語言大模型發(fā)展迎來新范式，通過強(qiáng)化學(xué)習(xí)優(yōu) 化內(nèi)部思維鏈策略，以提升復(fù)雜邏輯推理能力。多模態(tài)大模型架構(gòu)正向端到端演進(jìn)，決策準(zhǔn)確性和靈敏度提升推動(dòng)機(jī)器人場景應(yīng)用落地。在視頻生成領(lǐng)域，DiTs 架構(gòu)的可擴(kuò)展性優(yōu)勢(shì)顯現(xiàn)，推動(dòng) AI應(yīng)用商業(yè)化。在硬件部署方面，模型壓縮、安全控制等技術(shù)正降低部署門檻。在智能體實(shí)踐方面，垂類大模型開始在智能終端環(huán)境應(yīng)用。在合成數(shù)據(jù)策略方面，自我獎(jiǎng)勵(lì)語言模型生成合成數(shù)據(jù)，試圖打破數(shù)據(jù)瓶頸。

一、語言大模型的新范式：強(qiáng)化學(xué)習(xí)優(yōu)化思維鏈

規(guī)模定律的延伸

在2024年之前，語言大模型的“規(guī)模定律”已經(jīng)得到了業(yè)界的廣泛認(rèn)可。模型參數(shù)的擴(kuò)展、數(shù)據(jù)集質(zhì)量的提升以及人工微調(diào)，使得語言模型展現(xiàn)出了前所未有的泛化能力和通用能力。然而，2024年的技術(shù)進(jìn)步，將這一定律延伸至后訓(xùn)練階段。

OpenAI的o1推理大模型

今年9月，OpenAI公開發(fā)布的o1推理大模型，通過強(qiáng)化學(xué)習(xí)優(yōu)化模型內(nèi)部思維鏈推理邏輯步驟，模擬人的思考過程，加深對(duì)問題的理解程度，從而提升處理復(fù)雜推理任務(wù)的能力。這一技術(shù)突破，標(biāo)志著語言大模型的發(fā)展迎來了新范式。

強(qiáng)化學(xué)習(xí)的威力

通過強(qiáng)化學(xué)習(xí)，模型學(xué)會(huì)了精煉思維鏈并優(yōu)化所用策略，識(shí)別并糾正錯(cuò)誤，將復(fù)雜步驟分解為更簡單的部分，并在當(dāng)前方法無效時(shí)嘗試不同的途徑。這一過程顯著提升了模型的推理能力，在多個(gè)高難度推理基準(zhǔn)測(cè)試中，o1的表現(xiàn)超越了人類專家和GPT-4o，展示了其強(qiáng)大的推理能力和專業(yè)知識(shí)。

二、多模態(tài)大模型：端到端架構(gòu)的演進(jìn)

跨模態(tài)到端到端的轉(zhuǎn)變

過去，多模態(tài)大模型多采用基于語言模型為主干的跨模態(tài)架構(gòu)，通過模態(tài)特定的編碼器轉(zhuǎn)化為統(tǒng)一的向量表示后再輸入語言模型。但這樣的架構(gòu)帶來了任務(wù)響應(yīng)時(shí)間長、模態(tài)間交互細(xì)節(jié)損失的問題。

端到端架構(gòu)的優(yōu)勢(shì)

2024年以來，以GPT-4o、Gemini為代表的多模態(tài)大模型開始使用端到端支持多種模態(tài)統(tǒng)一輸入輸出的模型架構(gòu)。這一架構(gòu)通過簡化模型的輸入接口，減少模態(tài)間的信息損失，提升了模型處理即時(shí)任務(wù)的響應(yīng)時(shí)間。

英偉達(dá)的GR00T項(xiàng)目

在2024GTC大會(huì)上，英偉達(dá)發(fā)布了人形機(jī)器人項(xiàng)目GR00T，基于控制、執(zhí)行和決策三個(gè)層級(jí)分層實(shí)現(xiàn)模型的端到端訓(xùn)練學(xué)習(xí)，通過合并反向反饋得到精準(zhǔn)輸出結(jié)果，大幅提升了機(jī)器人處理復(fù)雜任務(wù)的精度、高效性以及靈活性。

三、視頻生成領(lǐng)域的突破：DiTs架構(gòu)的可擴(kuò)展性

DiTs架構(gòu)的優(yōu)勢(shì)

2024年以來，國內(nèi)外科技大廠發(fā)布的視頻生成模型多以DiTs為基礎(chǔ)，基于Transformer架構(gòu)的擴(kuò)散模型在視頻生成任務(wù)中可擴(kuò)展性優(yōu)勢(shì)凸顯。相較于原先的U-Net卷積網(wǎng)絡(luò)架構(gòu)，Transformer骨干架構(gòu)可以提供基于參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量提升而帶來更優(yōu)越的性能。

OpenAI的Sora視頻生成模型

OpenAI發(fā)布的視頻生成模型Sora基于DiTs架構(gòu)，在生成視頻的像素穩(wěn)定性、前后邏輯連續(xù)性以及信息丟失等方面有大幅提升。Sora在數(shù)據(jù)處理和視頻標(biāo)注領(lǐng)域做了創(chuàng)新，基于視頻編碼器將樣本空間數(shù)據(jù)進(jìn)行時(shí)間空間維度壓縮和Patch化處理，再通過相應(yīng)解碼器實(shí)現(xiàn)隱空間向視頻像素空間的映射，以訓(xùn)練新的視頻壓縮網(wǎng)絡(luò)實(shí)現(xiàn)長視頻生成的能力。

Meta Movie Gen視頻生成模型

Meta Movie Gen視頻生成模型發(fā)布，其在原先視頻生成模型架構(gòu)的基礎(chǔ)上，疊加了一個(gè)13B參數(shù)轉(zhuǎn)換器模型Meta Gen Audio，通過數(shù)百萬個(gè)小時(shí)的音頻參考數(shù)據(jù)的對(duì)比總結(jié)，Meta Gen Audio可精準(zhǔn)匹配聲音和畫面之間的對(duì)應(yīng)關(guān)系，根據(jù)不同情緒和環(huán)境的提示詞，找到與畫面完美契合的音樂。

四、硬件部署實(shí)踐：端云結(jié)合架構(gòu)的創(chuàng)新

蘋果的Apple Intelligence

蘋果在2024年6月發(fā)布的Apple Intelligence為大模型硬件部署實(shí)踐提供了很好的指引。Apple Intelligence采用端云結(jié)合方案，分別在設(shè)備端和服務(wù)器端部署大小語言模型（AFM-on-device和AFM-server），不同應(yīng)用可以通過統(tǒng)一的語義索引、意圖檢測(cè)等工具調(diào)用AFM模型。

量化壓縮疊加適配器架構(gòu)

為保障在端側(cè)設(shè)備上運(yùn)行模型同時(shí)避免精度上損失，蘋果創(chuàng)新推出量化壓縮疊加適配器的架構(gòu)，一方面采用量化壓縮的方法降低模型大小，同時(shí)通過LoRA適配器來恢復(fù)量化模型的精度。

Responsible AI原則

蘋果制定了Responsible AI原則，包括用戶賦能、代表全球、謹(jǐn)慎設(shè)計(jì)、隱私保護(hù)四大原則，被整合到基礎(chǔ)模型開發(fā)的每一個(gè)環(huán)節(jié)中，包括數(shù)據(jù)的收集與處理、模型訓(xùn)練、模型評(píng)估、用戶反饋等。

LLM-in-a-flash技術(shù)

蘋果研發(fā)了LLM-in-a-flash技術(shù)，讓大模型可以不受限于DRAM的限制，在推理時(shí)將參數(shù)加載至閃存中來輔助完成計(jì)算，分擔(dān)存儲(chǔ)壓力，從而降低端側(cè)設(shè)備部署大模型門檻。

附件：2024年AI大模型技術(shù)變遷情況回溯：技術(shù)演進(jìn)方向,推動(dòng)機(jī)器人場景應(yīng)用落地,AI應(yīng)用商業(yè)化

日韩精品导航,失落十三年,亚洲a∨精品一区二区三区下载,91国内在线

2024年AI大模型技術(shù)變遷情況回溯：技術(shù)演進(jìn)方向,推動(dòng)機(jī)器人場景應(yīng)用落地,AI應(yīng)用商業(yè)化

超擬人大模型的情緒價(jià)值體驗(yàn)：八大安全場景對(duì)大模型進(jìn)行針對(duì)性升級(jí)

教育大模型:AI賦能智能教育,塑造未來學(xué)習(xí)新生態(tài),分為通用大模型教育應(yīng)用和教育專有大模型

中國AI+營銷趨勢(shì)洞察與企業(yè)落地建議：成本有效的實(shí)現(xiàn)規(guī)模化擴(kuò)張，提升用戶體驗(yàn)和滿意度

2024AI教育硬件全景報(bào)告：市場規(guī)模將達(dá)到165億元，2028有望接近900億

端側(cè)智能行業(yè)-人工智能重要應(yīng)用產(chǎn)品落地爆發(fā)在即,落地場景包括 AI PC、AI 手機(jī)、AI 可穿戴設(shè)備、AI 智能家居、AI 智能汽車、AI 工業(yè)設(shè)備

2024年中國生成式AI行業(yè)月度觀察報(bào)告技術(shù)深化領(lǐng)域融合持續(xù)增長的AI市場：文心一言月度UV突破2000萬，移動(dòng)端豆包MAU已達(dá)2700萬

2024年AI Agent實(shí)施的明路應(yīng)用實(shí)踐報(bào)告-三個(gè)核心能力進(jìn)行任務(wù)規(guī)劃和問題拆解,場景的智能化解決方案

科研智能（AI4R&D）人工智能驅(qū)動(dòng)的研發(fā)新范式：描繪生態(tài)全景,為制定產(chǎn)業(yè)政策、指導(dǎo)項(xiàng)目布局提供參考

2024AIGC創(chuàng)新應(yīng)用洞察報(bào)告：市場規(guī)模達(dá)到360.6億美金,增長率達(dá)到46.5%

MoE與思維鏈助力大模型技術(shù)路線破局：MoE模型提升效果顯著，擁有人類“慢思考”的特質(zhì)

中國文娛行業(yè)人工智能行業(yè)應(yīng)用發(fā)展圖譜：市場規(guī)模將達(dá)到1.21萬億，側(cè)重IP版權(quán)交易與多元化開發(fā)

在線教育龍頭多鄰國啟示錄商業(yè)模式珠玉在前AI技術(shù)助力突破國內(nèi)在線教育星辰大海，市場規(guī)模已達(dá)到1665.5億美元

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

機(jī)器人底盤

2024年AI大模型技術(shù)變遷情況回溯：技術(shù)演進(jìn)方向,推動(dòng)機(jī)器人場景應(yīng)用落地,AI應(yīng)用商業(yè)化

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

機(jī)器人底盤

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)