日韩精品导航,失落十三年,亚洲a∨精品一区二区三区下载,91国内在线


首頁
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當(dāng)前位置:首頁 > 新聞資訊 > 機(jī)器人知識(shí) > 京東姚霆:推理能力,正是多模態(tài)技術(shù)未來亟需突破的瓶頸  
 

京東姚霆:推理能力,正是多模態(tài)技術(shù)未來亟需突破的瓶頸

來源:AI科技大本營      編輯:創(chuàng)澤      時(shí)間:2020/6/14      主題:其他   [加盟]
打開熟悉的購物 App,在搜索欄輸入想要買的東西,有時(shí)候你會(huì)發(fā)現(xiàn)文字不能很好地匹配你想要找的東西,用一張圖片來搜索更簡單直接。這種“以圖搜圖”的操作基本上所有電商平臺(tái)現(xiàn)在都支持了,效果也還不錯(cuò)。以京東 App 為例,筆者在搜索框輸入下圖,得到結(jié)果如右圖所示,是筆者想要的多肉植物沒錯(cuò)。


用起來很方便,但你可能不知道的是,這簡單的搜索動(dòng)作背后,卻是復(fù)雜的計(jì)算機(jī)視覺技術(shù)在提供支持,甚至用到了圖像內(nèi)容、文本和高層語義屬性等多個(gè)模態(tài)下的信息融合,來實(shí)現(xiàn)精準(zhǔn)的以圖搜圖。

當(dāng)然,拍照購只是京東電商的眾多應(yīng)用之一,跨模態(tài)技術(shù)應(yīng)用還有很多,比如推薦和信息流廣告,內(nèi)容審核也可以結(jié)合海量的商品圖像與對(duì)應(yīng)的商品語義屬性,學(xué)習(xí)圖像語義特征表達(dá)。另外,我們?cè)谑褂镁〇| App 時(shí)可能都有過被智能客服接待的經(jīng)歷,這背后的技術(shù),就是在任務(wù)驅(qū)動(dòng)型的多輪對(duì)話中融入視覺到語言的跨模態(tài)轉(zhuǎn)換技術(shù),讓智能客服可以自動(dòng)地對(duì)用戶上傳的圖片或視頻進(jìn)行自動(dòng)應(yīng)答。

在物流場景,京東也成功地將視頻分析技術(shù)應(yīng)用于物流園區(qū)作業(yè)人員行為規(guī)范管理中,特別是針對(duì)監(jiān)控視頻的站點(diǎn)環(huán)境、攝像頭角度和成像條件差異性較大等難點(diǎn),京東采用了自研的基于局部——全局傳播網(wǎng)絡(luò)的通用視頻特征以及高效視頻事件時(shí)序檢測框架,并融入了跨域?qū)W習(xí)技術(shù),實(shí)現(xiàn)了同時(shí)在幾百個(gè)不同的站點(diǎn)中全天候的作業(yè)人員操作行為實(shí)時(shí)檢測,有效地管理了物流作業(yè)人員在各個(gè)站點(diǎn)的工作規(guī)范。


可能會(huì)有人好奇,這背后的多模態(tài)技術(shù)在京東電商和物流場景中具體是如何實(shí)現(xiàn)的,多模態(tài)技術(shù)在電商和物流中還有哪些熱門的落地應(yīng)用,多模態(tài)技術(shù)本身當(dāng)前發(fā)展到哪一步了,目前發(fā)展遇到了哪些瓶頸,未來又將向哪些方向發(fā)展,等等。

帶著這些問題,CSDN 邀請(qǐng)到了京東 AI 研究院算法科學(xué)家姚霆博士,來為我們答疑解惑。


師從多媒體領(lǐng)域領(lǐng)軍人物Chong-Wah Ngo

姚霆本科和碩士畢業(yè)于中國科學(xué)技術(shù)大學(xué),博士就讀于香港城市大學(xué),師從 ACM 杰出科學(xué)家,也是多媒體領(lǐng)域的領(lǐng)軍人物之一 Chong-Wah Ngo 教授。博士畢業(yè)后,他加入微軟亞洲研究院任職研究員,主研計(jì)算機(jī)視覺。2018 年 6 月,姚霆加入京東 AI 研究院,擔(dān)任算法科學(xué)家,負(fù)責(zé)領(lǐng)導(dǎo)京東視覺與多媒體實(shí)驗(yàn)室的視覺內(nèi)容分析團(tuán)隊(duì),研究方向主要關(guān)注視頻內(nèi)容理解、視覺與語言,以及大規(guī)模多媒體內(nèi)容搜索。

姚霆在 CVPR/ICCV/ECCV/AAAI/SIGIR/ACM MM/TIP/TMM 等頂級(jí)會(huì)議/期刊上已發(fā)表論文 50 余篇(引用率 3600 余次),現(xiàn)任多媒體領(lǐng)域頂級(jí)學(xué)術(shù)期刊 IEEE Transactions on Multimedia 期刊編委。值得一提的是,姚霆還是 P3D ResNet(視頻特征學(xué)習(xí))、LSTM-A(圖像語義屬性)、GCN-LSTM(圖像物體關(guān)系)、HIP(圖像分層解析)、X-LAN(高階注意力機(jī)制) 的作者和計(jì)算機(jī)視覺領(lǐng)域重要數(shù)據(jù)集MSR-VTT(視頻描述生成) 的創(chuàng)建人,曾帶領(lǐng)團(tuán)隊(duì)獲得多項(xiàng)視頻內(nèi)容理解和跨域?qū)W習(xí)競賽冠軍,是當(dāng)之無愧的學(xué)術(shù)帶頭人。

實(shí)際上,姚霆不僅在學(xué)術(shù)上成果頗豐,在京東也有更多機(jī)會(huì)將實(shí)驗(yàn)室的研究成果落地。

在這里,AI 研究院計(jì)算機(jī)視覺和多媒體實(shí)驗(yàn)室主要有 4 個(gè)研究方向:人臉計(jì)算、人體分析、圖像理解和視頻分析,而姚霆所帶領(lǐng)的視覺內(nèi)容分析團(tuán)隊(duì)主要關(guān)注兩個(gè)方向,即視頻內(nèi)容理解和視覺與語言。前者包括從底層的針對(duì)視頻理解的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),視頻特征表達(dá)學(xué)習(xí),到視頻動(dòng)作/事件識(shí)別,動(dòng)作定位和檢測,視頻語義分割,視頻描述生成等全棧式的分析維度,后者則集中在圖像/視頻的語義特征學(xué)習(xí),視覺與語言的特征交互,以及跨模態(tài)的預(yù)訓(xùn)練課題。

以學(xué)術(shù)研究帶動(dòng)產(chǎn)業(yè)落地,正是姚霆所帶領(lǐng)的團(tuán)隊(duì)要做的事,在多模態(tài)技術(shù)研究上,這支團(tuán)隊(duì)一直嘗試多模態(tài)領(lǐng)域有所突破,比如近期該實(shí)驗(yàn)室在視覺與語言方向提出了一個(gè)全新的高階注意力機(jī)制(X-linear Attention Block),首次將其融入至圖像描述生成任務(wù)中,主要的技術(shù)創(chuàng)新是打破了傳統(tǒng)注意力機(jī)制中一階的特征交互限制,通過所設(shè)計(jì)的高階注意力機(jī)制可以靈活地捕捉不同模態(tài)間高階乃至無窮階的特征交互,大大提升了視覺到語言的跨模態(tài)轉(zhuǎn)換性能。這個(gè)注意力機(jī)制在 COCO 在線測試集上達(dá)到世界領(lǐng)先的水平,并被 CVPR 2020 接收。

在視頻內(nèi)容理解課題上,實(shí)驗(yàn)室在 2019 年提出了局部——全局傳播(LGD)網(wǎng)絡(luò)。這種全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)另辟蹊徑地在傳統(tǒng)三維卷積網(wǎng)絡(luò)基礎(chǔ)上引入了對(duì)全局信息的獨(dú)立建模,提升了視頻基礎(chǔ)特征的描述能力。此外,不同于現(xiàn)有的由人工設(shè)定的視頻網(wǎng)絡(luò)結(jié)構(gòu),實(shí)驗(yàn)室還創(chuàng)新性地提出了基于可微分結(jié)構(gòu)搜索的視頻網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)搜索方法(SDAS),從而在視頻數(shù)據(jù)上讓機(jī)器自動(dòng)地學(xué)習(xí)和設(shè)計(jì)針對(duì)視頻內(nèi)容理解的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)也可以在搜索過程中加入對(duì)于運(yùn)行效率的約束,以定制化地搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。


多模態(tài)表示學(xué)習(xí)、模態(tài)轉(zhuǎn)化等“老大難”問題怎么解決?

保持技術(shù)創(chuàng)新的過程中,姚霆團(tuán)隊(duì)很清楚地意識(shí)到,多模態(tài)在技術(shù)層面一定繞不過一些難以解決的“老大難”問題,比如多模態(tài)表示學(xué)習(xí)、模態(tài)轉(zhuǎn)化、多模態(tài)融合、跨模態(tài)分析、跨域?qū)W習(xí),就是幾個(gè)典型的挑戰(zhàn)。針對(duì)這些問題,京東其實(shí)提出了一些有效的方法,也許對(duì)相關(guān)領(lǐng)域的研究人員和學(xué)習(xí)者有一定借鑒意義。

在多模態(tài)表示和跨模態(tài)轉(zhuǎn)化方向,姚霆以視覺和語言方面舉例,2017 年在圖像特征表達(dá)方面融入了高層語義特征,以增強(qiáng)所生成語言描述和圖像的語義一致性;2018 年則更進(jìn)一步挖掘了圖像中物體和物體間的語義空間關(guān)系,構(gòu)建出物體間語義和空間的關(guān)系圖,從而促進(jìn)對(duì)圖像內(nèi)容的深層次理解。然而,盡管物體間關(guān)系圖有效地引入了物體間關(guān)系的語義信息,但依然無法充分表達(dá)整個(gè)圖像所包含的豐富語義,所以在 2019 年,京東又提出了一種多層次的樹形語義結(jié)構(gòu),它囊括了從語義分割后的物體實(shí)例到檢測后的物體區(qū)域再到整個(gè)圖像的不同層級(jí)之間的語義信息。通過這樣一種樹形結(jié)構(gòu),可以有效地對(duì)物體不同層次間語義關(guān)聯(lián)性進(jìn)行編碼,從而最終生成更為精準(zhǔn)的描述文本。

這一系列工作的研究脈絡(luò)基本都是圍繞著在跨模態(tài)轉(zhuǎn)化過程中不斷強(qiáng)調(diào)對(duì)視覺內(nèi)容的理解,而語言建模部分都是采用通用的 RNN 或 Transformer 類似的結(jié)構(gòu)來實(shí)現(xiàn)。不同于這一研究脈絡(luò),在今年京東最新的工作中,他們?cè)谏衔闹刑岬降母唠A注意力機(jī)制則逐漸聚焦于視覺內(nèi)容和語言建模這兩者之間的特征交互,希望可以通過不同模態(tài)間基于高階的信息交互,讓兩者成為相互促進(jìn)的整體。

跨域?qū)W習(xí)也是京東另一個(gè)持續(xù)關(guān)注的研究方向。姚霆解釋到,因?yàn)榭缬驅(qū)W習(xí)可以很好地提升模型在不同場景下的泛化能力,并且無需更多目標(biāo)場景下的人工標(biāo)注就能實(shí)現(xiàn)模型在不同域下的遷移,這與京東在各種實(shí)際場景中快速進(jìn)行模型落地的需求吻合。所以,針對(duì)跨域?qū)W習(xí),京東在廣度和深度上都有一些研究。

首先在廣度上,京東研究了如何在圖像整體特征級(jí)別、局部區(qū)域級(jí)別和像素級(jí)別進(jìn)行跨域?qū)W習(xí),使得這些跨域?qū)W習(xí)技術(shù)可以無縫地適用于圖像識(shí)別、物體檢測和語義分割這幾大任務(wù),同時(shí)脫離開特征級(jí)別的跨域遷移,還結(jié)合生成式對(duì)抗網(wǎng)絡(luò),直接在原始圖像、視頻上進(jìn)行無監(jiān)督跨域轉(zhuǎn)換。

在深度上,實(shí)驗(yàn)室也對(duì)跨域?qū)W習(xí)框架進(jìn)行了一些變革與創(chuàng)新,比如 2019 年提出了一個(gè)基于原型網(wǎng)絡(luò)的跨域?qū)W習(xí)框架(TPN,Transferrable Prototypical Networks),它可以將特征學(xué)習(xí)和目標(biāo)任務(wù)的學(xué)習(xí)融為一體,有效地提升跨域?qū)W習(xí)的性能,此外,實(shí)驗(yàn)室還從理論上證明了自主學(xué)習(xí)(self-learning)對(duì)于模型跨域轉(zhuǎn)換的促進(jìn)作用。在今年的 CVPR 上,實(shí)驗(yàn)室利用無監(jiān)督聚類技術(shù)深挖目標(biāo)域的內(nèi)在數(shù)據(jù)結(jié)構(gòu),并利用這一信息更好地指導(dǎo)跨域?qū)W習(xí),在主流的數(shù)據(jù)集 Office 和 VisDA的封閉集和開放集上均取得了 SOTA 效果,其中在 VisDA 2017 數(shù)據(jù)集上達(dá)到 87.2% 的準(zhǔn)確率。。


多模態(tài)熱門應(yīng)用之視頻分析

再進(jìn)一步聊到多模態(tài)技術(shù)在應(yīng)用上的進(jìn)展,姚霆提到了視頻分析技術(shù)實(shí)用性非常強(qiáng)的熱門研究方向。京東當(dāng)然也洞察到這個(gè)有潛力的方向,在視頻分析技術(shù)的各大方向均有自研的獨(dú)創(chuàng)性工作。

其中最基本是視頻特征表達(dá)的學(xué)習(xí),目標(biāo)在于從原始視頻數(shù)據(jù)中學(xué)習(xí)包含高層語義信息的特征向量。為此,姚霆團(tuán)隊(duì)設(shè)計(jì)了幾種獨(dú)特的三維卷積網(wǎng)絡(luò)模型,比如偽三維卷積神經(jīng)網(wǎng)絡(luò)和局部——全局傳播網(wǎng)絡(luò)。在這些特征的基礎(chǔ)上,實(shí)驗(yàn)室還搭建了包括視頻事件檢測、視頻語義分割和視頻動(dòng)作檢測的視頻理解系統(tǒng),實(shí)現(xiàn)對(duì)視頻內(nèi)容的全方位分析。與此同時(shí),在每一個(gè)視頻分析的具體應(yīng)用中,實(shí)驗(yàn)室也都沉淀了相應(yīng)的技術(shù)創(chuàng)新,比如針對(duì)視頻事件檢測提出了使用時(shí)域高斯函數(shù)對(duì)事件發(fā)生時(shí)間段進(jìn)行預(yù)測的方法,同時(shí)也設(shè)計(jì)了基于網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)搜索的語義分割方法,用以達(dá)成實(shí)時(shí)的視頻語義分割;針對(duì)視頻動(dòng)作檢測,提出了同時(shí)對(duì)長短時(shí)關(guān)聯(lián)性進(jìn)行建模的方法,也獲得了在該領(lǐng)域領(lǐng)先的性能。


多模態(tài)熱門應(yīng)用之視頻分析之視頻內(nèi)容理解

視頻內(nèi)容理解同樣是一個(gè)熱門的多模態(tài)研究方向。姚霆預(yù)測,在未來,視頻內(nèi)容理解有兩個(gè)較為重要的發(fā)展趨勢,即無標(biāo)注或弱標(biāo)注視頻數(shù)據(jù)的使用,以及針對(duì)視頻特質(zhì)的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)。

首先,數(shù)據(jù)是深度學(xué)習(xí)訓(xùn)練的基礎(chǔ),同時(shí)也是發(fā)展視頻內(nèi)容理解技術(shù)的必備條件。目前視頻內(nèi)容理解系統(tǒng)的訓(xùn)練通常依靠大量的人工標(biāo)注視頻數(shù)據(jù),這就不可避免地需要耗費(fèi)時(shí)間和人力。如果可以充分利用互聯(lián)網(wǎng)上海量的無標(biāo)注或弱標(biāo)注視頻數(shù)據(jù)來進(jìn)行訓(xùn)練,將會(huì)突破視頻數(shù)據(jù)來源的限制,全面提升視頻內(nèi)容理解的性能。因此,無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)與弱監(jiān)督學(xué)習(xí)都將成為視頻內(nèi)容理解的新趨勢。

另一個(gè)方向則是針對(duì)視頻特質(zhì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),目前視頻內(nèi)容理解中所使用的網(wǎng)絡(luò)結(jié)構(gòu)通常與圖像領(lǐng)域的網(wǎng)絡(luò)結(jié)構(gòu)高度耦合,它們并不是真正為視頻而生的網(wǎng)絡(luò)結(jié)構(gòu),缺乏對(duì)視頻數(shù)據(jù)獨(dú)到且深刻的見解。所以,如何針對(duì)視頻數(shù)據(jù)來設(shè)計(jì)全新一代的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),也是視頻內(nèi)容理解領(lǐng)域一個(gè)重要的發(fā)展趨勢。

針對(duì)跨模態(tài)分析領(lǐng)域,盡管視覺內(nèi)容的理解可以隨著各種高性能網(wǎng)絡(luò)的設(shè)計(jì)和深層語義的挖掘不斷升級(jí),視覺和語言間交互的方式也已經(jīng)從傳統(tǒng)的一階注意力機(jī)制演化到可捕捉高階乃至無窮階信息交互的注意力機(jī)制,但視覺與語言的技術(shù)發(fā)展依然逃脫不了深度學(xué)習(xí)對(duì)于訓(xùn)練數(shù)據(jù)的貪婪。

因此,如何能在海量的弱監(jiān)督數(shù)據(jù)上學(xué)習(xí)更具泛化能力的視覺和語言之間本質(zhì)聯(lián)系,將是下一個(gè)研究的熱潮。而一旦在這些海量的弱監(jiān)督甚至于無監(jiān)督數(shù)據(jù)上通過預(yù)訓(xùn)練學(xué)習(xí)到了蘊(yùn)含有多模態(tài)間本質(zhì)聯(lián)系的模型,便可賦予它在各種視覺與語言任務(wù)上的生命力;诖耍覀冏罱苍跀(shù)以億計(jì)的網(wǎng)頁上持續(xù)不斷地自動(dòng)抓取視頻——語言的多模態(tài)數(shù)據(jù),構(gòu)建了視頻——語言領(lǐng)域首個(gè)弱監(jiān)督的大規(guī)模數(shù)據(jù)集(Auto-captions on GIF dataset),并正在 ACM Multimedia 2020 上舉辦跨模態(tài)預(yù)訓(xùn)練的競賽,其目的還是希望能為跨模態(tài)預(yù)訓(xùn)練技術(shù)的未來發(fā)展準(zhǔn)備好一個(gè)充分與完備的平臺(tái)。

電商、物流+多模態(tài)發(fā)展空間大,突破口在哪?

盡管電商和物流業(yè)中,計(jì)算機(jī)視覺和多媒體技術(shù)已經(jīng)有很多落地應(yīng)用了,比如拍照購、內(nèi)容審核和物流園區(qū)作業(yè)人員行為規(guī)范管理等,但在姚霆看來,縱觀整個(gè)電商和物流體系,依然有一部分業(yè)務(wù)需要人工檢驗(yàn)確認(rèn)步驟,還遠(yuǎn)遠(yuǎn)沒有達(dá)到計(jì)算機(jī)視覺和多媒體技術(shù)完全自主的階段。簡言之,當(dāng)前電商、物流場景與這些技術(shù)的結(jié)合還處于局部智能化的階段,整個(gè)產(chǎn)業(yè)鏈并沒有得到顛覆性的革新。

“我們希望,隨著整個(gè)電商平臺(tái)和供應(yīng)鏈的不斷數(shù)字化,加上智能配送系統(tǒng)的持續(xù)發(fā)展,未來的電商、物流業(yè)務(wù)可以從計(jì)算機(jī)視覺和多媒體技術(shù)輔助的方式,逐漸轉(zhuǎn)變成為由這些技術(shù)完全主導(dǎo)的機(jī)器自助,乃至多機(jī)協(xié)同,在電商與物流的每一個(gè)環(huán)節(jié)上都盡可能地使用智能的方式進(jìn)行全局調(diào)度,尋求更加高效智能的供應(yīng)鏈。這也正是我們目前正在建設(shè)的智能供應(yīng)鏈開放平臺(tái)的愿景,即依托人工智能技術(shù)與供應(yīng)鏈系統(tǒng),打造智能供應(yīng)鏈產(chǎn)業(yè)生態(tài),賦能現(xiàn)代供應(yīng)鏈的生產(chǎn)、流通、消費(fèi)三大場景!彪m然電商和物流業(yè)中多模態(tài)技術(shù)的應(yīng)用還不夠成熟,但姚霆十分看好這一領(lǐng)域的發(fā)展空間。

多模態(tài)技術(shù)被很多人視為未來獲得真正的機(jī)器智能的途徑之一,對(duì)于這一觀點(diǎn),姚霆表示不能完全認(rèn)同。他認(rèn)為,首先需要肯定的是,相比于只側(cè)重單一模態(tài)的技術(shù)(比如圖像識(shí)別、動(dòng)作檢測、機(jī)器翻譯等),多模態(tài)技術(shù)一定距離真正的機(jī)器智能更近一些,因?yàn)闄C(jī)器智能的終極目的是模擬人的智能,而人之本身對(duì)于這個(gè)世界的認(rèn)識(shí)一定是視聽說的結(jié)合,這就對(duì)應(yīng)著多模態(tài)技術(shù)的融合。因此,對(duì)于機(jī)器而言,只有綜合來源于不同模態(tài)的知識(shí)才能對(duì)這個(gè)真實(shí)的世界實(shí)現(xiàn)全面綜合的理解,這也正是達(dá)到真正人類級(jí)別的智能的基石之一。但是,當(dāng)前的多模態(tài)技術(shù)還遠(yuǎn)遠(yuǎn)未達(dá)到能通向真正機(jī)器智能的水平,因?yàn)樗狈α巳说闹悄苤凶顬殛P(guān)鍵的推理能力,這也正是多模態(tài)技術(shù)在未來亟需突破的一個(gè)瓶頸。

多模態(tài)研究歷史不長,至今沒有顛覆性的成果出現(xiàn),要想獲得進(jìn)一步發(fā)展,多模態(tài)技術(shù)研究將來要對(duì)準(zhǔn)哪些突破口?

對(duì)此,姚霆也有自己的看法,“目前大部分多模態(tài)技術(shù)走的還是深度學(xué)習(xí)中拿大量的已標(biāo)注多模態(tài)數(shù)據(jù)來喂深度模型的老路子,即數(shù)據(jù)驅(qū)動(dòng)模型的感知計(jì)算,這就導(dǎo)致訓(xùn)練得到的多模態(tài)模型不具備人腦一樣的推理能力,其在真實(shí)場景下的泛化能力也大大受限。如果能在現(xiàn)有的多模態(tài)技術(shù)中融入專家、常識(shí)知識(shí)(例如結(jié)合知識(shí)圖譜),則能利用數(shù)據(jù)與知識(shí)的聯(lián)合驅(qū)動(dòng)讓多模態(tài)技術(shù)更為“智能”。同時(shí),也可以在多模態(tài)模型訓(xùn)練的過程中引入多種自監(jiān)督的推理型任務(wù),“強(qiáng)迫”多模態(tài)模型進(jìn)行推理和思考,這也能在一定程度上讓機(jī)器去慢慢學(xué)會(huì)推理!

此外,姚霆還指出,當(dāng)前的多模態(tài)技術(shù)還是屬于狹隘的單任務(wù)學(xué)習(xí),整個(gè)訓(xùn)練和測試的過程都是在封閉和靜態(tài)的環(huán)境下進(jìn)行,這就和真實(shí)世界中開放動(dòng)態(tài)的應(yīng)用場景存在一定的差異性。為了彌補(bǔ)這一差異,我們可以在訓(xùn)練過程不斷結(jié)合真實(shí)世界數(shù)據(jù)的回流來持續(xù)升級(jí)多媒體模型,甚至于可以利用元學(xué)習(xí)的方式來讓模型自己學(xué)會(huì)如何認(rèn)知新的多模態(tài)知識(shí),實(shí)現(xiàn)適用于開放動(dòng)態(tài)場景并具備終生學(xué)習(xí)能力的多模態(tài)模型。





利用時(shí)序信息提升遮擋行人檢測準(zhǔn)確度

Tube Feature Aggregation Network(TFAN)新方法,即利用時(shí)序信息來輔助當(dāng)前幀的遮擋行人檢測,目前該方法已在 Caltech 和 NightOwls 兩個(gè)數(shù)據(jù)集取得了業(yè)界領(lǐng)先的準(zhǔn)確率

基于網(wǎng)格圖特征的琵琶指法自動(dòng)識(shí)別

根據(jù)各種指法的具體特點(diǎn),對(duì)時(shí)頻網(wǎng)格圖、時(shí)域網(wǎng)格圖、頻域網(wǎng)格圖劃分出若干個(gè)不同的計(jì)算區(qū)域,并以每個(gè)計(jì)算區(qū)域的均值與標(biāo)準(zhǔn)差作為指法自動(dòng)識(shí)別的特征使用,用于基于機(jī)器學(xué)習(xí)方法的指法自動(dòng)識(shí)別

知識(shí)圖譜在個(gè)性化推薦領(lǐng)域的研究進(jìn)展及應(yīng)用

新加坡國立大學(xué)NExT中心的王翔博士分析了知識(shí)圖譜在個(gè)性化推薦領(lǐng)域的應(yīng)用背景,并詳細(xì)介紹了課題組在個(gè)性化推薦中的相關(guān)研究技術(shù)和進(jìn)展,包括基于路徑、基于表征學(xué)習(xí)、基于圖神經(jīng)網(wǎng)絡(luò)等知識(shí)圖譜在推薦系統(tǒng)中的融合技術(shù)

重構(gòu)ncnn,騰訊優(yōu)圖開源新一代移動(dòng)端推理框架TNN

新一代移動(dòng)端深度學(xué)習(xí)推理框架TNN,通過底層技術(shù)優(yōu)化實(shí)現(xiàn)在多個(gè)不同平臺(tái)的輕量部署落地,性能優(yōu)異、簡單易用。騰訊方面稱,基于TNN,開發(fā)者能夠輕松將深度學(xué)習(xí)算法移植到手機(jī)端高效的執(zhí)行,開發(fā)出人工智能 App,真正將 AI 帶到指尖

達(dá)摩院金榕教授113頁P(yáng)PT詳解達(dá)摩院在NLP、語音和CV上的進(jìn)展與應(yīng)用實(shí)踐

達(dá)摩院金榕教授介紹了語音、自然語言處理、計(jì)算機(jī)視覺三大核心AI技術(shù)的關(guān)鍵進(jìn)展,并就AI技術(shù)在在實(shí)際應(yīng)用中的關(guān)鍵挑戰(zhàn),以及達(dá)摩院應(yīng)對(duì)挑戰(zhàn)的創(chuàng)新實(shí)踐進(jìn)行了解讀

OpenAI發(fā)布了有史以來最強(qiáng)的NLP預(yù)訓(xùn)練模型GPT-3

2020年5月底OpenAI發(fā)布了有史以來最強(qiáng)的NLP預(yù)訓(xùn)練模型GPT-3,最大的GPT-3模型參數(shù)達(dá)到了1750億個(gè)參數(shù)

多尺度圖卷積神經(jīng)網(wǎng)絡(luò):有效統(tǒng)一三維形狀離散化特征表示

解決了傳統(tǒng)圖卷積神經(jīng)網(wǎng)絡(luò)中圖節(jié)點(diǎn)學(xué)習(xí)到的特征對(duì)圖分辨率和連接關(guān)系敏感的問題,可以實(shí)現(xiàn)在低分辨率的三維形狀上學(xué)習(xí)特征,在高低分辨率形狀之上進(jìn)行測試,并且保持不同分辨率特征的一致性

履約時(shí)間預(yù)估:如何讓外賣更快送達(dá)

外賣履約時(shí)間預(yù)估模型,預(yù)估的是從用戶下單開始到騎手將餐品送達(dá)用戶手中所花的時(shí)間

性能超越最新序列推薦模型,華為諾亞方舟提出記憶增強(qiáng)的圖神經(jīng)網(wǎng)絡(luò)

記憶增強(qiáng)的圖神經(jīng)網(wǎng)絡(luò)對(duì)短期的商品語境信息建模,并使用共享的記憶網(wǎng)絡(luò)來捕捉商品之間的長期依賴,對(duì)多個(gè)模型進(jìn)行了對(duì)比,在Top-K序列推薦中效果極佳

如何創(chuàng)造可信的AI,這里有馬庫斯的11條建議

馬庫斯系統(tǒng)性地闡述了對(duì)當(dāng)前AI研究界的批判,從認(rèn)識(shí)科學(xué)領(lǐng)域中針對(duì)性地給出了11條可執(zhí)行的建議

用于微創(chuàng)手術(shù)的觸覺傳感器(二)

MIS 和RMIS觸覺傳感器最常用的傳感原理是基于電氣的傳感器。這些觸覺傳感器進(jìn)一步分為壓阻型、壓電型和電容型傳感器

用于微創(chuàng)手術(shù)的觸覺傳感器

應(yīng)用于MIS的觸覺傳感器主要是基于電學(xué)或光學(xué)原理開發(fā)的,應(yīng)該是小尺寸和圓柱形的,可在導(dǎo)管的管身或尖端集成
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機(jī)器人未來3-5年能夠?qū)崿F(xiàn)產(chǎn)業(yè)化的方
» 導(dǎo)診服務(wù)機(jī)器人上崗門診大廳 助力醫(yī)院智慧
» 山東省青島市政府辦公廳發(fā)布《數(shù)字青島20
» 關(guān)于印發(fā)《青海省支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展政策措
» 全屋無主燈智能化規(guī)范
» 微波雷達(dá)傳感技術(shù)室內(nèi)照明應(yīng)用規(guī)范
» 人工智能研發(fā)運(yùn)營體系(ML0ps)實(shí)踐指
» 四驅(qū)四轉(zhuǎn)移動(dòng)機(jī)器人運(yùn)動(dòng)模型及應(yīng)用分析
» 國內(nèi)細(xì)分賽道企業(yè)在 AIGC 各應(yīng)用場景
» 國內(nèi)科技大廠布局生成式 AI,未來有望借
» AIGC領(lǐng)域相關(guān)初創(chuàng)公司及業(yè)務(wù)場景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業(yè)化空間前景廣闊應(yīng)用場景豐富
» AI 內(nèi)容創(chuàng)作成本大幅降低且耗時(shí)更短 優(yōu)
 
== 機(jī)器人推薦 ==
 
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤

機(jī)器人底盤

 

商用機(jī)器人  Disinfection Robot   展廳機(jī)器人  智能垃圾站  輪式機(jī)器人底盤  迎賓機(jī)器人  移動(dòng)機(jī)器人底盤  講解機(jī)器人  紫外線消毒機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  服務(wù)機(jī)器人底盤  智能送餐機(jī)器人  霧化消毒機(jī)  機(jī)器人OEM代工廠  消毒機(jī)器人排名  智能配送機(jī)器人  圖書館機(jī)器人  導(dǎo)引機(jī)器人  移動(dòng)消毒機(jī)器人  導(dǎo)診機(jī)器人  迎賓接待機(jī)器人  前臺(tái)機(jī)器人  導(dǎo)覽機(jī)器人  酒店送物機(jī)器人  云跡科技潤機(jī)器人  云跡酒店機(jī)器人  智能導(dǎo)診機(jī)器人 
版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司     中國運(yùn)營中心:北京·清華科技園九號(hào)樓5層     中國生產(chǎn)中心:山東日照太原路71號(hào)
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728