2020年5月底OpenAI發(fā)布了有史以來最強的NLP預(yù)訓(xùn)練模型GPT-3,最大的GPT-3模型參數(shù)達(dá)到了1750億個參數(shù)。論文《Language Models are Few-Shot Learners》長達(dá)74頁已發(fā)布在arXiv。
有網(wǎng)友估算最大的GPT-3模型大小大約有700G,這個大小即使OpenAI公開模型,我們一般的電腦也無法使用。一般需要使用分布式集群才能把這個模型跑起來。雖然OpenAI沒有公布論文的花費,不過有網(wǎng)友估計這篇論文大約花費了上千萬美元用于模型訓(xùn)練。
如此驚人的模型在模型的設(shè)計上和訓(xùn)練上有什么特別之處嗎?答案是沒有。作者表示GPT-3的模型架構(gòu)跟GPT-2是一樣的,只是使用了更多的模型參數(shù)。模型訓(xùn)練也跟GPT-2是一樣的,使用預(yù)測下一個詞的方式來訓(xùn)練語言模型,只不過GPT-3訓(xùn)練時使用了更多的數(shù)據(jù)。
既然這樣,那這只怪獸特別之處是什么?GPT-3論文的核心在于下圖:
商用機器人 Disinfection Robot 展廳機器人 智能垃圾站 輪式機器人底盤 迎賓機器人 移動機器人底盤 講解機器人 紫外線消毒機器人 大屏機器人 霧化消毒機器人 服務(wù)機器人底盤 智能送餐機器人 霧化消毒機 機器人OEM代工廠 消毒機器人排名 智能配送機器人 圖書館機器人 導(dǎo)引機器人 移動消毒機器人 導(dǎo)診機器人 迎賓接待機器人 前臺機器人 導(dǎo)覽機器人 酒店送物機器人 云跡科技潤機器人 云跡酒店機器人 智能導(dǎo)診機器人 |