预训练大模型是什么 目前阶段大模型产业的特征是什么?

来源:星际派

预训练大模型是什么?

所谓的预训练大模型,是指在大规模宽泛数据上进行训练的基础模型。它抓住了深度学习算法数据越多模型鲁棒性越强的基础特点,对模型进行暴力地“数据投喂”。经过大规模数据的预训练后,模型可以适应更多种类、更为复杂的下游任务,从而最终获得更好的智能体验。

大规模预训练模型,其实并不是一种技术路径上的创新,而是更接近把握技术特征之后的工程创新。大模型之路被广泛认可,开始于谷歌在 2018 年 10 跃发布 BERT。它利用 BooksCorpus 和维基百科的大规模数据进行模型训练,在 11 个下游任务上刷新了当时的业界纪录。

我们可以将大规模预训练模型理解为一种“预制菜”。既然用户自己烹饪的难度太高,费工费火,那就不妨由商家先行预制。用户将菜买回后加热一下,加入自己喜欢的调料就能上桌食用。大模型的思路也是如此,它通过上游进行模型预训练,下游进行任务微调的方式来使更多产业能给应用到效果好、质量高的 AI 模型。

目前阶段大模型产业的特征是什么?

目前阶段,大模型产业的特征是那些直接对标 GPT-3 的大模型项目依旧占据主流,或者说并没有给出太多有说服力的超越价值。同时,新的大模型技术思路与产业转型思路也已经开始出现。这正是白垩纪的特点:恐龙和哺乳动物共处一地,而新生物种正期待着更多变化到来。

关键词: 维基百科 大规模数据 模型训练 基础模型

推荐

直播更多》

关闭

资讯更多》

焦点