从大数据的角度看ChatGPT

发布时间:2024-10-28 20:03:03 浏览次数:4626

ChatGPT引起业界的极大关注,作为大数据技术研究人员,更希望从大数据的角度来看待ChatGPT,毕竟在大数据驱动的人工智能时代,此类大模型没有大数据,就如同机器没有电一样。

根据OpenAI的解释,ChatGPT 是InstructGPT的兄弟模型,两者非常相似,不同之处仅在于训练模型的数据量。目前关于InstructGPT的技术文档比ChatGPT多一些,因此,我们从InstructGPT文档中关于数据部分的描述可以看看ChatGPT。关于ChatGPT、InstructGPT和GPT-3的关系及技术差别见本文最后,这里先将模型的训练数据,包括互联网大数据和对话相关的数据集。下面分别介绍数据集、处理方法、以及爬虫作用。

互联网大数据及处理

模型最主要的数据是互联网大数据,是来Common Crawl 的部分数据,共1万亿个词汇、570G,覆盖了2016-2019年间的互联网文本数据,包括HTML、word、pdf等等各类型。这些数据可通过亚马逊的云计算服务进行访问,据说只需25美元就可以设置一个亚马逊帐户获取这些抓取数据。从页面语言来看,最多的是英文,共有15亿个页面(根据2022年某个月抓取的页面统计)。截至2021年12月,我国网页数量为3350亿个,2021年比2020年增加195亿个页面,每个月新增加16.2亿,因此Common Crawl 收录的中文页面大概不超过总数的10%。除此以外,还有来自英文Wikipedia和基于互联网的两个图书库(具体未知)。

从大数据的角度看ChatGPT

从这里,我们也可以看出,由于训练数据将近50%是英文,InstructGPT在经过多层模型学习后,最终也可能学习到一些所谓“价值观”的高层特征,因此在新的AI时代 文化安全更加富有挑战性。

ChatGPT对CommonCrawl数据集进行了两个主要的处理,即 低质量页面过滤、 页面相似性去重,以避免过拟合。这也是采用互联网大数据进行机器学习不可少的步骤。页面质量过滤时,采用的是机器学习方法。选择WebText作为高质量文档类,训练一个文档质量分类器(逻辑回归分类器+Spark的标准切分和HashingTF作为特征表示),训练好的分类器用于对CommonCrawl的文档进行质量过滤。页面去重时,使用和该质量分类器相同的文档特征表示,利用Spark的MinHashLSH进行文档相似性计算,大概排除了10%的相似页面,有利于减小相似文档导致的模型过拟合,以及降低模型训练复杂度。

支持对话的相关数据集

GPT-3有很强的上下文表示能力,但缺乏用户交互行为的学习。InstructGPT模型引入了强化学习和监督学习来 理解用户意图,正是由于有了很好的意图理解能力,我们和ChatGPT的对话才能显得自如。相应的支持训练数据主要有:

(1) SFT数据集:由标注人员对用户输入提示行为进行标注,共13K个训练提示,该数据集用于微调GPT-3,采用监督学习方法Supervised fine-tuning (SFT)。

(2) RM数据集:标注者对给定输入的预期输出进行排序,共33K个记录,数据集用于训练奖励模型Reward modeling (RM)以预测人类想要的输出。

(3) PPO数据集:没有标注,用于RLHF(reinforcementlearning from human feedback,从人类反馈中获得的强化学习)微调。


从大数据的角度看ChatGPT

正是由于这些数据集的引入,使得ChatGPT在多轮会话中,能够有效地理解我们的意图,这点倒 是AI一个很大的进步。这里我们也可以看到在AI时代标注之类的劳动密集型工作留给人类来做,按此趋势人类大脑退化不是没有可能的,哈哈~

InstructGPT、GPT-2、ChatGPT关系介绍

InstructGPT是OpenAI于2022年初发布的语言模型,可以看作是一个经过微调的新版本GPT-3,它的新在于可以尽量减少有害的、不真实的和有偏差的输出。吸取了Microsoft 的Tay在使用来自 Twitter 的开放数据进行训练后出现的种族倾向错误。这个是 人工智能安全的视角,在信息化进入智能化后,安全升级为第一要位, 没有安全也就没有AI应用,自动驾驶就是很好的例子。当然目前ChatGPT这个架构,还很 容易受到数据投毒攻击,后续有空我再写一篇人工智能安全视角下的ChatGPT。

这个模型比GPT-3小了100多倍,仅有13亿个参数,比GPT-2还少。与之前各类语言模型不同的是,ChatGPT 是为对话构建的大型语言模型,也可以称之为对话语言模型吧,因此该模型的设计目标之一是能够让模型知道人类的意图。因此,主要技术是通过结合监督学习+从人类反馈中获得的强化学习(RLHF,reinforcementlearning from human feedback),提高GPT-3的输出质量。

爬虫的作用

尽管目前ChatGPT还是利用他人爬虫数据集,但是作为一个独立成长的AI系统,将来免不了自己采集,否则难于跟上用户变化。虽然进入了 AIGC时代,但是 UGC仍然长期存在,否组用AIGC去训练AI,那就相当于自己拉的si自己吃了,最终免不了病态。当然并非否定AIGC,它作为一种辅助数据增强的手段还是非常受到大家的欢迎。

从这个角度看它和搜索引擎有一定相似地方,才会有很多人认为它是搜索引擎的增强或者将来要代替搜索引擎了。搜索引擎只是将爬虫抓来的页面提取、解析后进行逆向索引,然后存储关键词和页面的对应关系即可为用户提供匹配服务,而ChatGPT技术手段要更深刻很多了,语义理解、大数据技术、监督学习、强化学习以及意图理解等等。不过搜索引擎公司所拥有的页面数据比ChatGPT所使用的大数据集要大很多,将来自己定制一个对话语言模型是很有基础的,希望不久baidu能出品。

AA1ryu6Y.jpg



本文来自互联网大数据处理技术与应用公众号)

评论 0

温馨提示 ×
商品已成功加入购物车!
购物车共 0 件商品
去购物车结算
微信 ×

打开微信,点击底部的“发现”

使用“扫一扫”即可将网页分享至朋友圈

链接 ×
复制