Keyupdates:
1、ChatGPT和以前GPT大模型的区别:ChatGPT是基于GPT3.5的基础模型框架,核心变化在于通过真实的调用数据以及人类反馈的强化学习进行训练。
2、国内企业与ChatGPT的差距:百度、华为等头部厂商都有大模型,百度文心模型参数量已经达到2600亿,从技术能力上国内相比专家判断比chatGPT约晚1-2年,OpenAI第一梯队,Google第二梯队,百度第三梯队。从数据、算力、模型的维度上,主要是差在模型环节,包括清洗、标注、模型结构设计、训练推理的技术积累。
3、训练成本昂贵:GPT3.0离线训练成本高达1200万美元,大模型重新训练成本达400万美元,都是租用微软的计算资源,成本与训练数据量成比例,增加GPU也可提升训练速度,中小厂商或将无法承担高昂的大模型自研成本。
4、模型训练所依赖的高性能芯片被美国卡脖子的解决方案:1)采用国内自研GPU;2)用分布式CPU替代,部分大厂应用采用分布式CPU的方式进行训练。
5、未来商业模式:OpenAI或将对外输出模型能力,国内百度等企业也会跟进,国内应用软件企业未来可能采用OpenAI或百度等厂商的AI模型作为基础能力。
专家发言:
首先介绍一下ChatGPT,ChatGPT去年出来后,在全球AI界、创投界掀起热烈的讨论潮。很多人想了解ChatGPT具体是做什么的,我们可以理解为通用的问答系统,发布方是OpenAI公司,OpenAI是业内比较知名的人工智能研究机构。ChatGPT模型从18年开始迭代为GPT1,到19年有GPT2,到20年有GPT3等等,通过一系列的模型迭代,在今年推出了ChatGPT。这个模型是基于GPT3的模型框架,GPT3的参数量级非常大,有1700多亿,所以这个模型出来后效果比较好,大家体验下来发现功能强大,在业界受欢迎。
很多人好奇,能力跟之前比具体有哪些进步?ChatGPT模型关键的能力来自于三个方面:1)前身是InstructGPT,通过真实的调用数据以及反馈学习,ChatGPT下载在模型结构、学习方式和InstructGPT基本上是完全一样的,InstructGPT基于GPT3.5的强大能力,整个模型通过OpenAI一个系列的迭代,有很多技术积累;2)ChatGPT主要的3个学习阶段包括,从OpenAI调用数据集中采取AI训练编写答案,第一阶段通过监督学习方法训练GPT3版本,然后用比较型的数据训练一个reward模型,用到一些对比学习和reward model,第三阶段是强化学习里面的PPO算法和奖励模型的语言生成策略;3)跟之前的很多模型比,单纯用监督学习或无监督学习以及强化学习的端到端形式,现在分成多阶段来做,整体模型的训练开销非常大,这个模型有1700亿参数,训练一次要400多万美元的成本,对资源的使用比较大。
Q&A环节
Q:分享一下国内头部玩家,比如百度、阿里、腾讯、字节、讯飞、商汤等目前AI大模型的参数量,以及与ChatGPT的差距在哪里?我们用多久能追上?
A:国内这样的大模型非常多,百度、华为都有大模型。百度文心模型参数量已经达到2600亿,不逊于GPT3.0。百度今年宣称3、4月份推出类似于ChatGPT的模型,可能首期的应用场景会跟搜索结合,会形成ChatGPT、搜索的双引擎结合模式,会发布demo出来,整体看,模型的参数量级比GPT3.0大了50%。
我们国内的发展水平是不是和ChatGPT达到同等程度?这个地方可以看一下OpenAI发展的技术史,动态看18年后一到两年时间国内的技术追赶比较快,提出比较好的改进模型,但真正的差距拉开是20年中,也就是GPT3.0出来后,当时可能很多人觉得GPT3.0不仅是技术,体现了AI模型的发展新理念,这个时候我们跟OpenAI的差距拉得比较远,因为OpenAI对这一块有技术的独到见解,也领先了国外的Google,大概Google比OpenAI差了半年到一年的时间,国内差了两年的时间。所以梯队上,OpenAI排第一梯队,Google排第二梯队,百度排第三梯队,差距不是那么大。动态看事情的发展,百度还是有机会做得更好。从百度发布的模型看,内测版还没有开放出来,我们体验下来发现效果不错,模型参数量级看上去和GPT3.0是不差的,所以目前看上去我们相对比较有期待。
国内:比如字节跳动也在做大模型,一方面是应用场景,接下来可能有一些商业化。这个模型不是一两个月就能做出来,需要时间积累,随着后面AIGC、ChatGPT的深度发展,里面会形成越来越多的商业化内容,对于头部公司来说,做前沿的技术积累,有利于形成先发优势。所以像字节跳动、阿里都在往这方面做。阿里、腾讯不会复制ChatGPT模式,而是做一些与AIGC相关的产业化。阿里现在往智能客服系统、AI+营销做,使得商品介绍、广告介绍不需要人工生成文案,而是通过AI生成内容。头条也用AI生成内容,因为头条是以内容生产、分发为主要业务的公司。
总结看我们跟国外的区别是,模型大小上我们很多公司可以媲美,从技术角度或者paper角度,可能我们跟他们的差距可能有一到两年的距离。
Q:OpenAI GPT3.0 20年推出来,现在推出了ChatGPT之后市场大火。ChatGPT相对于GPT3.0有什么实质性的改变,造成市场认可度高?热度会不会突然下去?
A:现在ChatGPT做了会话机器人,不是IT圈子里面的人也可能去试用,使得人群受众变广,其实基本的模型、训练方式,两者之间没有多大区别,而是在GPT3.0基础上做了特定领域的数据,拿过来做训练得到特定领域的模型。所以总结下来不是之前的GPT3.0做得不好。
现在比较热,热度会不会过两个月下去?坦率说,从我的认知来讲,短暂时间内热度不会下去。从业界很多企业对这个事情的反馈来看,比如Google、百度相继在发力。Google已经列为红色预警,包括将来对搜索引擎的颠覆,有很高的优先级;百度也是因为搜索引擎,对这块非常上心,3月份会推出新的模型,到时候看市场的效果。所以从大公司的反应来看,这个事情可能不是噱头,而是新的技术革命的发展。甚至有夸张的说法,业内一些专家认为这是PC互联网之后的又一个里程碑式的发展。包括我们自己体验下来,ChatGPT的功能确实是很智能,而且随着OpenAI的研发,接下里朝着AGI方向的发展的更大规模的模型,我们有理由期待这个事情不是一波流的,而是从现在开始持续形成大的影响,并且扩散出去。
Q:从数据、算法到算力,国内有没有可能做出ChatGPT这种有商业化价值的模型?听到一种说法,国内号称模型参数高,但效果特别差?我们中国独特的市场有没有办法培育出比较好的产品出来?
A:从GPT模型的pipeline来看,有数据、算力、模型。数据上,国内是不缺的,百度、今日头条有大量用户的真实场景的数据。算力角度,一些大厂比如百度的文心模型达到2000多亿参数量,虽然训练成本非常高,但大公司承担得起。
我们真正缺乏的是技术积累,包括数据怎么做清洗、标注以及模型的结构设计,怎么做训练、推理,这个地方很多都是需要经验和积累。包括里面的很多算法是OpenAI和deepmind提出来的,作为原作者的理解能力是我们远不及的。20年GPT3.0出现的时候,我们跟国外的差距就拉大了,当时很少人觉察到GPT3.0不仅是一项技术,那个时候我们开始逐步落后,坦率讲国内这块技术方面落后于国外,而数据、算力不会存在瓶颈。
总结下问题,我们跟OpenAI的距离确实存在,重点的技术瓶颈可能在这块的模型上面,这也是国内的弱点,所以我们需要投入更多的人力、资源逐渐弥补上,百度投入也非常多,按照这种速度下去,也许不用花两年的时间,我们能追上步伐。
Q:大模型为什么会产生?百度文心模型为什么不如ChatGPT?
A:涉及到模型参数的量级,以及数据的量级。比方说算力提升10倍,那么把模型参数做更大,或用更多数据来训练。如果我们单变量来看这个事情,数据变大,模型效果变好,或者单纯把模型参数变多,模型效果也更好。如果算力提升10倍,这两个怎么平衡?光把模型参数变大,不一定会效果好,数据集的质量也要有保证。单纯的模型大小不足以刻画模型效果,还跟数据集的大小、质量有关。第二点,模型之间存在差异。百度、OpenAI模型的本身结构不一样,参数量大不代表模型效果好,因为不一定学到通用能力。百度没有公布模型的细节,我们不太了解是怎么做的,而单纯通过参数量级比较,不大能够看出效果的差别。百度对这块细节公布不多,数据集大小、模型的框架结构没有特别公布,所以不大了解整体模型的效果,以及跟OpenAI技术的差距有多大,我们只是单纯从参数量大小判断,不太好判断。
我们很好奇一件事情,比如一个模型学了很多东西,东西学到哪里去了?这也是一个问题。大家可能会去想,那么通用的东西存到哪里去了。这一块目前做研究的同行非常多。目前一个主流观点是模型主体结构用transformer结构,更多做一些知识的存储,包括可能涉及到Key value的形式,涉及到知识检索的能力,但里面的细节就需要比较多的时间来解释。
Q:OpenAI大模型今后是否提供给个人或机构使用?国产办公软件底层的人工智能,会不会用微软OpenAI
A:微软产品中各种场景都会接入,其中2b的业务比较有影响,比如订阅office软件的企业的员工可以享受智能化服务。国内软件目前没有这个功能,为了面对微软的竞争,未来都会往这个方向发展。国内其他公司如百度也会通过输入AI能力来进行2b的商业化布局,所以对国内的企业来说也可能会有很多选择,可以选择接入openAI或者Google海外公司,也可以接入百度等国内公司提供的AI模型,市场竞争看模型的整体效果和价格。此外也涉及法律法规的问题,目前AI底层能力的使用这方面还没有特别的限制,还是法律盲区,未来是否能够顺利引入微软OpenAI的算法模型,还要有待未来立法的规范。但是AI模型未来接入应用场景是大势所趋,具体接入产品看情况。
Q:AI是否会大幅降低人工,未来AI为底层生态之后,之后在传统软件的参与者会减少?国内大模型做的更好之后,小模型的企业存在的必要性还有吗?
A:有些行业的工作人员确实有可能被替代,内容生产的,AIGC的占比会大幅提升,挤占投稿的量级,AI也帮助提高了生产力,帮助投稿的质量和效率提升。
NLP领域的会存在这样趋势,小模型的厂商会慢慢被竞争掉,中小厂商没有办法去创造大模型,接入2b的服务,没有办法自研,这种模式在将来会存在。
Q:训练中采用的硬件设施通过买或者租的形式,每次训练迭代成本怎么计算?买和租各要多少钱?国内那种方式做大模型比较多?
A:GPT3.0涉及1700亿参数,内存达300+GB,训练过程耗费1200+万美金,此外离线训练后,访问请求来来的线上服务也需要开销。基础设施都是微软的计算系统进行,没有自建。训练过程中会出现bug,但是都没有敢重新训练这个模型,因为成本太高了,所以没有做及时的修补,披露出的数据是重新训练一次要400+万美金。
Q:据说chatGPT是40个人员做强化学习,为什么能在人员投入这么少的情况下,在GPT3上做出chatGPT?核心能力是什么?
A:ChatGPT跟GPT3的主要区别,额外finetune增加了训练的数据集,增加了通过人工标注的样本,所以40个人是不准确,实际上还有大量标注的团队,40个人可能只是用来判断回答是否符合标准。从算法的角度来说,GPT3.0和ChatGPT在模型上没有太大区别,只是加了专属领域的数据集进行训练。
Q:替换人工的问题,传闻数字媒体已经被替代了,实际情况如何?GPT3.0专注于专业领域,是否比chatGPT更快一些?
A:AIGC各家都开始鼓吹并开始投入,到2023为止,网络内容20%通过AIGC生成的,网络编辑是很容易替代的,比如摘要、新闻等。头条这边也在逐步用AI生成投稿,这块趋势是通过AI生成内容会逐步增加,机构预测2025年AIGC内容占比达30%+,量级很大,增长也很快,能够帮助大幅提高生产力。
Q:和其他AI模型相比,对GPU的需求区别?
A:GPT3.0对GPU算力要求很大,训练过程采用400+个GPU。未来对GPU需求越来越大,价格变得贵+产业链供应能否跟上需求是重要的限制条件。这也导致创业公司会更难做相关的事情,可能更多集中在大厂做这些事情。
Q:chatGPT训练数据截止到2021,但是对话内容也可以涉及最新的信息,怎么结合在一起?
A:模型具有泛化能力,模型可以做到这一块,通过历史数据训练,不可避免有时间限制,2023年的问题可能在模型里面找不见,但是其他字段能够在模型找到联系,模型可以实现预测。同时也跟数据分布有关,历史数据的函数关系,已经能够刻画绝大部分关系了,用新的数据训练,可能也会有类似的分布。
Q:训练的频次怎么界定,是否要每隔一段时间后更新数据集,对大模型重新训练?
A:比较快的是用finetune的形式,但是引入新的数据集可能会导致灾难性的遗忘问题,这就是LM模型的难点问题,也是主流的研究方向。我们也可以累计到一定程度进行重新训练,但是这样成本高,未来LM模型的训练方式也是会持续优化,如何不断加入新的训练数据,同时又不导致原有模型性能下降。
Q:ChatGPT训练依赖高性能的芯片,中美竞争情况下,被卡脖子的情况?
A:大模型依赖GPU的芯片,如果对GPU芯片封锁,会有比较大影响,解决方式是有国内自研的芯片,二是我们大量用GPU进行训练,供应能力跟不上需求,也可以用分布式的CPU进行替代,会慢一些,字节这边是分布式的CPU用的比较多,包括主流的搜索推荐等需求。
Q:模型训练+租金是1200万美元,离线训练的阶段需要多长时间?
A:依赖于GPU的投入量,从而加快训练速度,之前提到中美在这个领域的差距有一年半到两年是指达到整体的效果所需要的时间。实际人员整体投入应该很大,OpenAI光论文中研究人员都有30多人,还有大量的工程师等,百度这边投入也有200-300人。新增数据训练的费用,要看增加的训练数据的量级,费用和数据量是成比例的
Q:首选百度还是bing?预测哪个效果更好?
A:不太好判断,需要产品发布后比较。
Q:未来两年的角度,中美AI领域的差距是否会因为GPU芯片禁运等原因差距拉大?
A:GPT4.0今年会发布,性能会有进一步提升,差距拉大是有可能的。
Q:chatGPT类的模型是否对知乎这种内容平台起到更大的作用?
A:知乎本身就是问答系统,问题的回答有可能通过chatGPT来实现,甚至比人工效果更好,包括程序debug的角度也可以朝着自动化靠拢。
Q:只有大的平台能做大模型,知乎能自己研发吗?
A:涉及到商业模式的问题,知乎这类的企业可能不需要自己研发,未来可能百度等头部厂商会对外开放这种能力,其他企业直接采购使用就可以。