“GPT-4去年练习完，4.5差不多预备好了，GPT-5应该正在做”-今日必看

“GPT-4去年练习完，4.5差不多预备好了，GPT-5应该正在做”

来源：每天一首音乐发布时间：2023-03-18 16:31

·“OpenAI三位高管都对这个世界有比较强烈的主张，而且整个机构有信奉和方向感、定力。方法论是坚持暴力美学和系统主义，文化是把AI做成产品，而不是技术。人才观很简朴，就是能动手的研究员，精晓算法的工程师。”

·“我们当时和他们交流的时候，他们觉得GPT-3.5是他们60分的产品，GPT-4和GPT-4.5可能是80分或100分，他们自己则在做120分的事情。”

“GPT-4是去年8月练习完的，GPT-4.5差不多也应该预备好了，他们现在应该在做GPT-5。我们当时在硅谷和OpenAI的人交流时，他们觉得GPT-3.5、ChatGPT是他们60分的产品，GPT-4和GPT-4.5可能是80分或100分，他们自己在做120分的事情。我们之前还一直都瞄着ChatGPT去做，所以仍是需要加紧追赶的步伐。”3月15日，北京智源人工智能研究院健康计算研究中央技术负责人黄文灏在“未来已来”GPT与AGI人工智能论坛上谈到在硅谷的见闻。

黄文灏以为，GPT-4的开发机构OpenAI现在拥有的一些核心能力，好比可以猜测未来模型能到什么样的水平，好比怎么把视觉和语言用同一的方法表示，或者怎么同时用1万张卡做练习，这些是目前中国研发团队还很缺乏的能力。

微软大中华区人工智能与IoT总监李冕（Stanley Li）在论坛上透露，微软专门为OpenAI构建了技术架构，“我们大概用了1万张V100显卡、二十几万颗CPU基础的算力做调度，组合成一台超级计算机。”

该论坛由天风证券海外团队举办，邀请大模型、算力、语音、数字人、Web 3.0、科学领域的龙头公司及AI技术大咖共同分享。澎湃科技（www.thepaper.cn）根据嘉宾现场讲话收拾整顿以下要点，但愿能回答目前业界迫切关心的题目：这场技术变革毕竟分量几何？我们又该怎样应对？

GPT-4最值得关注的更新

北京智源人工智能研究院健康计算研究中央技术负责人黄文灏。黄文灏（北京智源人工智能研究院健康计算研究中央技术负责人）：第一是多模态理解能力，我们会看到它在部门场景zero-shot（零样本学习）的能力超过了之前的SOTA（State-of-the-art，目前最高水平），这在图片和文字领域是比较重大的突破。

第二是把图片和文字用相似的方式进行输入，这在搜索领域是比较重要的突破，未来模型有做得更大的可能性。

第三，比较重要的是上下文窗口，我之前看到天生回答的文本长度可以达到32000个Token（每1000个Token约为750个单词），这也是比较重要的突破。之前GPT大概是4000的长度，这个需要有6倍的算力。

第四是推理能力强盛，律师职业资格考试可以考到前10%，之前GPT-3.5大概是后10%。美国生物学的奥赛大概能做到前1%的水平。现在在ChatGPT PLUS试用时，可能体感没有特别显著，由于我们使用GPT-3.5或ChatGPT的任务，还没有到特别复杂的程度。但是实际上，GPT-4处理复杂任务的能力会得到大幅晋升。一位比较闻名的研究员在Twitter上写，大家觉得GPT-4的重要程度可能会比GPT-3更高，由于GPT-3告诉大家一个模型可以做多个任务，但是GPT-4告诉大家模型在许多能力上已经可以和人类相媲美或超过人类了。

第五，这个我之前跟OpenAI的人聊的时候大概也知道，他们可以猜测模型的部门能力。这实在是一个很重要的事情，也就是说参数目和数据量在增大的过程中，OpenAI可以用很小的参数、很少的数据知道，在把数据加到多大以后，loss（现实题目抽象成类凸优化题目后，函数的最小值）会怎么走，这个对练习模型有很大意义，而且数据和计算能力都可以有3-4个数量级的晋升，大家都觉得未来的模型能力还会有很大晋升。

第六，OpenAI的人说他们实现了整个深度学习的技术栈，设计了一个超级计算机，大概1万张卡可以出一个模型。他们用的卡会更多，这样可以保证在练习模型的过程中非常不乱。我自己也在做相关模型的练习，在到几千张卡的时候，保证计算稳定性是很难的事情，loss常常会爆炸（在机器学习和深度学习中，loss爆炸指在练习或者猜测过程中泛起的损失值或者验证损失值异常大的情况。——注解来自文心一言）。但OpenAI说练习GPT-4的时候非常不乱，基本上没有泛起loss波动的情况。

第七，多语言能力会比较强盛，OpenAI的模型里其他语言会非常少，包括中文占比只是个位数。但是它在中文上的测试表现比其他模型英文的测试表现还好，这是很大的突破。

OpenAI模型的视频能力

黄文灏：实在OpenAI即使现在解决了语言模型的题目，可能语言模型做得很好，但并没有能很好地处理视频，由于现在都是用抽枢纽值、把它变成图片的方式解决。这里可能会有很大的机会。而且我个人觉得做视频的数据可能会需要一些不一样的网络结构，所以它不一定能很好地把视频的数据处理好。

GPT-4能给人们提供哪些方面的匡助？

微软大中华区人工智能与IoT总监李冕（Stanley Li）。李冕（微软大中华区人工智能与IoT总监）：有四个方面。第一是天生内容的能力。

第二，常常会忽略的一点是它的总结能力。好比科研团队常常需要看论文，无论是基础的论文如数学、科技领域，或是比较实用的像药物开发、研发等领域，许多论文都是英文，而且很长，某种程度上看论文的速度也决定了知识吸收速度。但可以把这个论文导进去，让它总结出点，包括主动查询，想找这个文章里的什么信息。这是它非常强的总结能力。

第三是写代码，所有程序员、开发员都可以用Codex方式写代码，极快加速开发周期。

最后是搜索，从最开始的简朴搜索到现在基于语义搜索，直接跟它对话，把搜索结果用更圆润的表达天生段落的文章。

这四点之外有没有更立异的能力？我们目前还在找。

OpenAI的思路：暴力美学和系统主义

黄文灏：ChatGPT或者说OpenAI整个模式基本上是围绕一个思路。首先要有大量数据，其次是很大的算力集群，对外表露是说用了2.5万张显卡，实际我们了解到的应该是2.8-2.9万张。OpenAI非常厉害的地方在于他们坚持ChatGPT的技术路线，从GPT-1、GPT-2到GPT-3、GPT-3.5，最后做成一个大模型，我们把它总结成暴力美学和系统主义。

OpenAI的办公室。许多做研究的人以为GPT没有太多研究上的立异，包括一些人以为这实际上是一个工程。我们可以同意这个观点，但现在这个时候把工程工作做好比发一些很好的paper，或者做一些研究上的立异重要许多。

我个人以为，现在这套思路非常重要，甚至比前面几回人工智能的浪潮更加重要，和前面的互联网和移动互联网对比，它带来的AGI（通用人工智能）的想象可能性比之前更大。

OpenAI团队为何如斯强盛？

黄文灏：我觉得他们非常强。我去之前已经觉得他们会比海内的研究团队强许多，但是交流下来觉得这个差距可能更加大。首先，他们的三个领军人物都是非常偏执的人，Sam（萨姆·奥特曼）是OpenAI的CEO，但他实在没有一分钱股份，这个在海内是比较难做到的事情。Ilyia（伊利亚·苏茨克沃，OpenAI联合创始人兼首席科学家）只有研究的用度。我看了Ilyia之前的演讲，他在2014年已经基本给出了OpenAI做GPT的设法。Greg（格雷格·布罗克曼，OpenAI总裁）据说之前已经财务自由了，但他一周会工作90个小时，OpenAI大部分代码都是他一个人写的。所以他们三个人都对这个世界有比较强烈的主张，而且整个机构有信奉和方向感、定力。

OpenAI高层，从左到右为首席执行官山姆·奥特曼、首席技术官米拉·穆拉蒂、总裁格雷格·布罗克曼、首席科学家伊利亚·苏茨克沃。图片来源：Jim Wilson我跟OpenAI的人聊，大家都很坚信AGI很快会到来。方法论是坚持暴力美学和系统主义，文化是把AI做成产品，而不是技术，他们一直在持续迭代产品。这实在是一个很重要的不同，由于许多人做研究的目标仍是发论文，有代表作，但OpenAI不太在意论文，现在基本不发论文。

他们的人才观很简朴，就是能动手的研究员，精晓算法的工程师。在那边做研究员和工程师没有区别，优秀的研究员、包括从Google过去的人在口试的时候，OpenAI会要求他们有很好的paper，要求他们在第一轮写一个前端的实践，第二轮写优化，而且他们都能写得不错。

执行力方面，他们内部所有人都很确认AGI这件事，而且每个人都很努力。他们跟我们讲了一个情况，好比有一个任务，原来定在周三是最后时间点，但是组里其他人都在周一超前完成了，那么下一个人就必需加班在周二把这个事情做完，所有人都把时间线往前推。

他们有强盛的资源支持，现在有接近3万张GPU。我跟里面的研究职员交流，他们随便写一个程序就用两千张卡，ChatGPT每月运行本钱也接近1亿美元。他们在数据量投入大量资金，数据标注投入数千万美元，2022年算力和数据就花了4亿多美元，这个实在是一个很大的投入。

微软为OpenAI提供了什么资源？

李冕：假如要练习一个GPT-3，即ChatGPT的底座模型——1750亿个参数的模型。假如用英伟达的Tesla V100显卡来算，大概要花355个GPU年（一块GPU运行355年的运算量）的时间练习一次，跑一次的花费接近400多万美元，这是英伟达给OpenAI的特价。假如模型更大一点或者更小一点，或者组织更好一点，调度更好一点，这个价格可以更低，但是整体的本钱是这样，这是目前的资金门槛。

我们大概用了1万张V100显卡、二十几万颗CPU基础的算力做调度，组合成一台超级计算机。这个是专门为OpenAI构建的技术架构，大规模、可靠性，就是要算得好、算得可靠，以及在内部网络环境、内部存储吞吐等的长期优化。这些我们跟OpenAI单独有一个集群，帮它做练习。

海内的差距在哪里？

黄文灏：差距比较大的一个是算力方面，OpenAI的卡许多，但是我们现在只能买H800这样的显卡来做事情，算力上差距很显著。第二是在数据集上，海内的数据集质量普遍偏低，这也会是一个瓶颈。在顶级人才资源上，由于做大模型不需要特别多的人，但是需要人的能力非常强。海内立异和工程能力兼具的人才很少，发论文很强，但动手能力比较弱。而且海内没有像OpenAI建立真实数据和模型迭代的数据飞轮（量产数据、数据驱动的算法以及两者闭环自动化的不断积累和迭代）。

我们同时也看到，技术壁垒没有那么大，只要我们有充足的资源和算力，我相信海内会有些顶级的人才把这个事情做成。但这需要大家有定力，坚持下去。而且OpenAI的市场垄断也没有完全形成，所以我们仍是有机会，但是这个窗口期非常短。GPT-4是去年8月练习完的，GPT4.5差不多也应该预备好了，他们现在应该在做GPT-5。我们当时和他们交流的时候，他们觉得GPT-3.5是他们60分的产品，GPT-4和GPT-4.5可能是80分或100分，他们自己则在做120分的事情。我们之前还一直都瞄着ChatGPT去做，所以仍是要加紧追赶的步伐。

“做中国的OpenAI”的路径

黄文灏：我觉得可能分成几类。

第一类是看到Language as a new interface（自然语言作为新的交互方式），这个事情很早就提出来了，但当时的技术能力并没有达到用户需求的下限。现在显著技术上限已经超过了用户需求的下限，所以我们有许多的想象力。大家会觉得互联网或移动互联网做过的事情，特别是UI（用户交互）做过的事情都可以重新做一遍。

第二个是生产力工具方面，进步大家的生产力。这两块想做的人比较多。

第三类是做模型，许多人看到了语言模型的机会。为什么OpenAI先做语言？实在有一些依据，一个是说语言是知识蒸馏的产物，是人脑思维后的结果，维特根斯坦曾说，语言的边界是世界的边界。我们最早提出语言不是全部，语言可以跟模态结合，GPT-4发布的时候我们也看到，未来要做更强盛的foundation model（基础模型）。在中国真正想做OpenAI的人没有特别多，OpenAI是一个坚持梦想的研究机构，而且从始至终都有很好的philosophy（哲学）。

最后是实现AGI的路径，我以为这个路径是多样化的，现在有一条路，但是这条路不一定是独一的路，或者是准确的路，我们实在仍是会有机会。

人形机器人也是未来很重要的方向，现在的大模型仍是虚拟助手，而真实世界的机器人是AGI非常重要的部门。前段时间Google的论文也给大家很大的想象空间，大模型和机器人结合，未来真正能在现实世界里匡助人们完成许多任务。

“快速的路”与“准确的路”

黄文灏：现在海内许多人都在做ChatGPT，或者说大规模的语言模型。一些大家发出来的DEMO、系统，看这些模型能力也还可以，我自己打分可能是60-80分的ChatGPT水平。但是大家走的可能都是比较快速的路，可能真正准确的路仍是我们要拥有一些很重要的能力，好比他们可以猜测未来模型能达到什么样的水平，好比怎么能把视觉和语言用同一的方法表示，或者怎么同时用1万张卡做练习，这是海内很缺乏的能力。快速的路实在不怎么花本钱，也能做到不错的水平，但要走准确的路，可能只晋升了最后的20%，但需要花大量的本钱和时间，而且短时间内很难收回本钱。是不是有许多人愿意做这个事情？

另外在基础方面，我们要想想下面的路，多模态大家都想到了，好比OpenAI做GPT-5要怎么做？或者我们也不一定完全跟随OpenAI的步履，而是自己要做的话怎么做？这是更加重要的东西。

最后我想说的是，实在做GPT-4也不难，做一个多模态的模型也很轻易，但是中国真正需要的是，像OpenAI一样的研究机构去创造一些我们能看到通往AGI的可能性。有可能和OpenAI走一样的路，也有可能走不一样的路，这个实在才是真正难而准确的事。

未来有哪些机会？

黄文灏：我自己总结可能主要分成三个层面：

1.应用层。大家可能想把自己的数据，特别是应用层的数据建立壁垒，用一些现在已有模型的能力做这件事情。这会有几个不同的思路，一是做prompt engineering（人工智能通过文本提示天生想要的输出的技术）。第二是用ChatGPT，它提供了一些fine-tune（微调）服务。第三是外部数据库和知识库融合，这里的核心是要找到垂直场景和用户的痛点。我们可以找一些新的场景或新的先发上风把数据飞轮的闭环建立起来。

2.中间层。在推理部署、练习优化，特别是现在国产推理芯片、云厂商会有一些机会。这里面的核心是做大规模分布式，由于未来的技术可能是向模型越来越大的方向发展，消耗的资源也会越来越多。

3.模型层。海内这一阵非常热闹，大厂都在做，有的已经发了英雄帖组团开始做了。我跟他们有一些交流，现在大家要追赶的是ChatGPT，GPT-4出来以后，可能就是想尽快地追赶或复制GPT-4，但实在很少有人真正想去复制OpenAI。我们大家仍是要找准定位和目标，第一种就是快速复制，占领中国市场；第二种就是目标定在AGI，我们可能要真正地和OpenAI，不一定打败它，至少要跟它竞争一下。

还有一个比较核心的点——买通这几层，一个人很难只专注于做一层的事情。好比练习模型的人肯定需要很高效的中间层，实在也需要应用层建立其数据飞轮的模式。

GPT-4之后，人类如何应对？

李冕：泛起了GPT以后，我们整个人类需要打造的就是问题目的能力。你需要很精准地引导他表达出你需要的内容，它脑子里有千千万万的谜底，但怎么引导它找到你想找的谜底，这就是你的能力。