4000亿参数，国产大模型硬刚Llama 3？

4000亿参数，国产大模型硬刚Llama 3？｜钛媒体AGI

来源：戏说健康发布时间：2024-04-25 04:04

头图由天工AI生成

随着中国加速研发 AI 大模型技术，追赶美国，如今已迎来新的节点。

北京时间4月18日，Meta推出了新版开源大模型Llama 3，并推出了8B和70B的预训练和指令微调版本，在众多性能上都大幅超越了Llama 2。Meta官方还表示，公司后续还将推出模型参数超过400B（4000亿）的更大版本Llama 3。

然而，就在4月17日，国内AI公司昆仑万维就已正式推出了4000亿参数的“天工3.0”基座开源大模型，成为全球最大的开源MoE（混合专家）大模型。

相较于上一代，天工3.0的模型技术知识能力提升超过20%，数学、推理、代码、文创能力提升超过30%，多模态性能超越GPT-4V。

同样在4月17日，昆仑万维还宣布，中国首个音乐SOTA（领域最佳水准）模型“天工SkyMusic”音乐大模型也正式开启公测，综合体验远超于风靡美国的 AI 音乐生成平台Suno V3。

中国 AI 大模型赛道正迎来“ChatGPT时刻”。

（SkyMusic综合性能评分超越Suno V3，成为最新音乐大模型SOTA）

4月16日沟通会上，昆仑万维董事长兼CEO方汉对钛媒体App编辑表示，“天工3.0”开源模型是面向C端产品提供支撑的底座大模型，拥有非常强的技术动力，且开源模型是有一定商业模式的。另外，在B端，昆仑万维会提供垂类大模型商业服务。

“对于天工SkyMusic，我们应该会一直保持免费对于C端提供服务，这个是没有任何问题的。当然如果有专业人士需要专业定制，我们也可以提供服务。”方汉称。

从一年前的追赶、学习OpenAI，到如今在 AI 音乐生成领域全面创新和超越，昆仑万维技术和市场双管齐下，“All in AGI 与 AIGC”的战略正在产生巨大效果，推动 AI 科技与互联网的跨越式发展。

至此，一个完整的AI大模型技术与应用生态正在成型。

三轮 AI 热潮下，2024年迎来基础大模型的关键之年

早在1956年夏天，计算机科学家约翰·麦卡锡（John McCarthy）等人在具有传奇色彩的“达特茅斯会议”上创造“人工智能”这个术语，被认为标志着 AI 技术的正式诞生。

之后半个世纪当中，计算机技术飞速进步，AI 也影响了全球经济和社会发展。

直至本日，全球共经历了三次 AI 浪潮。前两次 AI 浪潮中，所有人期盼的十年“AI 效应”都如泡沫般破灭。不管是因为芯片“摩尔定律“速度跟不上 AI 的算力要求，仍是因为数据量不够、算法不强、商业化不如预期，均让我们对AI发展都保持长期质疑的态度。

当下，我们终于迎来第三次 AI 浪潮。这一次，AI 算法、算力、数据“三驾马车”同步突破。

此次 AI 浪潮爆发的标志性事件有三个：一是1997年，IBM “深蓝”击败国际象棋大师卡斯帕罗夫；二是2016年，谷歌DeepMind的“阿尔法狗”（AlphaGo）击败了韩国围棋世界冠军李世乭，标志着 AI 技术的爆发拐点；三是2022年，AI 聊天机器人ChatGPT的推出，引发全球新一轮 AI 热潮。

演化经济学家卡洛塔·佩雷斯（Carlota Parez）在《技术革命与金融资本》书中曾提出：从第一次工业革命以来，每两次重大技术革命的间隔基本都在五十年左右。随着旧技术革命红利的耗尽，继续延续使用其成果的收益就会大幅下降。

相比之下，引入全新技术的收益则会上升，而新的技术革命正驱动全球经济增长。距离2022年佩雷斯在书中提到的上一次技术革命——1971年英特尔推出全球第一款微处理器，已经恰好过了五十多年，世界正处在新旧科技革命的临界点。

当前，全球各国都纷纷将更多资源投注到了下一个技术革命关键点——AI，尤其是生成式 AI。甚至说，AI 已经成为“国力”的象征。

昆仑万维成立于2008年，经历了互联网、移动互联网发展时代，曾是出海平台领域的龙头，如今全面加注通用人工智能（AGI）赛道。

方汉表示，早在2020年，昆仑万维集团就开始进入文本大模型的预训练工作，并于2022年12月发布了中国首个13B（130亿）参数级开源文本大模型，是在ChatGPT爆发后最快推出国内大模型产品的企业。

到了2023年，大模型军备竞赛开启，昆仑万维“天工”也全面“狂飙”：

4月17日，天工1.0发布，是国内首个对标ChatGPT双千亿级大模型；
8月23日，昆仑万维公布国内首个AI搜索产品——天工AI搜索；
今年2月6日，国内首个在线提供服务的MOE大模型“天工2.0”发布。

如今，在“天工”大模型发布一周年之际，昆仑万维终于带来了全新的最强模型天工3.0系列。

方汉坦言，2024年是底座大模型之年。“大家知道 AI 底座大模型是 AIGC 坚实的基础，尤其是文本大模型。文生图、文生音乐和文生视频（这些 AIGC 模型）的能力基础都是文本大模型。如果文本模型能力不够强，AIGC 能力就会受到很大限制。我们的 4000 亿大模型是给我们所有的面向 C 端的产品提供支撑的底座大模型。我的底座大模型做得越好，我的音乐、游戏、视频以及动漫产品就会做得更好。所以我们做底座大模型是有非常强的动力的。”方汉表示。

国内性能最强音乐AIGC模型，秒级生成95秒歌曲

天工3.0的核心主要有两点：中国首个音乐AIGC的SOTA模型；4000亿参数、全球最大规模的开源MOE大模型。

首先谈音频模型。

据美国风投机构a16z上月发布的生成式AI产品Top 100报告，ChatGPT、Gemini等通用内容生产应用仍占据消费级AI应用大头。与6个月前的排名相比，有两个新类别首次进入排行：音乐和生产力。

就内容形态来说，音频内容是相比文本和图片更好理解人类情感的方式。众多落地场景之中，音乐创作也成为普罗大众最易上手和感慨感染到趣味性的AIGC场景。另外，对于昆仑万维这类AI公司而言，这是一个将自己推向C端市场、获得大众认知的有利且重要机会。

目前，AI 音乐生成有两大技术路径，包括符号音乐生成路线、大模型音乐音频生成路线。天工SkyMusic采用后者，通过直接学习并生成音频波形，而不是采用符号音乐生成路线来生成乐谱。这种方式能够实现乐器、人声、旋律、音量、音符等元素的一体化端到端生成，为用户带来更为直观且便捷的音乐创作体验。

然而，这种方式不仅艰难、成功经验稀缺，还需要高昂的算力和资金，因此业内做的人非常少。而且过去很多AI音乐研究都集中在无人声的BGM领域，业界几乎没有针对人声Song赛道的有效解决方案。

而天工SkyMusic，就是在这两个业界尽快空白的领域取得了极大突破，大幅提高了AI音乐生成大模型的表现，开创了国内音乐音频生成大模型的成功案例。

具体来说，天工SkyMusic采用与Sora类似的模型架构，包含三大核心模块——Encoder、DiT（Diffusion Transformer）和Decoder。其中，Large-scale Transformer负责谱曲，学习Music Patches的上下文依赖关系，同时完成音乐可控性；DiT负责演唱，通过LDM（Latent Diffusion Model）让Music Patches被还原成高质量音频。

在SOTA模型排行中，与海外顶尖的AI音乐大模型Suno V3进行横向测评，天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手，并以6.65分的综合得分超越Suno V3，成为全球AI音乐SOTA模型。

值得注意的是，天工SkyMusic是音乐AIGC领域罕见公开技术路径的产品。其由“Encoder-DiT-Decoder”三大核心模块组成的技术路线图，成为业内对“音频路线+人声Song路线”的重要技术参考。

天工SkyMusic发布后，钛媒体App编辑第一时间参与体验。

体验中发现，相较于行业中的同类产品，天工SkyMusic基于天工3.0四千亿级MOE基础大模型，拥有更多产品优势。首先它支持示例音源生成音乐，用户可以选择“天工SkyMusic”资料库中现有的参考音乐，也可以上传自有音乐，不仅可以生成风格、唱腔类似的歌曲，还能给予用户挥洒创意的空间，让用户创作出更加丰富多彩的音乐作品。

这是钛媒体App编辑通过天工SkyMusic创作的歌曲，点开就是浓浓的摇滚风。它还支持创作说唱、民谣、放克、古风、电子等多种音乐风格，强化音乐创作生成的多样性。

另外，得益于对全球最大2000万首歌曲数据集的深度学习训练，天工SkyMusic成功摆脱了传统音乐AIGC产品常见的“AI味”。它生成的中文人声发音纯正，没有杂音干扰。不仅如此，它还拥方言歌曲生成能力，能够演绎包括粤语、四川成都方言、北京方言、上海方言在内的多种中文方言歌曲，并灵活运用颤音、歌剧唱腔等各种演唱技法，极大丰富了音乐创作的表现力。

钛媒体App编辑编辑生成的这首《Hi Baby》歌曲，通过几句歌词，就能轻松演绎一首95秒的英文歌曲，大幅降低音乐创作的门槛，让每个用户都能够更加容易创作属于自己的旋律和歌曲，从而凸显出天工SkyMusic强大的技术能力。

虽然尚处于起步阶段，但天工SkyMusic已经让很多用户感慨感染到了音乐创作的乐趣。同时，昆仑万维选择将宝贵的技术架构公开，也体现了其对开源社区生态、产业共同发展的重视。预计天工SkyMusic将成为行业中最重要的全民音乐创作工具之一，有望推动建立属于中国的 AI 音乐创作者生态。

然而，天工SkyMusic仅仅是昆仑万维在迈进AGI时代的第一站。

自天工3.0发布以来，这款全球最大规模的开源MoE（多专家混合）大模型便引发业界广泛关注，其不仅拥有超越Grok模型的4000亿参数规模，并且在四大关键能力上实现了全面跃升。

具体来说，首先，天工3.0基座大模型在逻辑推理能力、语义理解能力、应对复杂需求能力和内容创作能力4个方面大幅提升，并且在MMBench等多项权势巨子多模态测评结果中超越GPT-4V。同时，基于模型能力的提升，天工3.0集成了AI搜索、AI写作、AI长文本阅读、AI图片生成、AI音乐生成等功能，以及新增了多轮搜索及综合工具调用、AI搜索研究模式、AI搜索增强模式等功能，可以高效地完成产业分析、产品对比等各类复杂需求。

在演示中，研究模式下，天工3.0能够围绕简单指令进行相关问题的延伸，自动生成研究大纲、图谱、实践总结、思维导图等，例如，钛媒体App编辑让天工3.0研究“OpenAI发展历程”。在全网搜索后，它能以分段提炼等形式呈现搜索结果，并自动总结大纲、绘制思维导图。