专知, 为人工智能从业者服务!

会员服务 ·

专业可信的知识分发

高级搜索

ChatGPT · 自然语言处理 · 大模型 · 预训练语言模型 · 哈尔滨工业大学（HIT） ·

2023 年 3 月 12 日

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

来源：哈尔滨工业大学、自然语言处理研究所（HIT-NLP）

2022年11月30日，OpenAI推出全新的对话式通用人工智能工具——ChatGPT。ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力，它可以很好地理解用户意图，做到有效的多轮沟通，并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT上线后，5天活跃用户数高达100万，2个月活跃用户数已达1个亿，成为历史上增长最快的消费者应用程序。除了被广大用户追捧外，ChatGPT还受到了各国政府、企业界、学术界的广泛关注，使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径，并被认为向通用人工智能迈出了坚实的一步，将对搜索引擎构成巨大的挑战，甚至将取代很多人的工作，更将颠覆很多领域和行业。哈工大自然语言处理研究所组织多位老师和同学撰写了本调研报告，从技术原理、应用场景、未来发展等方面对ChatGPT进行了尽量详尽的介绍及总结。

本报告仅供内部参考。主要编撰人员第一章由车万翔、杨沐的、张伟男、赵妍妍、冯骁骋、孙承杰、李佳朋编写；第二章由张伟男、隋典伯、高翠芸、朱庆福、李明达、王雪松编写；第三章由刘铭、朱聪慧、汤步洲编写；第四章由徐永东、高翠芸、朱庆福编写；第五章由杨沐昀、张伟男、韩一、庄子或编写；第六章由隋典伯、高翠芸编写；第七章由车万翔、刘铭编写。参与各章审校工作的还有：崔一鸣、徐志明等。报告整体由车万翔统稿。

第一章 ChatGPT的背景与意义

1.1 自然语言处理的发展历史 1.2 大规模预训练语言模型的技术发展历程 1.3 ChatGPT技术发展历程 1.3.1 ChatGPT的相关技术 1.3.2 ChatGPT技术发展脉络的总结 1.3.3 ChatGPT的未来技术发展方向 1.4 ChatGPT的优势与劣势 1.4.1 ChatGPT的优势 1.4.2 ChatGPT的劣势 1.5 ChatGPT的应用前景 1.5.1 在人工智能行业的应用前景及影响 1.5.2 在其他行业的应用前景及影响 1.6 ChatGPT 带来的风险与挑战 第二章 ChatGPT相关核心算法

2.1 基于Transformer的预训练语言模型.. 2.1.1 编码预训练语言模型（Encoder-only Pre-trained Models) 2.1.2 解码预训练语言模型（Decoder-only Pre-trained Models) 2.1.3 基于编解码架构的预训练语言模型（Encoder-decoder Pre-trained Models) 2.2 提示学习与指令精调 2.2.1 提示学习概述 2.2.2 ChatGPT中的指令学习 2.3 思维链（Chain of Thought，COT） 2.4 基于人类反馈的强化学习（Reinforcement Learning with Hu-man Feedback,RLHF) 第三章大模型训练与部署

3.1 大模型并行计算技术 3.2 并行计算框架 3.3 模型部署 3.3.1 预训练模型部署的困难 3.3.2 部署框架和部署工具 3.3.3 部署技术和优化方法 3.4 预训练模型的压缩 3.4.1 模型压缩方案概述 3.4.2 结构化模型压缩策略 3.4.3 非结构化模型压缩策略 3.4.4 模型压缩小结 第四章 ChatGPT相关数据集

4.1 预训练数据集 4.1.1 文本预训练数据集 4.1.2 代码预训练数据集 4.2 人工标注数据规范及相关数据集. 4.2.1 指令微调工作流程及数据集构建方法 4.2.2 常见的指令微调数据集 4.2.3 构建指令微调数据集的关键问题 第五章大模型评价方法

5.1 模型评价方式 5.1.1人工评价 5.1.2 自动评价 5.2 模型评价指标 5.2.1 准确性 5.2.2 不确定性 5.2.3 攻击性 5.2.4 毒害性 5.2.5 公平性与偏见性 5.2.6 鲁棒性 5.2.7 高效性 5.3 模型评价方法小结 第六章现有大模型及对话式通用人工智能系统

6.1 现有大模型对比 6.2 对话式通用人工智能系统调研 6.2.1 对话式通用人工智能系统 6.2.2不同系统之间的比较 第七章自然语言处理的未来发展方向

7.1 提高ChatGPT的能力 7.2 加深对模型的认识 7.3 实际应用 7.4 从语言到AGI的探索之路

成为VIP会员查看完整内容

468

973

大模型 · 白皮书 · 大型语言模型 ·

2023 年 10 月 1 日

重磅！121页《大模型技术》中国人工智能系列白皮书（附下载）

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

9月17日，CAAI系列白皮书发布会在南昌成功举办。《大模型技术》该白皮书从语言大模型、多模态大模型、技术生态、产业应用、安全等多个角度，全方位清晰呈现了大模型技术的定义、特点和发展历程，以及目前的主流方法和应用场景，其中包括多项首例行业应用实践，将有效帮助相关人士深入理解大模型技术的原理、方法和应用，提高大模型技术的开发和使用效率和质量，深刻认识大模型技术的影响和责任。

近年来，大模型技术飞速发展，从架构演进统一到训练方式转变，再到模型高效适配，大模型技术引起机器学习范式的一系列重要革新，为通用人工智能发展提供了一种新的手段。由单一模态的语言大模型到语言、视觉、听觉等多模态大模型，大模型技术融合多种模态信息，实现多模态感知与统一表示，也将和知识图谱、搜索引擎、博弈对抗、脑认知等技术融合发展，相互促进，朝着更高智能水平和更加通用性方向发展。与此同时，大模型技术生态蓬勃发展，开源服务与开放生态成为主流趋势，国内外大模型开放平台、开源模型、框架、工具与公开数据集加速大模型技术演进，框架、工具间软硬件协同优化降低大模型开发和应用成本，推动大模型高效训练与部署。

大模型与教育、科学、金融、传媒艺术等专用领域结合拓广通用大模型能力边界，与实体经济的深度融合成为其赋能行业应用关键，正在“大模型”与“小模型”端云协同并进发展格局下重塑生产力工具，变革信息获取方式，改变人类社会生活和生产方式。

随着大模型的应用，其安全问题日益凸显，因而需关注大模型技术发展的内生及伴生风险，关注大模型安全对齐、安全评估技术，发展大模型安全增强技术，加强大模型安全监管措施，确保其“安全、可靠、可控”。总之，抓紧推动大模型技术研发，尤其是大模型原始技术创新和大模型软硬件生态建设，强化垂直行业数据基础优势，集中国家资源投入大模型发展，同时关注大模型风险监督，彰显人工智能的技术属性和社会属性。

成为VIP会员查看完整内容

283

510

ChatGPT ·

2023 年 2 月 11 日

ChatGPT研究框架（2023），72页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

ChatGPT市场反应热烈，国内外巨头纷纷入场

据统计，ChatGPT日活跃用户数的增速远超Instagram，1月份平均每天有超过1300万名独立访问者使用ChatGPT，是去年12月份的两倍多；国内外科技巨头都非常重视ChatGPT引发的科技浪潮，积极布局生成式AI，国内厂商（百度、腾讯等）也高度关注ChatGPT，积极探索前沿技术，相关深度应用也即将推出。

ChatGPT经历多类技术路线演化，逐步成熟与完善

ChatGPT所能实现的人类意图，来自于机器学习、神经网络以及Transformer模型的多种技术模型积累。Transformer建模方法成熟以后，使用一套统一的工具来开发各种模态的基础模型这种理念得以成熟，随后GPT-1、GPT-2、GPT-3模型持续演化升级，最终孵化出ChatGPT文本对话应用。

AIGC跨模态产业生态逐步成熟，商用落地未来可期

AIGC产业生态当前在文本、音频、视频等多模态交互功能上持续演化升级，奠定了多场景的商用基础。跨模态生成技术也有望成为真正实现认知和决策智能的转折点。

ChatGPT乘东风，商业架构日益清晰

随着ChatGPT Plus发布，商业化序幕已经拉开。ChatGPT在传媒、影视、营销、娱乐以及数实共生助力产业升级等领域均可产生极大助益，提升生产力曲线，多维度赋能虚拟经济和实体经济。

成为VIP会员查看完整内容

289

568

GPT-4 · 多模态大模型 · OpenAI ·

2023 年 3 月 15 日

GPT-4多模态大模型发布！98页《OpenAI GPT-4 技术报告》论文详细阐述！附下载（附151页技术报告中文版）

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

GPT-4来了！今日凌晨，万众瞩目的大型多模态模型GPT-4正式发布！ OpenAI CEO Sam Altman直接介绍说：

这是我们迄今为止功能最强大的模型！

图灵奖三巨头之一Geoffrey Hinton对此赞叹不已，「毛虫吸取了营养之后，就会化茧为蝶。而人类提取了数十亿个理解的金块，GPT-4，就是人类的蝴蝶。」

OpenAI发文称，GPT-4能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已做到人类水平的表现。GPT-4 实现了以下几个方面的飞跃式提升：强大的识图能力；文字输入限制提升至 2.5 万字；回答准确性显著提高；能够生成歌词、创意文本，实现风格变化。

它强大到什么程度呢？输入一张手绘草图，GPT-4能直接生成最终设计的网页代码。

它以高分通过各种标准化考试：SAT拿下700分，GRE几乎满分，逻辑能力吊打GPT-3.5。

GPT-4在高级推理能力上超越ChatGPT。在律师模拟考试中，ChatGPT背后的GPT-3.5排名在倒数10%左右，而GPT-4考到了前10%左右。GPT-4的长度限制提升到32K tokens，即能处理超过25000个单词的文本，并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。OpenAI还贴心地发布了GPT-4开发者视频，手把手教你生成代码、检查错误信息、报税等。在视频中，OpenAI联合创始人兼总裁Greg Brockman说了句有点扎心的话：“它并不完美，但你也一样。”OpenAI正通过ChatGPT和API发布GPT-4的文本输入功能，图像输入功能暂未开放。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权，4小时内最多只能发布100条信息。开发者也可以申请GPT-4 API，进入候补名单等待通过。

**申请直通门：**http://t.cn/A6ClOHn7随着时间的推移，OpenAI会将其自动更新为推荐的稳定模型（你可以通过调用gpt-4-0314来锁定当前版本，OpenAI将支持到6月14日）。定价是每1k prompt tokens 0.03美元，每1k completion tokens 0.06美元。默认速率限制是每分钟40k tokens和每分钟200个请求。gpt-4的上下文长度为8192个tokens。还提供对32768个上下文（约50页文本）版本gpt-4-32k的有限访问，该版本也将随着时间的推移自动更新（当前版本gpt-4-32k-0314，也将支持到6月14日）。价格是每1k prompt tokens 0.06美元，每1K completion tokens 0.12美元。此外，OpenAI还开源了用于自动评估AI模型性能的框架OpenAI Evals，以便开发者更好的评测模型的优缺点，从而指导团队进一步改进模型。开源地址：github.com/openai/evalsGPT-4 技术报告

本文报告了GPT-4的发展，这是一个大规模的多模态模型，可以接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中，GPT-4的能力不如人类，但它在各种专业和学术基准上表现出了人类水平的表现，包括通过了模拟的律师考试，其分数约为考生的前10%。GPT-4是一个基于transformer的模型，预训练用于预测文档中的下一个token。训练后的校准过程会提高对事实的衡量和对期望行为的坚持程度。该项目的一个核心组件是开发基础设施和优化方法，这些方法可以在广泛的范围内预测性能。这使我们能够基于不超过GPT-4计算量的1/ 1000的训练模型准确地预测GPT-4性能的某些方面。本技术报告介绍了GPT-4，一个能够处理图像和文本输入并产生文本输出的大型多模态模型。此类模型是一个重要的研究领域，具有广泛的应用前景，如对话系统、文本摘要和机器翻译。因此，近年来，它们一直是人们感兴趣和取得进展的主题[1-28]。开发这样的模型的主要目标之一是提高它们理解和生成自然语言文本的能力，特别是在更复杂和微妙的情况下。为了测试它在这种情况下的能力，在最初为人类设计的各种考试中对GPT-4进行了评估。在这些评估中，它表现得相当好，经常超过绝大多数人类考生。例如，在模拟的律师考试中，GPT-4的分数落在了考生的前10%。这与GPT-3.5形成对比，GPT-3.5得分在最后10%。在一套传统的NLP基准测试中，GPT-4的表现优于之前的大型语言模型和大多数最先进的系统(这些系统通常有基准特定的训练或手工工程)。在MMLU基准29,30上，GPT-4不仅在英语方面以相当大的优势超过现有模型，而且在其他语言方面也表现出强大的性能。在MMLU的翻译变体上，GPT-4在考虑的26种语言中的24种超过了英语的最先进水平。我们将在后面的章节中更详细地讨论这些模型能力结果，以及模型安全性的改进和结果。本报告还讨论了该项目的一个关键挑战，即开发在大范围内表现可预测的深度学习基础设施和优化方法。这使我们能够对GPT-4的预期性能做出预测(基于以类似方式训练的小测试)，并在最后的测试中进行测试，以增加我们对训练的信心。尽管GPT-4功能强大，但它与早期的GPT模型有相似的局限性[1,31,32]:它不完全可靠(例如，可能会出现“幻觉”)，上下文窗口有限，并且不能从经验中学习。在使用GPT-4输出时应小心，特别是在可靠性很重要的情况下。GPT-4的能力和局限性带来了重大而新颖的安全挑战，我们认为，考虑到潜在的社会影响，仔细研究这些挑战是一个重要的研究领域。本报告包括一个广泛的系统卡(在附录之后)，描述了我们预计的关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的一些风险。它还描述了我们为减轻GPT-4部署带来的潜在危害而采取的干预措施，包括与领域专家进行对抗性测试，以及一个模型辅助的安全通道。本报告重点介绍了GPT-4的功能、局限性和安全性。GPT-4是[33]预训练的transformer风格的模型，可以使用公开可用的数据(如互联网数据)和第三方提供商授权的数据来预测文档中的下一个Token。然后使用来自人类反馈的强化学习(RLHF)[34]对模型进行微调。考虑到大型模型(如GPT-4)的安全影响，本报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。我们致力于对我们的技术进行独立审计，并在这个版本附带的系统卡中分享了这一领域的一些初始步骤和想法我们计划向更多的第三方提供进一步的技术细节，他们可以就如何权衡上述竞争和安全考虑与进一步透明的科学价值提供建议

成为VIP会员查看完整内容

238

554

ML Visual · 机器学习 ·

2022 年 3 月 1 日

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

【导读】现在搞AI研究写论文，其中论文里的框架图模型图很是考验你画图的能力，不费一番心思功夫，怎能画出一个入得Reviewer法眼的图，论文也不大好中，很是发愁。好消息来了，elvis介绍了有个ML visual的利器，提供一份103页的PPT模型图素材，你在上面可以直接使用画出你要的机器学习深度学习模型图，再也不用担心画图了！

ML Visuals是一个新的协作项目，通过使用更专业、更吸引人、更充分的图块来帮助机器学习社区改进科学传播。你可以在你的演讲或博客文章中自由使用视觉效果。使用任何视觉效果都不需要经过许可，但是如果你能提供设计师/作者(作者信息可以在幻灯片注释中找到)，那就太好了。

地址： https://github.com/dair-ai/ml-visuals

怎么使用ML Visual？

下载这份MLvisual PPT，在上面的模板编辑你要的就行。

要添加您自己的自定义图形，只需添加一个新的幻灯片并重用任何基本的可视组件(请记住请求编辑权限)。您还可以创建自己的幻灯片副本，并自定义您喜欢的内容。我们鼓励作者/设计师在这里添加他们的视觉效果，并允许其他人重用它们。确保包括你的作者信息(在幻灯片的注释部分)，这样其他人就可以在其他地方使用你的作品(如博客/演示文稿)。此外，提供一个简短的视觉描述，以帮助用户了解它是关于什么以及他们如何使用它。如果您需要“编辑”权限，请单击上面“仅查看”工具栏下的“请求编辑访问”选项，或者通过ellfae@gmail.com发送电子邮件给我。

从任何一张幻灯片上下载图片都很容易。只需点击文件→下载→(选择你的格式)。

如果你需要帮助定制一个数字或有可能对别人有价值的东西的想法，我们可以帮助。只要在这里打开一个问题，我们将尽我们最大的努力，以赶上视觉。谢谢。

在我们的Slack小组中，有任何关于这个项目的问题都可以问我们。

成为VIP会员查看完整内容

ML Visuals by dair.pdf

175

899

ChatGPT · 大模型 ·

2023 年 3 月 8 日

【ChatGPT系列报告】国内大模型概览，42页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自ChatGPT推出以来，国内学术界和科技企业相继宣布或将推出类似机器人对话模型，有望推动大模型发展。2月7日，百度官宣“文心一言”。2月20日，复旦大学发布了类ChatGPT模型“MOSS”，并面向大众公开邀请内测，国产大模型有望迎来爆发式增长。　　需求和政策两方面，合力推动AI产业增长。国内应用层面的需求推动AI产业的加速发展。根据IDC数据预测，2021年中国人工智能软件及应用市场规模为51亿美元，预计2026年将会达到211亿美元。数据、算法、算力是AI发展的驱动力，其中数据是AI发展的基石，中国数据规模增速有望排名全球第一。政策方面，“十四五”规划中提到“瞄准人工智能”，“聚焦人工智能关键算法”，加快推进“基础算法”的“突破与迭代应用”；北京、上海、广州等城市发布相关规划。　　头部企业采取“模型+工具平台+生态”三层共建模式，有助于业务的良性循环，也更容易借助长期积累形成竞争壁垒。大模型厂商主要包括百度（文心大模型）、腾讯（HunYuan大模型）、阿里（通义大模型）、商汤、华为（盘古大模型）等企业，也有智源研究院、中科院自动化所等研究机构，同时英伟达等芯片厂商也纷纷入局。大模型增强了AI技术的通用性，助力普惠AI的实现。未来，大模型有望于场景深度融合，配合专业工具和平台支持应用落地，开放的生态来激发创新，形成良性循环。　　技术发展有望促进生产效率提升，并进一步创造新的消费和需求，有利于文娱内容和互联网行业。在AIGC和ChatGPT方面，我们建议持续关注技术发展和应用情况，把握技术催化和商业化落地带来的投资机会：1）具备AIGC和ChatGPT的技术探索和应用的公司：百度集团-SW、商汤-W、万兴科技、拓尔思等；2）具有海量内容素材且具有AIGC探索布局的，图片/文字/音乐/视频内容及平台公司腾讯控股，阅文集团、美图公司、昆仑万维、汤姆猫、神州泰岳、视觉中国、中文在线、汉仪股份、天娱数科、风语筑等。

成为VIP会员查看完整内容

203

452

ChatGPT · 哈尔滨工业大学（HIT） · 大模型 ·

2023 年 5 月 4 日

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

2023年3月6日，哈工大自然语言处理研究所 ( HIT-NLP, since 1979 ) 师生联合撰写出《ChatGPT调研报告》（84页），对“大模型”技术进行了系统的介绍。该报告原定仅供内部师生参考，但过去2个月中在网上也多有流传。5月4日，研究所决定将该报告公开，以期听取同行意见，并随着“大模型”技术的发展，持续对报告进行更新。

此外，哈工大自然语言处理研究所已经研制出哈工大“活字”对话大模型（通用），目前处于研究所内测阶段。同时，研究所积极研发各行业大模型（专用），欢迎拥有算力、数据、场景、资金优势的企事业单位来信洽商合作。

2022 年11 月30 日，OpenAI 推出全新的对话式通用人工智能工具—— ChatGPT。ChatGPT 表现出了非常惊艳的语言理解、生成、知识推理能力，它可以很好地理解用户意图，做到有效的多轮沟通，并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT 上线后，5 天活跃用户数高达 100 万，2 个月活跃用户数已达1 个亿，成为历史上增长最快的消费者应用程序。除了被广大用户追捧外，ChatGPT 还受到了各国政府、企业界、学术界的广泛关注，使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径，并被认为向通用人工智能迈出了坚实的一步，将对搜索引擎构成巨大的挑战，甚至将取代很多人的工作，更将颠覆很多领域和行业。哈工大自然语言处理研究所组织多位老师和同学撰写了本调研报告，从技术原理、应用场景、未来发展等方面对ChatGPT 进行了尽量详尽的介绍及总结。

成为VIP会员查看完整内容

178

440

DeepSeek · 大模型 ·

2 月 6 日

清华大学元宇宙实验室《DeepSeek：从入门到精通》文档，104页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

DeepSeek从入门到精通《DeepSeek从入门到精通》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写。文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。

DeepSeek是什么？ DeepSeek 是一家专注于通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。

DeepSeek-R1 是其开源的推理模型，擅长处理复杂任务且可免费商用。

特点：AI + 国产 + 免费 + 开源 + 强大。

DeepSeek可以做什么？直接面向用户或者支持开发者，提供智能对话，文本生成，语义理解，计算推理，代码生成补全等应用场景，支持联网搜索与深度搜索模式，同时支持文件上传，能扫描读取各类文件及图片中的文字内容。图片文本生成：文章写作、营销文案、社交媒体内容等。图片自然语言理解与分析：情感分析、意图识别、实体提取等。图片编程与代码相关：代码生成、调试、技术文档处理等。图片常规绘图：SVG矢量图、Mermaid图表、React图表等。图片

如何使用DeepSeek？使用平台：访问DeepSeek官方网站。

推理模型选择：根据任务类型选择合适的模型（如DeepSeek-R1）。

提示语设计：简洁指令（推理模型）或结构化引导（通用模型）。

如何从入门到精通？

成为VIP会员查看完整内容

118

242

大型语言模型 ·

2024 年 1 月 10 日

中国大模型落地应用案例集（2023），119页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

来源：中国信通院华东分院　　近日，中国信通院联合上海人工智能实验室成立的大模型测试验证与协同创新中心牵头，首次面向全国范围征集全行业优秀应用实践，并形成《2023大模型落地应用案例集》（以下简称“《案例集》”）。　　作为首部聚焦落地应用的权威研究成果，《案例集》全面展示了大模型前沿技术和发展成果，推动了大模型为代表的人工智能技术赋能社会经济高质量发展。经专家组的多轮评审，共52个各自领域的典型大模型技术落地应用成功入选。　　2022年底ChatGPT的横空出世，引爆了国内外大模型的热情，各行各业的创业者已经集结在十字路口蓄势待发。　　从国内市场来看，目前人工智能（AI）大模型已经在各行各业“落子不断”。据公开资料不完全统计显示，国内大模型的发展路径是“通用+垂直”两条腿走路，其中垂类大模型落地速度最快。《案例集》显示，有近65%+的AI大模型是垂直大模型。　　趋势已然，大模型技术突破代表了AI发展的一个重要里程碑，下面笔者将梳理中国从业者构建的“底层原创技术-中层基础模型-上层行业应用”的大模型图鉴。 **　　PART 1**

**　　大模型领域中国学者的技术贡献**

图注：ResNet的四位作者分别是：何恺明、张祥雨、任少卿、孙剑　　2016年，来自微软亚洲研究院的四位学者提出深度残差学习（ResNet），解决了深度网络的梯度传递问题。要知道，2015年之前深度学习最多只能训练20层，ResNet之后，就可以有效地训练超过百层的深度神经网络。

　　2017年Google发布Transformer，它的出现打稳了AI大模型的“地基”，不仅“颠覆”了自然语言处理（NLP）中的机器翻译任务，而且还提供了一种新的思路来处理图像数据。　　中国学者也围绕Transformer做了许多改进和完善，例如微软亚洲研究院联合西安交通大学推出LONGNET，将Transformer的序列长度扩展10亿+；京东探索研究院联合武汉大学提出全球首个面向遥感任务设计的亿级视觉Transformer大模型；阿里达摩院提出新的Transformer结构FMViT，大幅度提升AI模型精度与速度…… 　　在大模型领域细数中国学者贡献，许多原创性贡献来自本土。已故的商汤科技创始人汤晓鸥（缅怀）在2023世界人工智能大会上，发表演讲时表示：在深度学习的大门上，我们按了18次门铃，取得了许多跨时代的突破。其中汤晓鸥提到了上海人工智能实验室领军科学家林达华，他当时设计的计算机视觉开源算法体系OpenMMLab，目前已经成为国际上最具影响力的视觉算法开源体系。值得一提的是，林达华也是书生大模型体系的重要贡献者。　　京东探索研究院早在2021年年初就展开了大模型体系（超级深度学习）的建设和基础研究，领导京东建设了中国第一个NVIDIA DGX Superpod天琴alpah-α超算集群。在此基础上，京东探索研究院的织女模型vega v2 在2022年登顶SuperGLUE榜首，一举超越同场竞技的谷歌、微软、Meta等业界顶尖企业；2021年研究院开发的大规模视觉模型ViTAE，在ImageNet Real的目标识别和MS COCO的人体姿态估计等权威榜单上均获得世界第一。

　　图注：（上）2022年京东探索研究院发表论文《Self-Evolution Learning for Discriminative Language Model Pretraining》，提出自我进化学习方法，为vega v2大模型的设计提供核心思想；　　（下）2021年京东探索研究院发表论文《ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias》，尝试将 CNN和transformer相结合。　　因此，国内公司的 AI 大模型研发虽然比国外公司晚，但是发展却异常地迅速，其内在逻辑便是：本土企业和学者对深度学习技术的深入理解与创新。在大模型的底层技术已经固定的时代，他们靠着持续的探索和努力才能构建出秀丽的“上层建筑”。　　在OpenAI发布ChatGPT之前，国内的一些企业就已经押注AI大模型技术：例如2021 年 4 月，华为云联合循环智能发布盘古超大规模预训练语言模型，参数规模达 1 000 亿；2021 年 6 月，北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”，参数规模达到 1.75 万亿；2021 年 12 月，百度推出 ERNIE 3.0 Titan 模型，参数规模达 2 600 亿，同期，阿里巴巴达摩院的 M6 模型参数达到 10 万亿，将大模型参数直接提升了一个量级。　　到2023年，大模型继续火热，国内的AI大模型团队已逐渐拓展到视觉、决策领域，甚至用于解决蛋白质预测、航天等领域的重大科学问题，阿里、京东、oppo等大厂都有相应的成果。 **　　PART 2**

**　　大模型应用拐点已至**

　　图灵奖获得者Yann LeCun说过：AI大模型的技术都是公开的，算不上底层技术上的创新，如果你愿意一探究竟的话，可以发现它背后没有任何秘密可言。　　但借着这些“过时”的技术，在中国拥有庞大的人才基数和数据集的情况下，可以发展出更适合本土环境和语境的大模型。　　那么如何形象理解大模型?前科技部长王志刚从高维度表示,大模型,就是大数据、大算力、强算法。形象一些：大模型事实上就是算法、数据、算力上的有效结合。传统巨头在大模型领域的技术投入普遍都是在积极防御，而中国企业在非常积极地推动向应用中的落地。　　目前，业界除了把AI大模型商业落地模式统分为 toB 和 toC之外，在市场划分上则遵循通用与垂直两大路径，两者在参数级别、应用场景等方面差异正在显性化。　　通用大模型往往是指具备处理多种不同类型任务的AI模型，这些模型通常是通过大规模的数据训练而成，能够在多个领域和应用中表现出良好的效能。大家耳熟能详的几个通用大模型均来财力雄厚的企业：　　1.书生浦语开源大模型：由上海人工智能实验室研发，涵盖 70 亿参数的轻量级版本 InternLM-7B，以及 200 亿参数的中量级版本和 InternLM-20B，以及完整的开源工具链体系。InternLM-7B 在包含 40 个评测集的全维度评测中展现出卓越且平衡的性能，它在两个被广泛采用的基准 MMLU 和 CEval 上分别取得了 50.8 和 52.8 的高分，开源一度刷新了 7B 量级模型的纪录。　　2.昆仑万维天工大模型：“天工”是一个 AI 搜索引擎，一个对话式 AI 助手。“天工”拥有强大的自然语言处理和智能交互能力，能够实现个性化 AI 搜索、智能问答、聊天互动、文本生成、编写代码、语言翻译等多种应用场景并且具有丰富的知识储备，涵盖科学、技术、文化、艺术、历史等领域。　　3.通义千问 2.0：由阿里云研发的超大规模的语言模型，具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。通义千问 2.0 在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均比上代有显著提升。　　4.MiniMax-abab：由科技创业公司MiniMax研发。据悉，“Max-abab”是文本、语音、视觉三模态的千亿参数大语言模型，在中、英文服务领域均已超过GPT-3.5 的水平。今年8月份，“MiniMax-abab”大模型通过了国家首批大模型服务备案，面向社会公众提供服务。　　5.言犀基础大模型：由京东科技研发，该模型融合了70%的通用数据和30%的数智供应链原生数据，具有更高的产业属性。　　6.百灵语言大模型：由蚂蚁集团基于Transfromer架构研发。该模型基于万亿级Token语料训练而成，支持窗口长度达32K，在主流推理类榜单中排名前列。据悉，蚂蚁百灵大模型已完成备案，基于百灵大模型的多款产品已陆续完成内测，正陆续向公众开放。

　　这些通用大模型包含千亿甚至万亿参数，覆盖自然语言处理、图像识别、语音识别等方面的任务，已在知识问答、医疗咨询、娱乐领域、视频生成等数十个行业场景领域，展现出广阔的落地应用潜力。　　与通用大模型相比，垂类大模型参数量相对较小。但是因为有一些行业的核心数据和业务系统的生产数据参与，所以在相应行业解决问题更为高效、直接。　　从《案例集》来看，在金融、教育、医疗等领域，已经有不少公司发布了相应产品。

　　根据《案例集》入选案例的应用场景，垂类大模型更针对于企业级应用场景的垂直性和专业性要求，而在模型部署层面，更少的模型参数、训练数据意味着更少的成本，因此垂直应用领域有望实现“万模齐发”。　　《案例集》公布的名单，也恰恰验证了目前垂类大模型发展的一些趋势：　　1. 加注端侧、边缘侧应用。轻量化参数能让手机助手接入AI大模型能力。目前已有案例包括OPPO的小布助手、华为的智能助手小艺等等。　　2. 更倾向于“解决方案”式的交付方式。由于垂类大模型接受了大量特定领域的数据和知识，因此可以基于领域知识生成更具深度的解决方案。例如ChatDD 新一代对话式药物研发助手，面向游戏行业的图像内容生成式大模型等等。　　3. 大模型开始向多模态领域发展。多模态意味着丰富的数据形式，包含视觉、听觉和时序信息。对于大模型模型来说，这意味着可以从多模态中提取和学习更多维度的信息。类似于《案例集》中的单晶炉自动化工艺识别多模态模型，相信未来将会出现更多。　　4. “通用+垂直”模型互相融通的态势。随着AI技术的发展，不同类型的模型之间的界限变得越来越模糊。例如，一些通用模型开始整合垂直领域的知识，而一些垂直模型也开始利用通用模型的技术来增强其功能。例如百川大模型在娱乐领域的应用。 **　　PART 3**

**　　抢滩大模型未来：构建生态**

　　对于AI大模型这种划时代的超级机遇而言，胜负不在于做出一个爆款应用，赚到几亿盈利，而在于，是否抓到了大时代的方向。　　换句话说，当下的大模型竞争早已超过了技术的范畴，更多是一种生态层面的比拼，具体表现在有多少应用、有多少插件、有多少开发者以及用户等。谁能够率先围绕大模型构建生态，或者说谁率先融入生态，谁就能成为领先者。　　大模型要想像电力一样输送给千行百业和千家万户，必然需要一个体系化的产业生态，构建这个生态需要一系列相互关联的因素，包括技术发展、应用场景、数据管理、伦理与法律问题、以及社会影响等。　　在生态建构的路径上，目前企业可分为两派。一派将大模型接入原有的产品线，做升级和优化；另一派试图以大模型产品为中心，建构新一代的“超级应用”。而有些企业试图跳过这两种路径，多方面融入AI大模型生态。从《案例集》公布的大模型服务类案例，我们可以看到有些中国企业做了以下尝试：

　　例如蚂蚁集团实现了一个大模型数据高效高质量供给平台，不仅可降低数据获取和使用成本，且保证来源合规，并能够有效提升数据质量、过滤风险数据保障训练安全；优刻得开发的AGI云上模型服务平台，能提供数据标准化整合、安全合规、提供算力等服务；上海道客研发的云原生大模型知识库平台能够帮助解决信息孤岛，以及定制个性化的私人语料库；泡泡玛特的AI 整合平台集成多个知名AI大模型，为用户提供一站式 AI服务…… 　　这些大模型服务工具，在一定程度上能有效地解决“幻觉”、“道德”、“性能”、“数据合规”等当前AI大模型遇到的问题。更重要的是借助这些服务，可以建设规范可控的自主工具链，帮助AI企业探索“大而强”的通用模型，助力公司研发“小而美”的垂直行业模型，从而构建基础大模型和专业小模型交互共生、迭代进化的良好生态。　　具体内容如下

成为VIP会员查看完整内容

170

316

大模型 · 大型语言模型 · ChatGPT ·

2023 年 4 月 3 日

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自20世纪50年代图灵测试被提出以来，人类一直在探索机器对语言智能的掌握。语言本质上是一个受语法规则支配的复杂的人类表达系统。这对开发有能力的人工智能(AI)算法来理解和掌握语言提出了重大挑战。作为一种主要的语言建模方法，在过去的二十年中，语言建模在语言理解和生成方面得到了广泛的研究，从统计语言模型发展到神经语言模型。最近，通过在大规模语料库上预训练Transformer模型，人们提出了预训练语言模型(PLM)，在解决各种自然语言处理(NLP)任务方面显示出强大的能力。由于研究人员发现模型缩放可以导致性能提高，他们通过将模型大小增加到更大的尺寸来进一步研究缩放效应。有趣的是，当参数规模超过一定水平时，这些放大的语言模型不仅实现了显著的性能提升，而且显示出一些在小规模语言模型(如BERT)中不存在的特殊能力(如上下文学习)。为了区别参数规模的差异，研究界创造了大型语言模型(LLM)这个术语，用于表示规模巨大的PLM(例如，包含数百亿或千亿参数)。近年来，学术界和工业界对LLMs的研究取得了很大进展，其中最显著的进展是基于LLMs开发的ChatGPT(一个功能强大的人工智能聊天机器人)的推出，引起了社会的广泛关注。LLM的技术发展对整个AI社区产生了重要影响，这将彻底改变我们开发和使用AI算法的方式。鉴于这种快速的技术进步，本综述通过介绍背景、关键发现和主流技术，回顾了LLM的最新进展。重点关注LLM的四个主要方面，即预训练、自适应调优、利用率和能力评估。此外，还总结了开发LLM的可用资源，并讨论了剩余问题，以供未来发展方向。本综述提供了关于LLM的文献的最新综述，对于研究人员和工程师来说，这可以是一个有用的资源。

成为VIP会员查看完整内容

205

370

登陆后查看更多精品内容

热门VIP内容

开通专知VIP会员享更多权益服务

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

人工智能与未来指挥

【伯克利博士论文】将大语言模型绑定至虚拟人格：实现人类行为模拟

稀疏自编码器综述：解释大语言模型的内部机制

VIP会员

本周荟萃主题

区块链

区块链（Blockchain）是由节点参与的分布式数据库系统，它的特点是不可更改，不可伪造，也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念，完整比特币区块链的副本，记录了其代币（token）的每一笔交易。通过这些信息，我们可以找到每一个地址，在历史上任何一点所拥有的价值。

深度学习

机器学习的一个分支，它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

机器学习

“机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

推荐系统

推荐系统，是指根据用户的习惯、偏好或兴趣，从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同，这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大，商品个数和种类快速增长，顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题，个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台，以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。

卷积神经网络

在深度学习中，卷积神经网络（CNN或ConvNet）是一类深度神经网络，最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征，它们也被称为位移不变或空间不变的人工神经网络（SIANN）。它们在图像和视频识别，推荐系统，图像分类，医学图像分析，自然语言处理，和财务时间序列中都有应用。

计算机网络

计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备，通过通信线路连接起来，在网络操作系统及网络通信协议的管理和协调下，实现资源共享和信息传递的计算机系统。

命名实体识别

命名实体识别（NER）（也称为实体标识，实体组块和实体提取）是信息抽取的子任务，旨在将非结构化文本中提到的命名实体定位和分类为预定义类别，例如人员姓名、地名、机构名、专有名词等。

机器翻译

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

计算机视觉

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

微信扫码咨询专知VIP会员

Top