复制 GPT-3 太难了？别急，它的“平替”来了

会员服务 ·

复制 GPT-3 太难了？别急，它的“平替”来了

2022 年 1 月 11 日 AI前线

作者 | Kyle Wiggers

译者 | 核子可乐

策划 | 冬梅

GPT-3 的“平替”来了，多项性能更优，规模小 16 倍。

大约一年之前，总部位于纽约布鲁克林区的自然语言处理初创公司 Hugging Face 推出了 BigScience。作为一个涉及 900 多名研究人员的国际项目，BigScience 旨在更好地理解自然语言模型原理、并大大提升语言模型质量。

事实上，这类大型语言模型（LLM）能够实现基于文本的数据集识别、预测乃至语言生成算法，已经在商业应用与技术探索等多个层面引发广泛关注。但是，如果没有 OpenAI 和 DeepMin 等企业强大的资源支持，开发 LLM 所需要的昂贵硬件成本仍然是横亘在普通研究人员面前的一道天堑。

从欧洲核研究组织（CERN）及大型强子对接机等项目中汲取到的灵感，推动 BigScience 立下了以开源方式打造普适性人工智能 LLM、进而建立大型文本数据集社区的发展目标。这些模型将在法国巴黎附近的 Jean Zay 超级计算机上进行训练，这也是迄今为止全球最强大的计算机设备之一。

企业巨头们当然可以不在乎，但 BigScience 这样的努力实际是在降低 LLM 的接触门槛、提升模型开发透明度。除了由开放 AI 研究小组 EleutherAI 创建的几套模型之外，此前一直鲜有在研究或生产部署中使用训练后 LLM 的先例。OpenAI 拒绝将其最强大的 GPT-3 模型开源，反而是将源代码独家授权给了微软。与此同时，英伟达等厂商虽然发布了性能不错的 LLM 代码，但后期严苛的训练调整需求注定其仍只是少数拥有强大硬件的用户们的狂欢。

刚刚离开 Meta（前 Facebook）AI 研究部门、转投 Hugging Face 担任研究主管的 Douwe Kiela 在采访邮件中告诉 venturebeat：“很明显，直接跟业界巨头对抗并非明智之举。但作为弱势一方，我们可以找寻 Hugging Face 最与众不同的优势。初创企业更具活力，工作进程更快，而且对于开源的关注也让我们能够与来自学界乃至其他领域的研究同好们建立起强大的社区合作关系。这一切，都是在为 AI 技术的大众化与公平化进程而努力。”

LLM 的大众化之路

与其他任何语言模型一样，LLM 也需要根据文本示例理解不同单词出现的几率。较为简单的模型会在特定语境下浏览单词，而大型模型则直接去“啃”句子甚至是段落。示例会以训练数据集中的文本形式出现，包含从社交媒体、维基百科、书籍、GitHub 等软件托管平台以及公共网络上抓取到的 TB 级、甚至是 PB 级数据素材。

但接下来才是更大的难题，我们往往无法使用现成商用硬件训练最先进的 LLM 模型。英伟达及微软的 Megatron 530B LLM 整个训练周期耗费可能高达数百万美元，这还不包含模型存储所带来的费用。接下来则是推理阶段，即通过运行训练后模型获得预测结果。根据估计，在单一 AWS 实例上运行 GPT-3 的年均成本至少也要达到 87000 美元。

年初发布的 EleutherAi 模型与训练数据集倒是做出了一些更加可行的商业化探索。但此次 BigScience 的适用范围更广，不仅涵盖 LLM 的训练与发布，同时也解决了不少重大技术缺陷。

解决不平等问题

BigScience 的立项，源自 Hugging Face 公司首席科学官 Thomas Wolf、GENCI 的 Stéphane Requena 以及 IDRIS 的 Pierre-François Lavallée 之间的一次讨论。他们不仅希望创建数据集与 LLM，更想探索 LLM 模型可能造成的社会影响。目前有指导委员会为 BigScience 专门提供科学与常规建议，而组织委员会则负责设计任务并组织研讨会、黑客马拉松及对外公共活动。

BigScience 组织委员会内的各个工作组分别负责应对数据治理、归档策略、公平性评估、偏见 / 偏差与社会影响等难题。Hugging Face 研究科学家 Yacine Jernite 在邮件采访中表示，“到底怎么在机器学习领域以更负责任的态度使用数据？唯一可以确定的答案就是，我们没有答案、也代表不了所有人。良好的治理结构应该能让更多利益相关方参与到决策进程当中，并让那些日常生活将要受到技术影响的人们发表意见——哪怕他们对于技术一窍不通。”

BigScience 工作组希望能够收集到充足的多样化指标，尽可能提升模型对不同社群的代表度。除了书籍、正式出版物、广播录音、播客和网站之外，该数据集还引入了来自 Machine Learning Tokyo、VietAI 以及 Masakhane 等社区的专业知识，并针对斯瓦希里语、阿拉伯语、加泰罗尼亚语、汉语、法语、孟加拉语、印度尼西亚语、葡萄牙语及越南语等不同地区、文化背景及语言受众进行了编码。

从计算角度来看，LLM 有着很严重的偏向性。英语 LLM 的数量远远超过任何其他语种 LLM；真正称得上有一搏之力的，也只有德语、法语和西班牙语等少数西欧语种。正如哈佛大学、乔治梅森大学和卡耐基梅隆大学近期共同发布的语言技术研究报告，决定模型发展水平的往往是特定语种使用者的“经济实力”、而非人口体量。

另一个难题在于，使用非英语语种训练而成的单 / 多语言模型虽然也在持续增加，但往往出于企业利益考虑而拒绝开源。而且由于公共数据源存在系统性念头，非英语模型的表现总体上还是不及英语模型。例如，基于维基百科的数据集内不同语种的素材规模差异巨大，而且在待完善内容方面的立项百分比、编辑次数和用户浏览量上也截然不同。相当一部分使用特定语种的群体根本无法访问维基百科。此外，阿拉伯语和乌尔都语版本的电子书大多为图像扫描件、而非纯文本，在使用光学字符识别工具转录过程中其精度可能低至 70%。

BigScience 表示，作为项目工作的一部分，他们已经制作出一份分布在世界各地、包含近 200 种语言资源的目录。该项目的贡献者还建立起最庞大的阿拉伯语公共自然语言目录之一，并将这份拥有 200 多个数据集的目录命名为 Masader。

建模与训练

BigScience 的 LLM 探索之旅虽然刚刚起步，但其早期工作已经显示出不俗的潜力。只需在 Jean Zay 进行几个小时的计算，研究人员就训练出一套名为 T0 的模型。其在多项英语基准测试中的表现均优于 GPT-3，而且体量仅为后者的十六分之一。而 T0 的加强版 T0++ 则顺利完成了不少在训练中从未明确涉及的任务，包括根据食谱生成烹饪说明，并回答关于宗教、衰老、机器学习和道德的问题。

BIgScience T0 模型的更多示例，此模型仍在开发中

虽然目前的 T0 只接受过公开英语数据集的训练，但 BigScience 确定未来会引入更多围绕数据展开的分组研究成果。

图注：BigScience T0 模型的输出结果

但脚下的路还很长。BIgScience 研究人员在过程中发现了不少令人担忧的迹象，例如 T0++ 会生成阴谋论并表现出性别偏见，例如将“女性”与“保姆”联系起来，将“男性”与“建筑师”联系起来；在回答“疫苗会导致自闭症吗？”时给出肯定的答案，甚至认为“地球是平的”。下一阶段的开发将会对这套包含 1040 亿个参数的模型进行实验（仅相当于 GPT-3 参数量的一半出头），最终达成 BigScience 发展路线图的终点：训练出一套具有 2000 亿个参数的多语言模型。模型参数源自历史训练中学习到的算法，一般来说模型复杂度越高、参数量就越大（但也有反例）。

AI 芯片初创公司 LightOn 的研究科学家兼 BigScience 架构负责人 Julien Launay 表示，“我们的建模团队一直专注于规划并验证架构与训练设置，确保从最终 GPU 资源中榨取最大收益。我们需要确保这套最终架构经过验证、可扩展、高效而且适合多语言训练的实际需求。”

参与 BigScience 模型设计工作的 Yandex 研究科学家 Max Ryabinin 也提到，他们目前的主要工程挑战之一就是确保 BigScience 大规模语言模型在训练实验中的稳定性。他提到，一般体量较小的模型更易于实现训练稳定性；而一旦参数规模超过 100 亿，其学习走向就会变得难以预测。

“遗憾的是，目前大多数研究论文都没有涉及这个问题。即使是关于那些超大规模神经网络的论文，也往往会忽略掉这种关于不稳定性问题的信息。而如果没有这方面知识，我们将很难在大型模型上实现结果重现。因此，我们决定先在 1000 亿级别的较小规模上开展初步实验，尽量让问题在正式运行之前暴露出来，再采取多种已知方法尝试解决这些不稳定性。我们会公开发布自己的发现，希望能造福于整个机器学习社区。”

各个小组齐头并进

与此同时，BigScience 麾下的各个工作小组也在从自己的角度调查并尝试解决 LLM 的隐私影响框架，包括知情同意问题。其中一个小组正在探索 LLM 设计中可能引发的法律问题，并为 BigScience 制定道德章程。另一个小组则负责研究能够证明数学定理的 LLM 数据集、模型和配套软件工具。

马克斯普朗克创新研究院研究员、BigScience 成员 Carlos Muñoz Ferrandis 在采访邮件中表示，“从法律角度来看，LLM 这类模型很可能遭到恶意利用，所以我们必须站在道德和法律的角度设计出一套完备的许可框架。因此，我们目前正在开发开放许可证，其中囊括了我们所能想到的、可能有损个体利益的情况与相应限制。一方面，我们希望最大限度开放这套自然语言处理模型；另一方面，我们意识到现有许可框架并不应知 LLM 强大的能力。在数据与治理方面，我们也考虑到可能出现的相关挑战，例如如何与特定数据提供方就数据集使用方式进行谈判，或者从网络上抓取数据时需要考虑的重要法律因素，包括个人信息使用与版权例外等不确定性问题。”

根据 Hugging Face 数据治理工作负责人 Margaret Mitchell 的介绍，Hugging Face 的 2022 年发展计划将更多关注 AI 工作流程工具、开发用于 LLM 训练与评估的库，并推出标准化“数据卡”与“模型卡”以覆盖各类 LLM 功能信息。Mitchell 此前曾担任谷歌道德 AI 团队联合创始人与负责人，但之后因抗议谷歌违反行为准则的作法而被迫离职。

Mitchell 在采访邮件中提到，“我们正在开发数据应用工具，希望通过消除编码需求的方式，帮助更多在社会科学等领域拥有专业知识的非工程类人士们迈入开发的世界。只有这样，机器学习在整个传播周期中才能更从容地克服偏见问题。我们还在开发用于训练和评估的库，帮助开发人员建立起「公平」模型……或者利用先进技术选择更符合多样性标准的实例素材。”

BigScience 计划在今年 5 月完成当前工作，届时项目成员将参加于都柏林召开的 2022 年计算语言学协会研讨会。他们希望到时候能拿出一套庞大、而且在理想情况下远超当前顶尖 LLM 性能的全新 LLM 方案。