要更有钱、更烧钱,OpenAI 重组,加速融资之路

3 月 12 日 人工智能学家

来源:AI 科技评论

OpenAI 是一个非盈利性的 AI 组织,他们雇佣了许多一流的研究和开发人员,在机器学习理论和深度学习应用方面多有诸多成果,我们曾经报道过的许多强化学习连续控制成果、5v5 DOTA AI「OpenAI Five」、自动生成人类水准文本的 GPT-2 就都来自他们。


OpenAI 用强化学习训练机械手


在近几年的科研中,OpenAI 明显尝到了大规模计算能力的甜头。OpenAI Five 和 GPT-2 的优异表现背后,算法设计方面的创新并不多,更重要的是大规模计算能力。而 OpenAI 也决定在这个方向上走得更快、更远一些,OpenAI 打算未来几年在大规模云计算方面投入数十亿美元、吸引并留住更多优秀的 AI 人材,甚至建造 AI 超级计算机。


目标相当宏伟,可这些钱要去哪里找呢?他们的答案是,重组 OpenAI,吸引更多投资。


新的 OpenAI 长什么样子?


OpenAI 在创立之初就确定了自己的科研使命是确保通用人工智能(AGI)能够造福全人类,主要方式是尝试建造安全的通用人工智能,并和全世界分享它带来的好处。抱着这样的愿景成立的非盈利组织 OpenAI 自然能自由地追寻自己的使命,但同时它吸引投资、获得利润的能力自然是先天不足的。


OpenAI 在声明博客中写道「我们希望增加我们获得投资的能力,但同时还要保持我们的使命不受干扰。然而据我们了解,目前并没有什么合法的公司结构可以达到我们想要的平衡。我们想到的办法是创建一个新公司 OpenAI LP(有限公司),它将是盈利性和非盈利性的混合。我们把它称为『有上限的盈利公司』。」



OpenAI 未来将包含两部分,盈利性部分(「OpenAI 有限公司」)和非盈利性部分(「OpenAI 非盈利」)。在他们的设计中,投资人和绝大多数员工都将属于盈利性的部分,并正常进行科研工作;当 OpenAI 沿着原有使命取得阶段性科研成果、带来利润回报的时候(如果获得利润回报的话),员工和投资人可以像正常的初创企业一样分享这些回报。可以预期一些回报,便于 OpenAI 获得投资、吸引高水平人材。但同时,他们会为科研成果带来的利润回报设定一个上限,超过这个上限的部分将不参与盈利性部分的分配,而转交给原本的 OpenAI 非营利性部分(首轮投资人的回报上限设定为投资额的一百倍,未来可能会降低一些)。


「OpenAI 有限公司」的实际控制权将属于「OpenAI 非盈利」的董事会。以及,只有一小部分的董事会成员可以持有未来的 OpenAI 的股份,而且,当 OpenAI 有限公司的投资人和员工的利益和 OpenAI 非盈利的使命发生冲突需要投票的时候,只有不持有股份的董事会成员可以参与投票。



在所有的员工和投资人合同第一页都会有这样一个紫色的警示框,内容大意是:OpenAI 有限公司的目标是推进 OpenAI 开发安全的通用人工智能并造福全人类的使命。OpenAI 非盈利的职责以及 OpenAI 纲领中提出的条款优先于获得利润。OpenAI 有限公司有可能永远无法获得利润,OpenAI 非盈利也没有义务让它产生利润。OpenAI 非盈利重新投资公司实体以及 OpenAI 有限公司的现金流在科研和开发活动中不受任何限制,也对投资人没有任何义务。


可以看出来,以上的种种设计都是为了确保 OpenAI 仍然对「不受盈利困扰的科研活动」这条主线有足够的控制,并确保它得以执行。未来的 OpenAI 对投资人的吸引力自然比以前要强一些,不过「盈利」看起来仍然只是锦上添花。这看起来也像是一场大胆的实验,即便 OpenAI 是 AI 领域的明星企业,但在这种种设计、种种限制,以及重资金的未来规划之下,是否真的会成为投资人眼中的香饽饽呢?


架构变了,科研路线不变


OpenAI CTO Greg Brockman 和 OpenAI 联合创始人、科研总监 Ilya Sutskever 在博客中写道:我们的每日科研工作并不会因此发生变化,也继续相信只需要考虑如何开发新的 AI 技术就可以为全人类创造更多的价值(而不是通过制造商业化的产品);新的公司架构也为获得技术的长期回报留下了许多灵活的空间。


OpenAI 有限公司目前有大约 100 名员工,分别属于三个主要层面:能力(增大 AI 系统的能力范围)、安全(确保这些系统和人类的价值观相符)以及政策(确保对这些系统有正确的管理方式)。OpenAI 有限公司受 OpenAI 非盈利管理,访问学者、实习生、教育计划以及政策发声等活动也会继续在 OpenAI 非盈利的组织下进行。


除此之外,OpenAI 原有的开放科研、开放合作等理念也会延续下去(并不会因为有投资人参与就变得不再开放)。获得利润仍然不是 OpenAI 的首要目标,所以并不用担心 OpenAI 作为学术研究机构大变天。


根据 OpenAI 博客介绍,目前已经有 Reid Hoffman 慈善基金会、Khosla 风投等机构成为了他们的投资人。AI 科技评论也祝愿有更多的资金可以参与到 OpenAI 的科研中来,既加速了人工智能领域的发展,也展现了对技术纯粹的追求以及对全人类的美好期望。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


登录查看更多
点赞 0

Over recent years heterogeneous systems have become more prevalent across HPC systems, with over 100 supercomputers in the TOP500 incorporating GPUs or other accelerators. These hardware platforms have different performance characteristics and optimization requirements. In order to make the most of multiple accelerators a developer has to provide implementations of their algorithms tuned for each device. Hardware vendors provide libraries targeting their devices specifically, which provide good performance but frequently have different API designs, hampering portability. The SYCL programming model allows users to write heterogeneous programs using completely standard C++, and so developers have access to the power of C++ templates when developing compute kernels. In this paper we show that by writing highly parameterized kernels for matrix multiplies and convolutions we achieve performance competitive with vendor implementations across different architectures. Furthermore, tuning for new devices amounts to choosing the combinations of kernel parameters that perform best on the hardware.

点赞 0
阅读1+

In this paper, we investigate the impact of diverse user preference on learning under the stochastic multi-armed bandit (MAB) framework. We aim to show that when the user preferences are sufficiently diverse and each arm can be optimal for certain users, the O(log T) regret incurred by exploring the sub-optimal arms under the standard stochastic MAB setting can be reduced to a constant. Our intuition is that to achieve sub-linear regret, the number of times an optimal arm being pulled should scale linearly in time; when all arms are optimal for certain users and pulled frequently, the estimated arm statistics can quickly converge to their true values, thus reducing the need of exploration dramatically. We cast the problem into a stochastic linear bandits model, where both the users preferences and the state of arms are modeled as {independent and identical distributed (i.i.d)} d-dimensional random vectors. After receiving the user preference vector at the beginning of each time slot, the learner pulls an arm and receives a reward as the linear product of the preference vector and the arm state vector. We also assume that the state of the pulled arm is revealed to the learner once its pulled. We propose a Weighted Upper Confidence Bound (W-UCB) algorithm and show that it can achieve a constant regret when the user preferences are sufficiently diverse. The performance of W-UCB under general setups is also completely characterized and validated with synthetic data.

点赞 0
阅读1+
Top