Andrew Ng是机器学习的先驱、Landing AI的创始人兼首席执行官,也是谷歌Brain的前团队负责人。最近,他在未来以数据为中心的人工智能虚拟会议上发表演讲,讨论了一些负责任的以数据为中心的人工智能开发的实用技巧。
本演讲将深入探讨适用于非结构化数据的以数据为中心的AI技巧。
一个人工智能系统由两部分组成:模型-算法或一些代码-数据。对于大多数数据科学家(包括我自己)来说,机器学习研究人员的主导模式是下载一个固定的数据集,并在模型上进行迭代。这已经成为一种惯例,这是对这种以模型为中心的方法的成功的肯定。多亏了这种以模型为中心的AI开发模式,今天的“代码”或模型基本上是一个已解决的问题。
这种对模型的强调将我们带到了高性能模型架构被广泛使用的地方。然而,系统工程数据集的方法是滞后的。今天,我发现使用工具、流程和原则来系统地设计数据来提高人工智能系统的性能要有用得多。就在过去的4-5个月里,以数据为中心的人工智能运动获得了很大的发展势头,现在“以数据为中心的人工智能”这个术语出现在许多公司的主页上,而在此之前它几乎是不存在的。