我在斯坦福做的科研demo…要被导师带去美国国会演讲?

2022 年 5 月 27 日 夕小瑶的卖萌屋

文 | Jazon
编 | 小戏

大家好,我是 Jazon。时光荏苒,一转眼我已经快要从 Stanford CS 系毕业了。今年7月,我将开始谷歌总部工作,短期内会在硅谷定居,湾区的朋友们欢迎约起呀。

笔者去年写过一篇文章,分享了我研一时做的科研项目情况(推荐系统相关)。而进入研二,我于 2021 年 9 月加入了一个叫做“平台中间件”的新项目,做了半年。这是一个以社会变革为目标的,硬核的 NLP 应用项目,具体如何,且听我慢慢道来:

背景:互联网平台与舆论仲裁

十六年前(2006年),Facebook 推出了 News Feed,这是在社交平台历史上的一个开创性的发明。News Feed 就是根据用户的喜好,在首页给用户展示推荐的帖子,用户可以无限下滑,查看更多帖子

▲图:Facebook News Feed示意图

后来这个“Feed”的模式被各种平台采用,从推特主页到各大新闻网站,几乎遍布我们生活的方方面面。然而,这个模式也带来了一些问题,其中包括:

(1)对于社会、政治类一些有争议的话题,是否应该由平台作为仲裁者,去审查过激言论、过滤不实信息,避免不好的帖子出现在用户的 Feed 里呢?

(2)平台拥有了影响舆论的权力,怎么确保平台不滥用这个权力,在 Feed 里给人们推送特定观点的帖子呢?

目标:变革人们接受信息的方式

针对上面的问题,我们提出“平台中间件”(Platform Middleware)的概念,其要义是——把 News Feed 的推荐算法去中心化,交给第三方去做。在目前的设想里,“中间件”的功能主要有:

(1)辨别敏感言论,并对这些帖子标记“左倾”或“右倾”分数、“争议性”分数;如果帖子包含仇恨言论等,可以选择不显示该帖子;

(2)对平台推荐的帖子,进行重新排名。

中间件”提供商会有很多,可能各自有自己的政治立场,用户可以自行选择使用哪个“中间件”的服务。这样一来,可以帮助实现舆论仲裁、信息传播的去中心化

▲图:“中间件”对Twitter帖子的标记示意图

技术:强大的OpenAI API

前面提到,这个项目需要辨认有争议的言论、辨别言论是左倾还是右倾,涉及到 NLP 算法。不过我们自己不做建模,而是全部使用 OpenAIGPT-3,完成 NLP 相关任务。

OpenAI 为他们的 GPT-3 模型提供了公开的 API(https://beta.openai.com/docs/ ),可以付费使用。他们提供的 GPT-3 模型家族里,目前有 4 个“engine”可用,最好的 engineDavinci,它最强大,不过也最慢、价格最贵。而最基础的 engineAda

对于辨别文本“左倾还是右倾”的任务,我们主要试了下面 2 个 Endpoints

(1)Classification 文本分类:给定一个帖子、两个 Labels “Left” 和 “Right”,返回两个 Labels 对应的匹配度分数

(2)Completion 文本完成:给定一段文字,前面是一些例句,最后附上要分类的帖子文本,让 AI 完成文本,给出 “Left” 还是 “Right” 的判断

▲图:让GPT-3完成的文本示例,其中 s 是要归类的句子,放于例句之后

对比效果之后,我们采用了 Completion Endpoint,用文本完成的方式来做分类。它的准确率高得吓人,也让我体会到了 GPT-3 的强大。

我们还尝试、使用了其他公开的 API,比如用“Perspective API”来辨认仇恨言论等等。

导师:历史性大牛

项目的指导老师 Ashish Goel,是 Stanford 计算机系博士毕业,不过现在是管理工程系下的教授,十分全能。他之前在 Twitter 兼职做过科学家,负责了他们的推荐算法。

这个项目 Idea 的来源,是美国政治理论家福山(Francis Fukuyama),也是 Stanford 的教授。关注历史政治的朋友们可能知道,苏联倒台后,福山教授在 1992 年提出了著名的“历史终结论”,认为人类社会已经达到了终极组织形态,即西式民主,以后不会再有根本性变化。

这个理论当然很有争议,不过这不是本文的讨论范畴,也不影响福山教授是位大牛的事实。我17岁时就在网上读到过他,没想到在 Stanford 竟然可以和这样能载入史册的人物共事,真是神奇。

思考:科研不只技术的创新

在加入项目初期,我在写代码之外,也需要花时间主动了解 Project 的大格局、大目标,不然连自己应该干啥都不知道,容易做了一些事结果发现不是老师想要的。

11 月初,Stanford 搞了个 HAIHuman-centered AI)大会,主题是“Radical Policies for AI”(AI 的颠覆性政策)。Ashish 老师在会上发言,进一步阐述了我们的项目。我听着听着,突然意识到,这个科研项目,和我以往做的科研有本质的区别:

▲图:Ashish 老师在 HAI 大会上的报告

我们的最终目标是引领社会变革,而现在要做的是证明“技术可行性”。换句话说,主要目的不是创造新技术,而是运用已有技术,实现社会层面的改变

我想,之前我做过的科研大都关注在技术、方法的创新上,而很少认真思考这些新技术能怎样在微观、宏观上引导未来,改变社会,这种引导与改变从微观上讲是解决小众的需求,而从宏观上看就是影响大众的生活方式

当然,如何预测、把控未来,本就是一个无解的问题,但真正的大神还是能做一些基本的判断的。Ashish 不是空想家,在他的“中间件”设计蓝图里:

(1)考虑了加进“中间件”之后,如何维护社交平台现有的商业模式;

(2)阐述了如果要实现设想,国会和政策制定者应该怎么做;

(3)表示这个计划未来一定会调整、进化。

成果:为国会演说做准备

2022 年 2 月,我们搭好了模拟“中间件”的服务器和前端插件,初步做成了产品。经过各种 Presentation,我们不断汲取大家的反馈,不断调整设计、打磨效果,经过一次次迭代,终于完成了可行性演示。

未来,福山教授有计划带着我们做的 Demo,去往国会,向美国的最高立法者们演说,真正改变美国互联网行业以及社交平台运行的模式。

3 月,项目阶段性收尾,老师请组员(我和我的 MSCS 同学 Cassie)吃了饭。至此,我在 Stanford 的科研生活也就结束了。在这里,我在技术、团队合作等等方面,都学到了太多太多,一路走来,也对社会做出了一点属于自己的小小贡献。

▲图:老师请我们吃饭的地方

最后,感谢大家的阅读:)

萌屋作者:Jazon

来自南京,斯坦福MSCS(计算机硕士)在读,2022年6月毕业后在Google总部工作。爱安静地探索宇宙的奥秘,也爱和朋友桌游、运动。梦想养猫,花花与三猫的视频平均每个看过20+遍。相信AI虽然有趣,但短期内在美国职场生存,还是要靠丰富的开发技能。

作品推荐

  1. 人在斯坦福,刚上CS224n
  2. 谢撩,人在斯坦福打SoTA

后台回复关键词【入群

加入卖萌屋NLP、CV与搜推广与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!


登录查看更多
1

相关内容

演讲又叫讲演或演说,是指在公众场所,以有声语言为主要手段,以体态语言为辅助手段,针对某个学术科技问题,完整地发表自己的见解和主张。
【2022新书】数据隐私:工程师手册,799页pdf
专知会员服务
82+阅读 · 2022年6月20日
ICLR 2022 评审出炉!来看看得分最高8份的31篇论文是什么!
756页美国国家安全AI战略报告
专知会员服务
163+阅读 · 2021年3月25日
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
专知会员服务
309+阅读 · 2020年11月24日
ICLR 2021 评审出炉!来看看得分最高的50篇论文是什么!
专知会员服务
40+阅读 · 2020年11月13日
【CIKM2020-教程】仇恨言论假新闻检测,157页ppt
专知会员服务
35+阅读 · 2020年10月24日
一图搞定ML!2020版机器学习技术路线图,35页ppt
专知会员服务
93+阅读 · 2020年7月28日
Google 的工程实践对初创公司有用吗?
InfoQ
0+阅读 · 2022年4月9日
金融时报如何建设工程能力
InfoQ
1+阅读 · 2022年2月23日
如果Sci-Hub胜诉,对全球科研意味着什么?
学术头条
0+阅读 · 2021年12月28日
我在斯坦福做科研的碎碎念
夕小瑶的卖萌屋
1+阅读 · 2021年9月1日
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
AI界的State of the Art都在这里了
机器之心
12+阅读 · 2018年12月10日
吴恩达说,AI论文够多了,赶紧搞吧!
云头条
20+阅读 · 2017年11月13日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年8月18日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
28+阅读 · 2021年10月1日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
A Survey on Edge Intelligence
Arxiv
49+阅读 · 2020年3月26日
VIP会员
相关VIP内容
【2022新书】数据隐私:工程师手册,799页pdf
专知会员服务
82+阅读 · 2022年6月20日
ICLR 2022 评审出炉!来看看得分最高8份的31篇论文是什么!
756页美国国家安全AI战略报告
专知会员服务
163+阅读 · 2021年3月25日
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
专知会员服务
309+阅读 · 2020年11月24日
ICLR 2021 评审出炉!来看看得分最高的50篇论文是什么!
专知会员服务
40+阅读 · 2020年11月13日
【CIKM2020-教程】仇恨言论假新闻检测,157页ppt
专知会员服务
35+阅读 · 2020年10月24日
一图搞定ML!2020版机器学习技术路线图,35页ppt
专知会员服务
93+阅读 · 2020年7月28日
相关资讯
Google 的工程实践对初创公司有用吗?
InfoQ
0+阅读 · 2022年4月9日
金融时报如何建设工程能力
InfoQ
1+阅读 · 2022年2月23日
如果Sci-Hub胜诉,对全球科研意味着什么?
学术头条
0+阅读 · 2021年12月28日
我在斯坦福做科研的碎碎念
夕小瑶的卖萌屋
1+阅读 · 2021年9月1日
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
AI界的State of the Art都在这里了
机器之心
12+阅读 · 2018年12月10日
吴恩达说,AI论文够多了,赶紧搞吧!
云头条
20+阅读 · 2017年11月13日
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年8月18日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员