11岁的Tumblr,开启艰难禁黄之路

2018 年 12 月 6 日 钛媒体

钛媒体 TMTPost.com

|科技引领新经济|

 

 Tumblr想建立一套合理且精准的色情内容筛选算法是很困难的。


钛媒体作者丨脑极体


相信今天不少人都看到了这则新闻——轻博客产品Tumblr宣布从12月17日开始全面禁止所有色情内容。


按理说这根本算不上新闻,而是天经地义的事。但Tumblr不同,尤其是对于中国用户来说,很多人都会将这款产品和“老司机”、“福利”联系在一起。和很多社交媒体不同,Tumblr在色情内容方面的审核标准更低。尤其在“上海陆家嘴”事件发生之前,中国用户不需要科学上网也能登录。


如此奇葩的社交媒体社区氛围,究竟是如何形成的?而这次对色情内容的禁封,又会对Tumblr产生哪些影响?


社交巨头围攻下,

Tumblr的突围不只靠小黄图


虽然不像Twitter、Facebook和Instagram这类存在感更强的社交媒体,但Tumblr的流量远超过大家想象。



在2013年Y Combinator推出了一项调查报告,其中显示Tumblr是青少年消费者使用最多的社交网站。59%的青少年表示他们经常使用Tumblr,相比之下,只有54%的青少年表示他们经常使用Facebook。在亚马逊的Alex流量排名中调,Tumblr在全球排名第67名,在美国排名第22名——考虑到这是一款成立自2007年的产品,这样的成绩已经很理想了。


不过Tumblr和Pronhub这类纯粹的色情网站不同,Tumblr上的内容非常庞杂开放,即使是色情内容,也更加艺术化。从一开始,Tumblr就属于个人艺术家、摄影师们发布作品的空间。为了适应这一群体,Tumblr设置了非常开放的内容规则,发布者可以在自己的博客上标注好含有成人内容,其他用户如果不想看到,直接设置拒绝收看。



加上Tumblr的兴趣群组设置,其实人们在Tumblr上看到的大概是这几种内容:独立艺术家和摄影师的作品、一些包含色情内容的同人画作、meme表情包、福利姬的照片、色情博主的作品。


与其说 “色情”其实更适合Tumblr的形容是“NSFW”——not safe for work,不适合在工作时间的打开。类似于那种虽然“合法”,但被同事看到会非常尴尬的内容。由此也形成了一种非常特殊的社区氛围,用户们的品味更高,对于粗制滥造的广告内容非常抗拒,就连创始人本人都不愿意加入广告。这也为Tumblr后来的问题埋下了隐患。


这种开放的氛围让Tumblr成了当下非常稀少的兴趣导向轻博客,在Facebook、Twitter和Instagram这些强调个人身份和社交的平台围攻下,仍然能有自己的生存空间。


开放之下的色情陷阱


但这种开放,带给Tumblr的隐患或许远大于好处。


首先,是严重违法内容的泛滥。


色情可以艺术的,更可以是违法的。尤其是当不对色情内容进行限制时,面对儿童色情这种严重违法内容来说,控制方式恐怕只能靠用户的自觉举报了。



可惜人类的自觉性远没有想象中那么高,不仅用户常常在平台上发现违法内容,包括最近Tumblr在App Store上下架,也与儿童色情有关。


同时这种宽松的监管政策也让Tumblr在一些国家和地区受阻。


除了中国以外,韩国政府也对Tumblr的内容颇为不满。韩国放送通信审议委员会在今年很严肃地表示,虽然韩国和美国对于色情内容的法律规定不同,但如果Tumblr再不对相关内容进行处理,韩国将考虑在本土屏蔽Tumblr。


最可怕的是,NSFW内容的存在让Tumblr在广告收入上大大受限。


虽然用户量巨大,但Tumblr早在2013年就以10亿美金的高价卖身给了雅虎,而2016年雅虎又被卖身给了Verizon。虽然Verizon给了Tumblr足够的耐心和时间,但爱沙尼亚塔林大学一位一直研究Tumblr的教授提出,很多广告客户很抗拒自己的品牌出现在NSFW内容周围。虽然没有明确的数据显示出Tumblr具体的收入,但2013年时Tumblr曾透露自己一年的广告收入不足1500万美金,而2014年雅虎收购之后,称Tumblr的收入将在2015年达到1亿美金。


从雅虎如今的悲惨状况来看,Tumblr的收入应该远远没有达到预期。


为什么Tumblr的禁黄之路必然艰难?


千言万语,Tumblr禁封色情内容的原因可以被总结为一句话——要恰饭的嘛。


但Tumblr的禁黄之路并不顺利。数据调查显示,虽然发布色情内容的用户只占0.1%,但有22%的用户点赞、评论、转发了色情内容。于是消息传出后,很多色情博主表达了自己的不满,甚至贴出了自己在其他内容平台账号,号召粉丝们转移。


在这种前提下,Tumblr想建立一套合理且精准的色情内容筛选算法是很困难的。在最近开始测试色情内容禁封算法时,因为算法的错误判断,Tumblr遭到了大量的用户上诉。由此可以看出,此前Tumblr并没有对色情内容进行识别和标准,只是依靠发布账号的自我界定来评判。



作为内容社区,Tumblr的内容形式非常复杂,有真人照片、有手绘漫画还有文字等等形式的色情作品,以往通用式的色情内容识别算法很可能并不适用。何况Tumblr一直以小团队著称,如今也过了最具价值的增长期,如今重金投入到人工智能上并不现实。


目前看来,Tumblr选择的方法是先让算法进行选择去屏蔽内容,再让用户手动评判算法是否正确。也就是说让用户自己成为Tumblr的数据标注工人。


这就带来了一个有趣的问题,在一个色情内容泛滥且受欢迎的平台上,把算法标准交到用户手上,会形成什么样的结果?


在去年Facebook曾经做过一件差不多的实验,让用户自己对假新闻进行标注,从而增加Facebook的新闻验证算法精准度。但结果是有不同左右政见的用户们,疯狂对不符合自己政见的新闻进行假新闻的标注。最终实验以失败告终。


在这件事上,群体的无序性体现的淋漓尽致。现在已经有一些用户号召彼此在内容标注时为色情内容手下留情,试图保护他们热爱的社区氛围。


由此可见,Tumblr的禁黄之路必然不会太顺利。


Tumblr的现状,其实可以被套用在很多小众的兴趣化社区上(例如贡献了大量流行文化符号和网络暴力事件的4chan)。特殊内容氛围的长期浸淫,让这些社区很难利用上通用的内容AI模型,如果前期没有进行相关的数据标注准备,后续想要补课就会越来越难。


而如果想要依靠用户的力量进行数据标注,用户则很容易识别出平台方想要破坏当前社区氛围的目的,然后对规则进行扰乱和破坏。


相比色情内容,这种怪圈才是Tumblr们最大威胁。(本文仅代表作者观点


2018 T-EDGE 全球创新大会

5000+T-EDGE前沿先锋出席

100+国内外前沿领袖深度讨论

30+日韩以印等国际项目链接全球

邀请你一起重建科技巴别塔

👇识别下方小程序或点击阅读原文👇

限时优惠票热卖中,狂戳购票!

点击阅读原文或识别上方小程序,报名参加「2018年 T-EDGE 全球创新大会」 精彩不容错过
登录查看更多
1

相关内容

Tumblr 成立于是 2007 年,是微博客(microblogging)的一种。该产品传统博客的形式,并将其演变成一种意识流式的琐碎叙述,日志短小精悍、触发点十分随意──可以是一幅照片、一段视频、一节引言、一条链接甚至一个闪念。从而提供介于 Twitter 和传统的全功能博客之间的服务。
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
《代码整洁之道》:5大基本要点
专知会员服务
49+阅读 · 2020年3月3日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
组织|15000字解密华为的薪酬和激励体系
智慧云董事会
84+阅读 · 2019年6月19日
知乎破8万赞回答:那些厉害的人,思维方式比你强在哪儿?
说说我的老同事,前端大神程劭非
余晟以为
17+阅读 · 2019年1月14日
中国移动互联网2018上半年报告
计算机与网络安全
3+阅读 · 2018年7月22日
谈谈王者荣耀
小道消息
4+阅读 · 2017年7月6日
UPSNet: A Unified Panoptic Segmentation Network
Arxiv
3+阅读 · 2019年1月12日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
5+阅读 · 2017年11月13日
VIP会员
相关VIP内容
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
《代码整洁之道》:5大基本要点
专知会员服务
49+阅读 · 2020年3月3日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
相关资讯
组织|15000字解密华为的薪酬和激励体系
智慧云董事会
84+阅读 · 2019年6月19日
知乎破8万赞回答:那些厉害的人,思维方式比你强在哪儿?
说说我的老同事,前端大神程劭非
余晟以为
17+阅读 · 2019年1月14日
中国移动互联网2018上半年报告
计算机与网络安全
3+阅读 · 2018年7月22日
谈谈王者荣耀
小道消息
4+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员