聊聊开源 | datawhale年会头脑风暴

2020 年 12 月 29 日 机器之心

机器之心转载

作者:田云,上海科技大学,Datawhale成员

The term open source refers to something people can modify and share because its design is publicly accessible.


—Linux 中国



开源:一种生产的结构

开源最初是起源于软件开发中,指的是一种开发软件的特殊形式。但到今天,「开源」已经泛指一组概念,这些概念包括开源项目、产品,或是自发倡导并欢迎开放变化、协作参与、快速原型、公开透明、精英体制以及面向社区开发的原则。

1. 聚焦开源的核心思想,将它从计算机软件开发的领域中提取出来,其实可以把它视作一种发展结构——我们称之为的「开源的方式」:通过透明的方式和他人协作(这样其他人也可以关注和加入),拥抱失败,将它作为一种改进的手段,以及期待(甚至鼓励)所有人都可以这么做。

2. 这样一种运作结构方式慢慢的也从软件开发领域慢慢扩展到其他的社会活动或产业之中,带领其他的产业在新的时代抓住新的增长点。除了很成功的 github,我认为抖音短视频、B 站也是一种广义上富有开源精神的平台。短视频在当下时代如此火爆,原因不仅在于短视频对信息有更强的传播力,另外我认为也是由于平台把内容创作的自由交给了每一个用户,用户间信息生生不息的传递与反馈为这一类应用提供无限的动力。

3. up 主可以通过吸引流量创造财富,也可以从观众那里获得富有有建设性的反馈助力自己的创造,B 站上很流行「我在 B 站学 XX 系列」也是一个开源分享的例子,这样的内容让用户无门槛的获得创作的材料,引导用户产出更多有趣的分享;食谱分享 app 也可以作为一个理解开源是什么的例子,分享给朋友做面包的步骤,朋友们也许喜欢成分略有不同的面包,他们可以修改你的食谱,根据自己的口味调制面包。


4. 大概是因为开源本身就是一种较为领先的理念,习大大之前也提出过创新、协调、绿色、开放、共享。这五大发展理念引领中国深刻变革,其中的共享也与开源有相似的意味,但并不完全一致,因为习大大理解的“共享” 是共享成果、共享经济发展的蛋糕,实际上分配问题,而不是生产问题;我觉得开源本质上是一个生产问题。

5. 开源的社会价值。对于知识本身来说,其最大的价值在于传播,有些教授科研机构或者是国企使用了大量的经费去生产了一些科研成果,虽然这样一些产品当然不能是随意传播,但是绝对是有创新空间的,比如:1.做好数据的脱敏,一些数据可以挖掘出许多有意思的事。2. 跨领域能借鉴知识做到富有启发性的表达,文献不应该是将简单的事讲复杂,而应该是将复杂的问题用简单的语言表达出来。其中的价值不止于同样的框架可以照搬照抄,更丰富的价值在于没有门槛地交换所得之后,为下一次的创新式的生产又创造了条件。这样同等经费的项目也许能释放出十倍百倍的社会价值。

开源与分享

1. 开源和分享的关系:也许分享的范围要大于开源。将分享和开源看作两个集合,开源的元素是一些能够获得反馈和共同参与的形式,虽然我们知道生活或者工作中存在很多类型的开源方式,但我们肯定能够穷举出所有可能的开源形式,比如内容开源、数据开源,因为我们知道开源的边界在哪儿,在于「没有门槛地交换所得,并为下次交换创造内容或条件」,因此谁都可以是开源的受益者、反过来也可能在明天他就成为开源的贡献者。

2. 分享相比开源是更大的概念,几乎不能被穷举,我们可以分享、不定向地分享,可能甚至不需要反馈的分享,开源有目的,但分享可能没有目的,只要没有目的,就很少有边界去框定它。因为有些分享单纯只是分享,存在这样不含目的的分享,而开源也是一种分享,但是开源的过程中开源者希望寻求的是一些反馈,这样的分享是有目的的,这些反馈可以是让产品优化的信息,也可以是让开源者收获自信、收获快乐的一个赞。

3. 大家一直以为开源就是无条件的分享,但是只有真正做了开源的事之后慢慢意识到什么是开源 。作为一个联合开发者看到读者提出的富有建设性的反馈,你突然觉得你对手中的事更有驾驭感了。一个项目从无到有,一些从未见过的朋友竟然一起完成了一个不禁让人竖起大拇指的项目,大家都聚焦于同一件事,这时你会感叹世界真奇妙。

对开源组织的理解

两个部分

  1. 开源者:通过分享教胜于学的方式打通自己的知识脉络,在分享的过程中获得方方面面的反馈,快速的更新迭代自己的模型与框架。

  2. 学习者;通过阅读和学习前者的产出,快速学习其中的精华部分,理解新知识的过程中打通知识的新通路,体验不曾经历的的乐趣。过程中说出自己的认识,提出自己的反馈,和同伴一起学习效率更高。(所以在设计开源学习项目的时候应该注意能提出有启发意义的开源问题框架,增加后来人在前人基础上添砖加瓦的可能性)。


动态的过程

1. 开源者和学习者互为补充互为反馈,相互作用,其中的角色可以互相转换。不断的会有新的人员出现,也不断的会有部分成员暂时沉默。相比于不断出现的优秀产出者,其实更为重要的是反馈的机制本身,所谓铁打的营盘流水的兵,士兵总会离开部队。类似的对于开源组织成员,也不是每个人都能坚守在产出的一线。能够持久的输出和沉淀的分享者始终是少数。似乎想到这一点就要嗟叹了,然而不可否认的是开源组织对每一个参与者所产生的积极影响。

2. 也许开源组织应该着重于项目,不断引导创建能产生刺激性激励或反馈的项目,我觉得很好的例子就是南瓜书,有十足的关注度,多方面的反馈。

开源与世界

世界源动力

我所认为的世界源动力是生生不息的信息碰撞与随之伴随的反馈,有矛盾之间辩证发展的意味。


1. 社会的结构是不断的相互碰撞产生的,有了冲突和对抗才会促使模型自我更新。有些人的参数关于外界的「学习率」是很高的,比如创业者,他们会去做产生很多反馈的事,所以他们成功或达到谷底的时间也会相应的缩短。没有矛盾产生的人生大概是僧侣的人生,所有的欲望都归零,没有冲突本身也能达到一个平衡,只不过是静态的平衡。高效且成功的创业者达到的是高速的动态平衡。

2. 一个脑洞,理想中的共产社会是一个不存在差异的社会,也许那样的理想状态是永远无法达到的,这样一种绝对充裕的平衡就像是热寂,虽然无限的宽裕,但是也丧失了变化与反馈的可能性,反而是一种僵死的状态。但也许并不妨碍将其作为一个伟大的理想,因为我认为的共产社会的终极目标里面包含了一种人性的关怀、一种仁慈的理念,所以也可以成为一个伟大的理想去奋斗。

和 datawhale 小伙伴在西湖。

开源与政治

1. 西方国家以英国为例实行的是多政府的君主立宪制,对于收集上来的所有问题,各个大学或研究机构会被分配到一些问题,然后就这些问题进行解答和分析,是一种公开的机制,公众也会对其进行讨论。处理问题的过程在于把问题公开的丢出来,也许讨论会很激烈,无法掌握最后的方向,但是这种公开讨论本身就具有最高的合法性。好处在于提出的问题公开透明,有充分的讨论空间,但是有时候选择太多,无法估计到所有人的利益,因此抛出的大部分问题并不能达成一个最终相互妥协的状态,结果就是很多事办不成。

2. 相对比的国内的方式在于有一些选出来的最优秀的代表为我们进一步考虑这些问题,全国代表为此负全部责任,好处在于对决策者来说具有绝对的掌控力,办事的效率很高,想做的事必定可以做到,即使代价是牺牲部分团体的利益。即使有时候做出的选择貌似很蠢(实际上也许会有其他的内涵),但是最终都可以做到。一定时间的沉淀之后,不断的尝试和补充就会使得社会达到一个比较稳定的局面。看到中国慢慢崛起,基辛格在《论中国》发出过这样的感叹:「中国人民一直都被一批最勇敢的人保护的很好」。

神奇的 datawhale
 

开源是什么?datawhale 是什么?记得李梦吉对这个问题很执着,所以我也很认真的在思考;记得 Graviti 的 Eason 从企业的角度叙述了他的三点理解;也深刻的记得吴怡大佬对开源的一些理解让人感到如沐春风,豁然开朗。所以喜欢 datawhale 的一点也在于:他能聚集一批利益不相关、但是志趣相投的人一起,我们谈理想、谈知识、谈人生,一个个「乱跳的idea」都是我们对世界的理解,这些讨论和反馈真的是很有意义。

登录查看更多
0

相关内容

软件开发是建造出软件系统或者系统中软件部分的一个产品开发的过程。
2021企业数字包容实践与价值白皮书
专知会员服务
26+阅读 · 2021年6月4日
专知会员服务
189+阅读 · 2021年3月22日
专知会员服务
90+阅读 · 2020年8月7日
清华大学《人工智能》书籍教学课件开放下载
专知会员服务
137+阅读 · 2020年7月27日
打怪升级!2020机器学习工程师技术路线图
专知会员服务
96+阅读 · 2020年6月3日
【论文扩展】欧洲语言网格:概述
专知会员服务
6+阅读 · 2020年3月31日
演讲实录丨黄铁军:新一代人工智能开源开放平台
中国人工智能学会
4+阅读 · 2019年7月10日
阿里技术大牛:一份架构师成神路线图!
51CTO博客
29+阅读 · 2019年7月6日
阿里技术专家:优秀工程师是怎样炼成的?
51CTO博客
8+阅读 · 2019年6月15日
干货笔记|林恒毅:想要企业进化?这一个工具让你事半功倍
混沌研习社广州分社
8+阅读 · 2019年6月14日
好玩有趣又靠谱的科普公众号都在这里了 | 推荐
中科院物理所
5+阅读 · 2018年8月24日
令人困惑的TensorFlow!
机器之心
4+阅读 · 2018年7月2日
号称“开发者神器”的GitHub,到底该怎么用?
算法与数据结构
4+阅读 · 2018年3月29日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
Arxiv
0+阅读 · 2021年6月10日
Arxiv
0+阅读 · 2021年6月8日
Arxiv
27+阅读 · 2021年2月17日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
6+阅读 · 2019年8月22日
VIP会员
相关VIP内容
2021企业数字包容实践与价值白皮书
专知会员服务
26+阅读 · 2021年6月4日
专知会员服务
189+阅读 · 2021年3月22日
专知会员服务
90+阅读 · 2020年8月7日
清华大学《人工智能》书籍教学课件开放下载
专知会员服务
137+阅读 · 2020年7月27日
打怪升级!2020机器学习工程师技术路线图
专知会员服务
96+阅读 · 2020年6月3日
【论文扩展】欧洲语言网格:概述
专知会员服务
6+阅读 · 2020年3月31日
相关资讯
演讲实录丨黄铁军:新一代人工智能开源开放平台
中国人工智能学会
4+阅读 · 2019年7月10日
阿里技术大牛:一份架构师成神路线图!
51CTO博客
29+阅读 · 2019年7月6日
阿里技术专家:优秀工程师是怎样炼成的?
51CTO博客
8+阅读 · 2019年6月15日
干货笔记|林恒毅:想要企业进化?这一个工具让你事半功倍
混沌研习社广州分社
8+阅读 · 2019年6月14日
好玩有趣又靠谱的科普公众号都在这里了 | 推荐
中科院物理所
5+阅读 · 2018年8月24日
令人困惑的TensorFlow!
机器之心
4+阅读 · 2018年7月2日
号称“开发者神器”的GitHub,到底该怎么用?
算法与数据结构
4+阅读 · 2018年3月29日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
Top
微信扫码咨询专知VIP会员