量身打造数据团队——手把手教你建立数据型公司系列(三)| 投资人说

2019 年 4 月 15 日 红杉汇

大家都承认数据的重要性,但数据团队的关键作用也许在很多公司都没有体现出来。大多数企业只依赖其数据团队来统计用户量或跟踪用户信息,只有少数企业利用数据开展改进产品的实验,而能利用数据分析来调整目标和流程的企业则更屈指可数。也许你需要量身打造一个适合公司发展阶段的数据团队了。

 

这是《手把手教你建立数据型公司系列》的第三篇。在上一篇文章中,我们介绍了为何数据科学如此重要、数据科学家的职责,以及数据科学的发展前景。在今天的文章中,我们将深入探究建立数据处理团队的主要目标、整体架构,以及在各个特定开发阶段的主要任务。本文研究成果来自红杉美国数据科学团队。

 

以下是本文的内容要点:

 数据处理团队的三大目标:评估健康状况;交付适当产品;制定产品目标、流程和战略。

 充分构建数据基础设施,在产品生命周期的不同阶段,聘用合适的数据处理人才,有助于开展整个数据分析过程。

 随着时间的推移,从用户统计到最终制定产品流程和策略,数据处理团队的任务应随之不断变化。



建立数据处理团队的主要目标


企业竞争力越来越取决于如何成功地分析海量的、非结构化的数据集,以及如何利用这些分析推动企业创新。因此,企业的当务之急便是建立数据处理团队,专注于从数据中汲取商业价值。


建立数据处理团队首先要明确以这三方面为主要目标:


  评估健康状况

监控关键产品的指标;了解这些指标变化背后的因素,并识别出异常值;形成企业报告并可视化。


  交付适当产品

设计和评估实验;细分用户,建立用户行为模型;利用人工智能和机器学习改进产品生产系统。


制定产品目标、流程和策略

深入探索和分析用户体验过程;提出切实可行的策略并预测效果。


数据处理团队架构


要实现上述三大主要目标,则需建立恰当的数据基础设施。图1展示了整个数据处理团队的架构。

(图1)


第一步是记录下用户与产品的所有交互行为——用户每次点击、悬停、打开、关闭和登录等,以及第三方提供的所有数据。一般来说,随着用户数量和用户参与度的增加,这些数据的规模会迅速扩大。

 

尽管这些数据不一定都有意义,但记录用户足迹是整个过程中的关键步骤。由于很多企业并不清楚自己最终需要什么样的数据,所以最简单的方法便是记录所有。之后,某些特定类型的数据需要经过处理才会变得有用,比如欺诈检测和直播视频。

 

原始数据可以通过ETL(萃取、转置、加载的过程)至数据仓库,数据仓库则以更为结构化的形式(通常由结构化查询语言SQL支持)存储数据。一些较大的企业选择将所有传入的数据以原始形式储存在数据池中(一个存储所有数据的集中式存储库),这样一来,企业便可以利用最新的逻辑,对下游的数据存储进行补充。

 

许多大中型企业拥有多个数据仓库和数据池,但如果没有构建数据集,数据的直接分析就会变得困难。因此,构建数据集往往需要针对特定使用目的进行另一个萃取、转置、加载过程。之后,输出的数据将被存储在一个分析数据库中,用于更深入地分析,从而形成报告并将其可视化,并构建起人工智能和机器学习(AI/ML)模型。

 

这些深入了解将有助于制定流程和策略,可视化和报告则将有助于监控产品的开发进度,而AI/ML模型将有助于实现自动化并预测其效果。

 

此外,测试-学习方法是构建任何数据型产品的关键,它可以基于追踪的用户行为数据,开发并定制产品。根据对关键指标的影响,企业运行、评估和实施大量的产品实验(比如,A/B测试)。在这些实验中,特征标记将对用户进行细分,以确保不同的用户群组数据将会得到不同的处理。

 

随着数据处理的规模化和标准化,多种与数据相关的专业岗位将会诞生,包括数据分析师、数据工程师、数据基础设施工程师、数据架构师和数据科学家。在不同项目中,创建者、终端用户和数据产品各不相同详见图2)。

(图2)

数据处理团队的演进


数据处理团队的功能应随着产品的发展而演进。例如,在早期阶段,聘请专门从事分析千万级字节数据的数据工程师可能作用不大,但随着产品的推广,他们的作用则会日益彰显。构建数据处理团队应着眼于中短期需求,数据基础设施的建设则应以长期需求为基础。

 

下面,我们来谈什么是数据团队在各个特定开发阶段的主要任务。

(图3)

  阶段一

起初,当企业在统计用户数量时,出色的技术执行能力是企业的核心技能,比如建立基础设施生成可信的KPI、创建用户跟踪数据,并形成最初的报告。对于大多数公司来说,产品团队即为最初的数据团队。因为产品团队负责定义度量标准,并且随着产品使用量的增加,计算和存储与这些度量标准相关的数据。

 

▨  阶段二

随着企业和产品的发展,完善信息板和报告变得越来越重要。这时,数据工程便成为独立于产品工程的核心功能,而构建基础设施的目的则是专门支持ETL和报告的功能。尤为重要的是,数据团队需要对产品进行深入了解,并提出看法。除了监控KPI、向企业其他部门提供分析报告之外,数据团队的核心职责还包括进行特别分析,识别出度量偏差的根本原因。

 

  阶段三

一旦产品使用量达到一定规模,需要进行统计意义上的实验来改进产品体验,这时,对于数据分析师和数据工程师来说,统计技能就至关重要。于数据分析师而言,精心设计实验、从统计角度正确解释结果是核心要求。在后端的实验框架中,则需要考虑用户跟踪(避免同一用户的数据参与到多个相关实验中)和其他能够快速分析结果的统计特性。

 

  阶段四

最后,数据科学团队最重要的目标是设置企业目标、流程和策略。设定正确的目标需要基于对业务整体目标的理解。制定流程需要基于探索性分析的能力,识别出问题和机遇,并将想法与结果联系在一起。具体来说,便是需要分析出任何现象背后的驱动因素、可用来做出改变的杠杆,并将这些想法与实践结合起来。

 

除此之外,为产品团队制定策略需要强大的分析能力,理解并分析所有相关的现象,即所谓的“点”,并识别和弄清这些点是如何相互连接的。只有在此基础上,才能提出有意义的策略。最后,还要清晰、有效地与高层领导沟通,这对于最终基于数据来设定目标、流程和战略具有不可忽视的作用。


 推荐阅读

你需要一个数据科学家团队——手把手教你建立数据型公司系列(二)| 投资

未来,只有这样的公司才有机会赢——手把手教你建立数据型公司系列(一)

你会是第一个看见“西班牙船帆”的人吗?| 投资人说

周逵:投资创新和投资增长,助力中国新经济产业发展 | 投资人说

白雪公主计划 :Airbnb就这样提升了消费者体验 | 红杉Selection


登录查看更多
0

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
【2020新书】实战R语言4,323页pdf
专知会员服务
97+阅读 · 2020年7月1日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
159+阅读 · 2020年5月14日
德勤:2020技术趋势报告,120页pdf
专知会员服务
186+阅读 · 2020年3月31日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
329+阅读 · 2020年3月17日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
292+阅读 · 2019年12月23日
【干货】电商数据中台如何构建?
AliData
9+阅读 · 2019年4月4日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
产品总监如何管理团队,搭建一个强大的队伍?
人人都是产品经理
17+阅读 · 2018年12月19日
一张图理清电商后台产品模块,90%的电商类产品后台都适用
人人都是产品经理
8+阅读 · 2018年12月9日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
【工业大数据】一文带你读懂《工业大数据白皮书》
产业智能官
14+阅读 · 2018年1月20日
【工业互联网】工业互联网与工业大数据分析的应用
产业智能官
12+阅读 · 2017年12月26日
【机器学习】基于TensorFlow搭建一套通用机器学习平台
Arxiv
7+阅读 · 2019年4月8日
Arxiv
4+阅读 · 2018年5月10日
Arxiv
4+阅读 · 2018年3月30日
Arxiv
6+阅读 · 2018年3月19日
VIP会员
相关VIP内容
相关资讯
【干货】电商数据中台如何构建?
AliData
9+阅读 · 2019年4月4日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
产品总监如何管理团队,搭建一个强大的队伍?
人人都是产品经理
17+阅读 · 2018年12月19日
一张图理清电商后台产品模块,90%的电商类产品后台都适用
人人都是产品经理
8+阅读 · 2018年12月9日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
【工业大数据】一文带你读懂《工业大数据白皮书》
产业智能官
14+阅读 · 2018年1月20日
【工业互联网】工业互联网与工业大数据分析的应用
产业智能官
12+阅读 · 2017年12月26日
【机器学习】基于TensorFlow搭建一套通用机器学习平台
Top
微信扫码咨询专知VIP会员