不写R包的分析师不是好全栈

你并不需要一个数据科学家(至少现在不需要)

    技术学习

  • 作者: Yanir Seroussi
  • 原文链接: 这里
  • 译文链接: 七风阁
  • 转载请注明出处

围绕大数据的炒作造成了许多企业聘请数据科学家时,从未考虑过请数据科学家做什么,也不知道自己是不是真的需要他们.
企业和数据科学家双方都对此感到无奈.在你决定雇佣你的第一个数据科学家之前,或许,应该问问自己这些问题.



Q1:你知道什么是数据科学家吗?

出人意料的,有相当多的公司虽然雇用了数据科学家,却对数据科学家做什么没有有一个清晰的概念.
人们似乎十分恐惧的错过大数据的浪潮,并寄希望于雇用数据科学家来解决这个问题.

有一个常见的误解: 数据科学家的任务包括告诉你如何处理你的数据.

虽然这有时可能发生在实践中,但在理想的情况中公司的事务已经一定程度上依靠数据科学来解决(详见下Q3以下).
如果你不知道你的数据科学家是做什么的,你也许并不需要他们.

所以数据的科学家是做什么的?

想想看,将单词“数据”加到“科学”上是有点多余,因为所有科学的基础都是以数据为基础的.
根据这一点,做任何类型的数据分析的人都是数据科学家.
虽然这个定义可能是真实的,但这种宽泛的定义并不是很有帮助.

正如在以前的文章中所讨论的,
它更有助于定义那些用强大的软件工程技术,将统计和机器学习结合起来的人.


Q2:你是否有足够可用的数据?

产品过度工程或过早投资时, 就使用先进的分析工具分析的情况并不少见
在早期阶段,最重要的是把重点放在创造一个最小可行的产品,并让其快速推向市场.
一旦产品产生足够的数据,数据科学才能开始作为最高级分析的力量,并成为优化和自动化现有流程的工具.

产品早期阶段没有数据科学家并不意味着数据被忽略 - 它只是意味着它并不需要一个全职的数据科学家的关注.
如果你的产品是在早期阶段,你仍然担心数据的问题,你最好聘请一个数据的科学顾问,让他
用几天的时间来帮助你奠定了一个数据驱动的功能的长远的眼光.
这会比雇佣一个全职数据科学家更便宜,更节省时间.
而当产品本身是建立在一套先进的分析方法(例如,AlchemyAPI或Enlitic)的时候,没有数据科学家会导致这样的产品是远远不够理想,甚至根本不可能实现.

即使你的产品是足够成熟,并产生大量的数据,也并不意味着它已经准备好了进行数据的科学.
高级分析功能是在数据的层次需求结构的顶端:
如果你的产品充满了bug,或者如果您的数据散落在系统各处,你需要先修复固定的数据系统.
这是数据工程师(架构师)的工作.由于基础设施问题,获取的数据会几乎没有任何用途.如果这时就让数据科学家加入你的团队,
很可能导致一个沮丧的结果.此外,建立集中化报告和仪表盘系统(dashbroad)很可能会让你知道,应该请数据科学家解决什么样的问题.


Q3:你是否有一个具体的问题需要解决?

如果你想解决的问题是“每家公司都在用自己的数据做些什么,我们也应该用数据做些什么”,那么,你没有!

定义问题往往最终占据了大量的数据科学家的时间,所以除去一个模糊的概念(比如:”我们拿数据做点什么吧,hadoop最近很火”),你应当
有一个更具体的创意才能获得更好的结果.

更具体的创意是指,你要优化当前正在解决问题的流程,
优化现有的模型,或实现一个新的数据驱动的功能,诸如此类.
常见的例子包括减少客户流失,增加转换率,并与用数据驱动的系统取代人工流程.

再次强调,先从经验丰富的数据的科学家顾问处取得建议,比你直接雇佣一个数据科学家明智的多.


Q4:你能摆脱业务知识,直觉,以及手动流程么?

一些数据科学家们热情地宣称,必须部署只在理论上合理的,并经历完善的测试模型.
然而,在很多情况下,你可以摆脱使用简单的启发,直觉,以及手动流程.

对于许多商业场合来说,还有比尽一切理论上合理的方式更迫切的需求.
尽管这是许多技术人员所纠结的问题,但客户并不倾向于关心事情是如何实现的,只要他们的需求得到满足就好了.

例如,我之前的一个客户,他的工作包括半手工的方式,从文件中提取结构化的数据.
其过程包括给在菲律宾一个训练有素的团队发送一些文件,来完成手工的分析.
这个客户对用机器学习算法取代手工工作的问题很感兴趣.
正如人们经常用机器学习的情况,一个新的模型未必能足够精确地取代手工的分析.
这通常取决于数据的质量和解决问题的可行性.花费了一些时间和金钱评估可能性后,客户决定,把这个想法放在一边,
而专注于自己的其他领域的业务.

每个企业都有资源限制.大多情况下,你可以做出最好的投资是聘请一个全职的数据科学家,而不是靠商业炒来代替你思考
.一个数据科学家的责任往往是由现有雇员,诸如软件工程师,业务/数据分析员和营销人员来进行实现的.


Q5:你是否致力于被数据驱动?

我见过不止一个数据科学家雇用后,被孤立或或者被忽略的例子.在企业世界中这些例子更为普遍,
管理者初期有一些很好,商业上也行得通的想法.
但即使项目已经完善,项目的进度依旧可能被那些感到威胁的员工所阻碍,
因为那些员工认为自己会被数据驱动的算法来取代.成功的数据科学项目需要高层领导的支持,就像
Greta Roberts,
Radim,
Alec Smith以及其他的讨论.

如果没有这种支持和强有力的承诺,数据驱动的决策,只是让每个人都在浪费自己的时间.



最后的思考

虽然数据科学当前被过度地炒作,许多组织仍然会从雇佣的数据科学家处获益良多.
我希望这篇文章已经帮助你决定,现在,你是否真的需要一个数据科学家.
如果你不确定,请不要犹豫与联系.


而对于任何数据科学家:
要非常小心那些对于上述问题没有很好答案的雇主.在这个时候,你可以挑三拣四,或者至少要等到炒作已经结束.

page PV:  ・  site PV:  ・  site UV: