图片出处:Unsplash
“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。”—— 哈佛商业评论
在这个数据 “爆炸式” 增长的大数据时代,每一天都有不同领域的大量信息被收集和存储。
虽然直到最近,“数据科学(Data Science)” 一词才被人们所广泛熟知,但事实上,人类理解数据的历史由来已久,并且已经由科学家、统计学家、计算机科学家等专业人员共同推动发展了多年。
什么是数据科学?
如今,数据科学甚至成为了一种 “火热” 商业领域,以至于对数据科学的描述也五花八门很多,例如:
数据科学致力于分析数据并从中提取有用的知识。建立预测模型通常是数据科学家最重要的活动。(Gregory Piatetsky)。
数据科学致力于分析大数据以提取与可能性和错误预测之间的相关性(Brodie)。
数据科学是一门新兴学科,它利用统计方法和计算机科学方面的知识,为广泛的传统学术领域提供有影响力的预测和见解(哈佛数据科学计划)。
再换个角度,数据科学家们试图从丰富的数据中获取见解,从而可以帮助公司做出更明智的业务决策,我们也可以将数据科学定义为一种可以从数据中得出可行见解的方法。
从技术角度来说,数据科学使用了大量面向数据(data-oriented)的技术,包括 SQL、Python、R 和 Hadoop 等,此外也广泛使用统计分析,数据可视化,分布式架构等,以辅助其更好地从数据集中提取信息,通过数据科学应用程序提取的信息可以用于指导业务流程并达到组织目标。
而数据科学也和大量的 AI 技术概念所交错。因此,在这里,本文首先讨论数据挖掘、人工智能、机器学习和深度学习等概念的简洁定义。
数据挖掘旨在理解和发现数据中以前从未见过的新知识。
人工智能致力于让机器变得智能,旨在创造行为像人类一样的系统。
机器学习是人工智能的一个分支,其目标是开发能够从历史数据中学习并通过经验改进系统的算法。
深度学习是 ML 的子集,其中数据通过多个非线性变换传递,以计算输出。
显然,我们现在所讨论的数据科学,已经使用了像数据挖掘、机器学习和人工智能等一系列的技术。
数据科学简史
在某些方面上,数据科学彻底改变了这个世界。
数据分析作为一门科学被正式地提出来,始于 1962 年美国统计学家 John W.Tukey 的一篇文章《The Future of Data Analysis》,他预见了数据分析新方法的崛起相比于方法论来说更像是一门科学。
图片出处:Wiki
John Tukey 在统计学方面的影响是巨大的,但人们认为他创造的最著名的概念却发生在计算机科学领域:他是第一个引入 “比特” 这个词作为 “二进制数字” 的缩写的人。
1974 年,Peter Naur 在瑞典和美国出版了《计算机方法的简明调查》,尽管这仅仅是对当时的数据分析方法的综述,但这本书却调查了各种应用程序中的数据处理方法,第一次定义了数据科学是 “一门研究数据处理的科学,在创立之初,数据与它所表示的事物之间的关系属于其他学科领域的范畴”。因此,作为学术术语的 “数据科学”,其概念也变得更加清晰。
1977 年,国际统计计算协会(IASC, International Associationfor Statistical Computing)作为国际统计研究院(ISI)的一个分支成立。其任务主要是把传统统计方法、现代计算机技术和各领域专家的知识连接到一起,以将数据转化为信息和知识。
到了 1989, 商业分析、数据挖掘和数据科学领域的领军人物 Gregory Piatetsky-Shapiro 组织并主持了第一届数据库知识发现(KDD, Knowledge Discovery and Data Mining)研讨会。1995 年,它成为了国际计算机年会有关知识发现与数据挖掘的 SIGKDD 会议。
大众传播领域,《商业周刊》在 1994 年发表了一篇有关 “数据库营销” 的封面故事。
1996 年,在国际船级社联合会(IFCS, International Federation of Classification Societies)大会召开之际,会议名称首次包含了 “数据科学” 一词(“数据科学,分类及相关方法” )。同年,Usama Fayyad,Gregory Piatetsky-Shapiro 和 Padhraic Smyth 发表了 “从数据挖掘到数据库知识发现”。
1997 年,C.F.Jeff Wu 在密歇根大学(University of Michigan)统计系 H.C.Carver 主席的就职典礼上倡议,呼吁将统计学重命名为 “数据科学”,将统计学家重命名为 “数据科学家”。
John Tukey 曾预测:“数据分析的未来可能会取得重大进展,克服实际困难,并为所有的科技领域提供出色的服务。”
这一预言早于数据爆炸和机器具有复杂大规模分析能力的出现。毕竟,直到 1964 年,第一台台式电脑 Programma 101 才在纽约世博会面向公众亮相。当时进行的任何分析都远比今天的分析要简陋得多。
数据科学的发展离不开硬件的进步。1981 年,IBM 发布了第一台个人电脑。苹果也不甘落后,在 1983 年发布了第一台图形用户界面的个人电脑。在那之后的十年中,计算技术似乎以更快的速度得到发展,一些公司有能力更容易地收集数据。然而,在他们开始将这些数据转化为信息和知识之前,还需要将近20年的时间。
自 21 世纪初以来,数据存储量呈指数级增长,这在很大程度上要归功于处理和存储技术的进步,即在规模上既高效又具有成本效益。“实时” 收集、处理、分析和显示数据信息的能力,提供了前所未有的机会来进行新形式的知识发现,数据科学家可以使用人工智能、机器学习和深度学习等颠覆性技术。
整个 2000 年代,大量学术期刊也开始承认数据科学是一门新兴学科。2005 年,美国国家科学委员会开始倡导和规划数据科学的发展路线,以确保该领域的从业者能够成功收集和管理数据。
与此同时,商业公司也开始将数据视为一种可以利用的商品。Thomas H. Davenport 、 Don Cohen 和 Al Jacobson 在 2005 年巴布森学院工作知识研究中心的报告中写道:"公司不再依靠传统因素进行竞争,而是开始采用统计和定量分析以及预测性建模作为竞争的主要因素。"
2009年,谷歌首席经济学家 Hal Varian 还是对《麦肯锡季刊》表示了一个有预见性的担忧,即有能力分析正在产生的 "免费和无处不在的数据 "的人存在短缺。
好消息是,大约以 2010 年为节点,在计算技术取得重大进展的背景下,数据科学开始占据越来越主要的中心位置。例如,苹果在 2010 年1 月推出了iPad。同年 6 月,苹果发布了 iPhone4 。消费者开始以闪电般的速度接触到新的技术,尤其是移动技术。7 月,亚马逊发布新闻稿称,有史以来第一次,Kindle 书籍的销量超过了纸质书。
凭借比以往更快的处理速度,技术在新的十年里实现了巨大的飞跃,为准备好并愿意征服大数据这座大山的人们,开辟了一条越来越宽的道路。
过去的几年里,数据科学不断发展,几乎渗透到每一个产生或依赖数据的行业。2010年《经济学人》发表的一篇文章中,该杂志的数据编辑 Kenneth Cukier 表示,数据科学家 "结合了软件程序员、统计学家和讲故事者/艺术家的技能,以提取隐藏在数据大山下的金块"。
Thomas H. Devenport 和 DJ Patil 则称,数据科学家是 21 世纪最性感的工作。
如今,数据科学家对于任何一家公司来说都是无价之宝,公司雇主们也愿意支付最高的美元来雇佣他们。另外,为了培养下一代数据科学家,数据科学学位课程也应运而生。越来越多的数据科学家来自各种不同的学术和专业背景,包括健康信息管理、计算机科学和心理学。
可以说,虽然今天的数据科学与 Tukey 想象中的数据科学不尽相同,但他的预测基本成为现实。
数据科学实战挑战
而这些繁荣迹象并不全然是好事,有的时候反而很容易让人忘了这个领域应遵守的基本操守。
例如说,对数据隐私的敬畏。就在距今不久的十几年前,数据并不像今天这样那么容易获取,大部分人是不愿分享自己的数据的。隐私和其他道德问题不会随着数据海啸的出现而被淹没,当代数据科学家必须知晓如何在社会道德框架内对数据进行操作。
和其他学科行业一样,数据科学现在也面临着一系列的挑战。
Kaggle 在 2017 年对机器学习及数据科学领域进行了全行业深度调查,通过对 16,000 名数据从业者的调查结果显示,行业中面临的 10 个最困难的挑战如下所示:
脏数据(36%)
缺乏数据科学人才(30%)
公司政策(27%)
缺乏明确的研究问题(22%)
数据无法访问(22%)
结果未被决策者使用(18%)
向他人解释数据科学(16%)
隐私问题(14%)
缺乏领域知识(14%)
公司组织规模小,请不起数据科学团队(13%)
这些是亟待解决的严峻挑战。对于新的学科而言,每向前迈进一步,都需要应对新的挑战,掌握新的技能、扩展更大的知识面和探寻新的方法技术是应对这些挑战的主要途径。
数据科学家作为分析数据的专家,应精通必要的技术技能来解决现代世界中的复杂问题。现如今的新兴技术,如人工智能(AI),物联网(IoT),5G,机器人技术(robotics),区块链(blockchain)等,都高度依赖数据,只有那些能够使用数据进行操作并将其转化为可盈利产品的技术才能指导未来的下一代的数字业务。
过去的几年中,我们见证了许多数据驱动技术创新,随着技术能力的一步步强大,现在所经历的数据爆炸,还仅仅是个开端。
附:面向数据科学家的数据科学工具
现在,已经有大量的软件工具可用于支持数据科学家深入研究数据科学的世界。
通常,这些服务是通过安全且可扩展的基础架构提供的,用于在云环境中运行数据科学和机器学习工作负载。数据团队可以使用自动化 DevOps 和 ML 基础架构工程在 Python 中大规模开发和部署数据科学模型。
下列面向 Python 的功能和方法的集合,可以帮助数据科学家无需编写代码即可执行许多操作。
NumPy 是 Python 编程语言的库,它增加了对大型多维数组和矩阵的支持。
Seaborn 是基于 matplotlib 的 Python 数据可视化库。
TensorFlow 是一款免费的开源软件库,可用于跨各种任务的数据流和差异化编程。
PyTorch 是基于 Torch 库的开源机器学习库。
Numba 是一种开源 JIT 编译器,可使用 LLVM 将 Python 和 NumPy 的子集转换为快速的机器代码。
SciPy 是一个免费的开源 Python 库,用于科学计算和技术计算。
Pandas 是为 Python 编程语言编写的用于数据处理和分析的软件库。
Scikit-learn 是针对 Python 编程语言的免费软件机器学习库。
Matplotlib 是 Python 编程语言及其数字数学扩展 NumPy 的绘图库。
Bokeh 是 Python 中的数据可视化库,可提供高性能的交互式图表和绘图。
例如,广受认可的数据科学平台 Saturn Cloud 在亚马逊公司旗下的云计算服务平台(AWS, Amazon Web Services)上的所有 Python 脚本中都提供了端到端分析平台,包括:
Dask 使组织可以扩展 Python 并显著减少运行时间。
协作工具套件,模型部署功能以及用于机器学习生命周期的工具
Prefect,提供了一个工作流编排框架,消除了开发人员和数据科学家的手动工作。
与 Docker 和 Kubernetes 等服务集成,以便数据科学家可以构建自定义映像,以满足他们的最佳开发期望。
Jupyter Notebooks 可以部署,管理和扩展 PyData 堆栈。
Refrence:
[1]https://www.kdnuggets.com/2020/11/data-science-history-overview.html
[2]https://datasciencedegree.wisconsin.edu/blog/history-of-data-science/