2019年12月20日,“数据科学50人”在第一财经数据盛典上正式发布。历经2年,横跨东西方,对话了50位顶尖数据科学从业者,2000次提问的对话与100万字的记录,终于荟集成数据科学50人系列专访。
1、初心
这些年,作为数据科学的技术体现,大数据、人工智能等名词在互联网上掀起波澜。智能摄像头识别到逃犯,配合警察执行逮捕,维护了社会法制与安全;新闻客户端推出个性化推荐功能,让我们阅读到心仪的内容,也改变了新媒体传播与表达。另外,大数据帮助零售店铺选址,人工智能帮助财务和法务工作者查阅、整理各种合同与文书,商业效能大幅提升。
当然有好事儿,也有坏消息。有人说,中国用户愿意用数据隐私换取移动互联网的便利,但这些数据隐私却被不良企业滥用;有人打着经济学的价格歧视理论的旗号,却利用大数据“杀熟”,让不完美的定价模型,跑出了完美的歧视性价格。
生活中,我们享受过大数据与人工智能带来的优惠与便利,也在浑然不知中被它摆过几道,事后觉察却略感无奈。所以,数据科学的新技术的演进为人类带来了什么,又失去了什么?透过大数据与人工智能的表象,我们看见了背后的一帮数据科学从业者。《哈佛商业周刊》早在2011年刊登专栏文章,告诉世界21世纪最性感的职业就是数据科学家。
所以,为了探究数据科学的意义与价值,知晓数据科学家的“魔力”,并通过数据科学洞见未知与未来,我们开始了一段从数据科学从业者那里找寻答案的长途旅行。
(图片说明:2012年DJ·Patil在《哈佛商业评论》上发表文章“Data Scientist: The Sexiest Job of the 21st Century”图片来源:Harvard Business Review)
事实上,我们很早就开始汇聚这个DT时代的数据极客。我们通过与SODA(Shanghai Open Data Application,上海开放数据创新应用大赛)合作,结盟全球近千位数据极客,但这还不够,我们还要找到他们中最尖端的那些人。
于是在2018年,我们开始寻找代表中国最顶尖数据科学从业者——数据科50人。透过这些数据科学从业者的经历与洞见,为大家寻觅人工智能与大数据的得与失,过去与未来。
2年时间,贯穿中国与全球,我们走访了50位数据科学领域的顶尖从业者,写了他们的故事,也写了属于数据科学的故事。
2、洞见
“数据科学是什么? Why Data Science Matters?”这是每一次数据科学50人专访时,我们通常会抛出的第一个问题。
第四范式首席研究科学家陈雨强说:“从科学的第一范式的实验科学和第二范式的理论科学,到第三范式理论解释不了,只能用计算机模拟,再到第四范式,有了发现科学的新方法——大数据,因为科学规律孕育在数据之中,所以把其中隐藏的那些规律挖掘出来的技术,都可以被认知为数据科学。”
数据科学也存在于纵横交错的各个领域中。悉尼大学教授、优必选首席科学家、澳大利亚科学院院士陶大程告诉我们:“数据科学是一门利用数据学习知识,并从数据中提取有价值的信息,以分析现实现象、挖掘本质和关系的学科。数据科学是一个对数据理解和分析的交叉学科,除了需要统计学、数据挖掘、机器学习等数据分析、理解和挖掘的学科,还涉及其他学科,包括物理、材料、化学、生物、医学等等。”
当然数据科学并不玄虚,如原阿里云首席智能科学家闵万里(现北高峰资本创始人兼CEO)所言:“做数据科学,首先要梳理行业的商业逻辑,这就需要用物理的思维,去抽象定位这个业务的本质是什么;抓住本质后你要有数学工具去量化它,处理庞大的数据问题,建模等。知其然,然后知其所以然。所谓数据科学的本质,只有放到‘上下文’中,才能发挥正确的价值。”
而对数据科学总结最为精辟的是平安集团首席科学家肖京和原蓝色光标首席数据科学家王炼(现汇丰银行高级副总裁,全球零售分析主管)。肖京说,数据科学是一门综合性学科,既有科学问题也有工程问题。王炼则认为,数据科学是科学和艺术的结合。
(图片说明:与王炼的专访对话)
那么,数据科学家又是一群什么样的人呢?
在美国培养了2000多位数据学科家的纽约数据科学院创始人张尚轩眼中,数据科学家曾被定义为“Statistician who uses python and lives in San Francisco(用Python且住在旧金山的统计学家),但她最新的定义是:数据科学家是一个“可以预测未来的水晶球”。
2015年,白宫任命了美国历史上第一任首席数据科学家——DJ·Patil,而就是他在2011年的《哈佛商业评论》上呐喊出:“数据科学家是21世纪最性感的工作”。在美国这个数据科学发源地,张溪梦打造与领导了硅谷现象级产品领英(Linkedin)的数据科学团队,成为国际最具认知度的华人数据科学家。回国创办数据增长企业GrowingIO的张溪梦告诉我们:“硅谷有三类数据科学家,前两种分别是决策科学与产品科学,一个偏向于通过数据分析与可视化辅助决策,另一个偏重算法,最终出来的是数据化的产品;第三类就是传统统计学家与计量学家。”
当然数据科学家在这些年做的也不止于数据。紧随2015年大数据升级国家战略的步伐,人工智能在2017年跃升国家战略,人工智能再次点燃“大众创业、万众创新”的热情。
作为原英特尔中国研究院院长的吴甘沙,这些年一直致力于自动驾驶技术的创新与创业,现在身为驭势科技CEO的吴甘沙说:“不可否认,是大数据带动了这一波人工智能的发展。”
人工智能在当下的最为直接的体现就是机器学习,如果把它比作赛车的话,作为燃料的大数据,作为强劲马力赛车的计算能力(泛指计算芯片)与作为丰富驾驶策略的车手的算法模型,一个都不能少。“大数据技术和人工智能逐渐成为普惠科技是技术发展的必然趋势。”英特尔高级首席工程师、大数据技术全球CTO戴金权如此评论道。
AI的未来不止于此。原SAP硅谷创新中心首席科学家邬学宁(现e成网络科技首席数据官)说:“人工智能就像一座漂浮的冰山,人们能看到的机器学习等技术是冰山露出的一小部分,可能只占10%,潜藏在海平面以下的90%其实是数学,包括概率、统计、线性代数和图论等等。而数学和统计学才是人工智能领域的核心竞争力。”
当然,也有人从不同的角度看待数据科学对于人工智能的关系。微众银行人工智能团队副总经理吴海山曾对我们直言不讳:“我个人认为数据科学目前带给我们的其实不是Artificial Intelligence(人工智能),而是Augmented Intelligence(增强智能),是系统科学与人类认知结合起来的东西。”
当然,AI也会带来人与机器共存的问题。思必驰联合创始人、首席科学家俞凯的一贯观点是人机共融、共存、共进化。他说:“未来比较理想的状态是,人类和机器各自拥有一个世界,但两个世界能通过智能技术,相互沟通、彼此帮助。”
2014年带领团队推出微软AI情感机器人小冰的李笛(微软(亚洲)互联网工程院副院长)说:“图灵测试不是证明机器比人聪明,或者比人笨,而是说‘不要比人聪明’。智慧与否很难下定义,如果人们总是带着审视的眼光去看它,就会对它产生抵触情绪。”李笛希望,人类能够接纳 AI,不再因为他是机器人的身份而产生排斥。
(图片说明:与李笛的专访对话)
就是这样的,我一问,他一答。在历经2年,提问2000次,走访了50位数据科学领域的顶尖从业者后,“数据科学50人”终成行。
3感谢
如果把这次系列专访当作一场长途旅行,也许它很慢,也许在每次停歇的时候,有分离,有相聚,但直到最后,带给你无穷回味的不是终点线的美景,而是对整个旅行的每个瞬间的记忆。
感谢接受数据科学50人项目专访的每一位数据科学从业者。他们是数据科学领域的典范。他们中有人作为先锋数据科学家,在商业实践与学术研究中领航;也有创业者,希望让技术落地到场景中,赋能商业;更有培养下一代数据科学从业者的育人之人。他们心声的吐露让我们了解了数据科学,更明白数据科学家是一群什么样的人,启发了读者对数据科学的思考或起航,体会了数据科学对于人和社会的价值。
感谢参与数据科学50人项目的每一位同学,感谢你们努力地奉上了50篇对中国顶尖数据科学人的专访文章,让更多人通过你们有温度的文字感受到了数据科学的能量。
虽然是这次50位数据科学顶尖从业者系列专访的收官,但对于科学的第四范式——数据科学而言,我们所有人都还在路上。
关于数据科学50人“数据科学50人”项目是由第一财经旗下DT财经发起的中国顶尖数据科学从业者的系列专访,从数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布。