2007年,著名计算机科学家吉姆格雷就指出“数据密集型科学”已经成为继实验理论、计算模拟之后的第4科学研究范式。

数据科学主要有两个内涵:一个是研究数据本身,研究数据的各种类型、状态、属性及变化形式和变化规律;一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。

数据科学结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算等等,旨在从海量数据中挖掘具有价值的信息,并应用到生产实践当中,提高社会生产效率。近些年,随着人工智能、大数据等技术的拓展应用,数据科学的潜力和生产力得到了越来越多人的验证与肯定。


数据科学没有学科限制,几乎可以为所有学科所有领域服务。数据科学正在对商业、教育、能源、软件与互联网等各行各业产生深远的影响并贡献巨大的价值。


为了便于理解,我们可以这样描述『数据科学』:凡是数据的采集、处理、分析、应用及管理,都属于数据科学的范畴。