人工智能聊天机器人——人工智能聊天机器人代表了一类软件,它能够通过消息传递应用程序以自然语言模拟用户对话。该技术的主要吸引力在于它通过在您的网站上提供 24/7 全天候可用来提高用户响应率,以提供更好的客户满意度。聊天机器人使用机器学习和自然语言处理 (NLP) 来提供接近人类的对话体验。
自动机器学习–自动化机器学习或AutoML是自动化应用机器学习的端到端过程以实现数据科学项目目标的过程。AutoML 试图让在该领域没有强大专业知识的人也可以使用机器学习,尽管更现实的是,它旨在通过自动化数据科学过程中的许多步骤来帮助提高经验丰富的数据科学家的生产力。使用 AutoML 的一些优势包括:(i)通过自动化重复性任务来提高生产力,这使数据科学家能够更多地关注问题而不是模型;(ii) 数据管道组件的自动化有助于避免手动流程中可能出现的错误;
BERT ——BERT (来自 Transformers 的双向编码器表示)是 在 Google AI Language 的研究人员最近发表的一篇论文中介绍的。它通过在各种 NLP 任务中展示最先进的结果,在机器学习社区中引起了混乱。BERT 的主要技术进步是将流行的注意力模型 Transformer 的双向训练应用于语言建模。这个方向与之前的努力形成对比,后者检查了从左到右或从左到右和从右到左组合训练的文本序列。BERT 的方法表明,与单向语言模型相比,双向训练的语言模型能够对语言上下文和流有更深的感知。
认知计算——认知计算基于自学习系统,该系统使用机器学习技术以智能方式执行特定的类人任务。认知计算的主要目标是使用计算机模型来模拟人类的思维过程。通过使用模式识别和自然语言处理的自学习算法,计算机能够模仿人脑的运作方式。
数据管道——数据科学家依靠数据管道来封装为机器学习准备数据所需的许多处理步骤。这些步骤可能包括从各种数据源获取数据集,执行“数据准备”操作,例如清理数据和处理缺失数据和异常值,以及将数据转换为更适合机器学习的形式。数据管道还包括训练或拟合模型并确定其准确性。数据管道通常是自动化的,因此它们的步骤可以持续执行。
数据湖、数据仓库——数据湖和数据仓库都广泛用于存储所谓的“大数据”,但它们不是可互换的术语。数据湖构成了一个没有具体目的的大规模原始数据池。另一方面,数据仓库是已经为特定目的处理的结构化、过滤数据的存储库。企业通常需要这两种类型的存储库。数据湖的诞生是为了利用大数据并从用于机器学习的原始、粒度结构化和非结构化数据中受益,但仍然需要为业务用户使用的分析创建数据仓库。
边缘分析——边缘分析是一种执行数据收集和分析的方法,其中分析计算在收集点(例如传感器)上对数据执行,而不是等待数据被发送回集中数据存储然后进行分析. 随着连接设备的物联网模型变得更加成熟,边缘分析已受到青睐。在许多企业中,来自连接到物联网网络的各种公司运营的流数据会产生大量运营数据,这些数据管理起来既困难又昂贵。通过在收集数据时通过分析过程运行数据,在网络的“边缘”,可以建立过滤器,以确定哪些信息值得发送到中央数据存储以供以后使用。
GAN——生成对抗网络 (GAN) 是由两个相互对抗的网络组成的深度神经网络架构,例如术语“对抗”。 GAN 的理论首先由深度学习大师 Ian Goodfellow 和蒙特利尔大学的其他研究人员(包括 Yoshua Bengio)在 2014 年的 一篇论文中提出。GAN 的潜力是巨大的,因为它们是 生成 模型,因为它们可以创建类似于训练数据的新数据实例。例如,GAN 可以创建看起来像人脸照片的图像,即使这些人脸不属于任何真实的人。
地理空间分析——地理空间分析是一种用于收集、操作和显示地理信息系统 (GIS) 数据(例如 GPS 数据)和图像(例如卫星照片)的技术。地理空间分析使用地理坐标以及特定的标识符变量,例如街道地址和邮政编码。该技术用于创建地理模型和数据可视化,以实现更准确的建模和预测。
图数据库——图数据库使用“图论”来存储、映射和查询数据元素的关系。本质上,图形数据库是所谓的 节点 和 边的集合。一个节点代表一个实体,例如产品或客户,而一条边代表两个节点之间的连接或关系。图数据库中包含的每个节点都由唯一标识符、一组传出边和/或传入边以及一组键/值对定义。每条边由唯一标识符、起始位置和/或结束位置节点以及一组属性定义。图数据库非常适合分析互连。
Julia – 无论您是使用最流行的编程语言 R 还是 Python 的数据科学家,您仍然应该了解一种相对较新的语言,它是从头开始为数据科学应用程序设计的。Julia 于 2012 年在一篇 博文中正式宣布。该语言的设计者和另外两个人于 2015 年 7 月创立了 Julia Computing ,以“开发使 Julia 易于使用、易于部署和易于扩展的产品”。Julia 是一种用于数值计算的免费开源高级编程语言。它具有动态语言的便利性和编译的静态类型语言的性能,通过生成本机机器代码的 JIT 编译器,以及通过专门化实现类型稳定性的设计 多次分派,使其易于编译为高效代码。
低代码/无代码——这些天您可能会看到很多提及“低代码”和/或“无代码”的术语。许多新产品以及一些成熟产品正在被重新命名为采用低代码/无代码方法。简而言之,低代码/无代码开发平台是一个可视化集成开发环境,允许公民开发人员拖放应用程序组件,将它们连接在一起并创建完成的应用程序。许多企业 BI 平台都属于此平台类别。