资讯频道 - 数据科学实验云平台

标签：面试经验

15

12月

什么是最短路径

用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展，直到扩展到终点为止。Dijkstra算法能得出最短路径的最优解，但由于它遍历计算的节点很多，所以效率低。来源网址：https://baike.baidu.com/item/%E6%9C%80%E7%9F%AD%E8%B7...

15

12月

SuperDataScience

SuperDataScience是关于数据科学和人工智能的图书馆，包含56门课程。点击跳转会来到Kirill Eremenko和Hadelin de Ponteves的机器学习课程知识库。该课程会提供代码和数据集。来源网址：https://www.superdatascience.com/pages...

15

12月

什么是最小生成树

一个有n个结点的连通图的生成树是原图的极小连通子图，且包含原图中的所有n个结点，并且有保持图连通的最少的边。最小生成树可以用kruskal（克鲁斯卡尔）算法或prim（普里姆）算法求出。来源网址：https://baike.baidu.com/item/%E6%9C%80%E5%B0%8F%E7%9...

15

12月

StackExchange

Open Data Stack Exchange是是一个面向对开放数据感兴趣的开发人员和研究人员的问答网站。来源网址：https://opendata.stackexchange.com/

15

12月

什么是主路径分析

主路径分析是一种数学工具，最早由Hummon和Doreian在1989年提出，用于识别引文网络中的主要路径，这是有向无环图（DAG）的一种形式。该方法首先通过“遍历计数”的概念来测量引文网络中所有链接的重要性，然后将最重要的链接依次链接到“主路径”，这被认为是目标引文中最重要的历史路径。该方法适用于...

15

12月

NLPIR自然语言处理与信息检索共享平台

NLPIR实验室定位为世界一流的多语种认知智能创新中心，服务于国家安全治理、行业大数据挖掘与个人智能服务。实验室核心成果NLPIR多语大数据语义增强分析平台覆盖了中文、英文、西班牙语、法语、维语、阿拉伯语、印度乌尔都语、多哥语等“一带一路”沿线语言的自然语言处理，搭建了NLPIR大数据语义增强分析平...

15

12月

什么是链路预测

网络中的链路预测(Link Prediction)是指如何通过已知的网络节点以及网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的可能性。这种预测既包含了对未知链接（exist yet unknown links）的预测也包含了对未来链接（future links）的预测。该问题的研究在理...

15

12月

中文文本分类数据集THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游...

15

12月

什么是网络模体

网络模体Network motifs是指在特定网络或各种网络中重复出现的相同的子图。这些子图由顶点之间特定的交互模式定义，一个子图便可以反映一个框架，这个框架可以有效地实现某个特定的功能。事实上，之所以说模体是一个重要的特性，正是因为它们可能反映出对应网络功能的这一性质。近年来这一概念作为揭示复杂网...

15

12月

中文阅读理解数据集

这是首个中文阅读理解数据集，包括人民日报和儿童童话(PD&CFT)。查看数据集需要科学上网。来源网址：https://github.com/ymcui/Chinese-Cloze-RC

15

12月

什么是语义网

语义网是对未来网络的一个设想，与Web3.0这一概念结合在一起，作为3.0网络时代的特征之一。简单地说，语义网是一种智能网络，它不但能够理解词语和概念，而且还能够理解它们之间的逻辑关系，可以使交流变得更有效率和价值。语义网，它的核心是：通过给万维网上的文档（如：HTML文档、XML文档）添加能够被...

15

12月

清华大学开放中文词库THUOCL

THUOCL（THU Open Chinese Lexicon）是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点：包含词频统计信息DF值（Document Frequency），方便用户个性化选择...

15

12月

语义网的体系结构

第一层：“字符集”层。Unicode和URI。Unicode是一个字符集，这个字符集中所有字符都用两个字节表示，可以表示65536个字符，基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合，并且可以同时进行检索。URI(Uniform Resourc...

15

12月

中文诗歌数据集

这是最全的中华古典文集数据库，包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人，和两宋时期 1.5 千古词人。数据来源于互联网。查看数据库需要科学上网。来源网址：https://github.com/chinese-poetry/chine...

15

12月

什么是资源描述框架

资源描述框架(Resource Description Framework，RDF)是一个使用XML语法来表示的资料模型(Data model)，用来描述Web资源的特性，及资源与资源之间的关系。RDF是W3C在1999年2月22日所颁布的一个建议(Recommendation)，制定的目的主要是为...

15

12月

中国宗教在线用户关键词及用户关系

【数据名称】 1. Keywords List； 2. Religion Network。【数据说明】Keywords List是中国宗教用户关键词列表，Religion Network是宗教用户构成的社交网络。【使用说明】需引用 J. Hu, Q.-M. Zhang, T. Zhou. ...

15

12月

什么是本体（ontology）

本体（ontology）的几个代表性定义：(1)本体是对于“概念化”的某一部分的明确的总结或表达。(2)本体在不同的场合分别指“概念化”或“本体理论”。(3)本体是对于“概念化”的明确表达。(4)本体是用于描述或表达某一领域知识的一组概念或术语。它可以用来组织知识库较高层次的知识抽象，也可以用来描述...

15

12月

中文突发事件语料库

中文突发事件语料库是由上海大学（语义智能实验室）所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到...

15

12月

什么是知识库

知识库的概念来自两个不同的领域，一个是人工智能及其分支-知识工程领域，另一个是传统的数据库领域。由人工智能（AI）和数据库（DB）两项计算机技术的有机结合，促成了知识库系统的产生和发展。知识库是基于知识且具有智能性的系统（或专家系统）。并不是所有具有智能的程序都拥有知识库，只有基于知识的系统才拥有知...

15

12月

中国股市信息数据集

该项目通过python脚本从巨潮网络的服务器获取中国股市公告(上市公司和监管机构),公告信息存入数据库，公告文件下载到本地。查看数据集需要科学上网。来源网址：https://github.com/startprogress/China_stock_announcement