标签:华理教学案例
HITS算法是由康奈尔大学( Cornell University )的Jon Kleinberg博士于1997年首先提出的,为IBM公司阿尔马登研究中心( IBM Almaden Research Center)的名为“CLEVER”的研究项目中的一部分。按照HITS算法,用户输入关键词后,算法对...
WOLFRAM DATA REPOSITORY是一个公共资源,它承载着一个不断扩展的可计算数据集集合,经过策划和结构化,适合立即用于计算、可视化、分析等。来源网址:https://datarepository.wolframcloud.com/
在图论中,可达性是指从一个顶点到另一个顶点的容易程度。 如果存在一系列相邻顶点,则顶点s可以到达顶点t(并且t可也可以到达s),以s为开头,以t结尾。在无向图中,可以通过识别图的连接分量来确定所有顶点对之间的可达性。当且仅当它们属于同一连通分量时,这种图的任何一对顶点可以彼此到达。可以在线性时间中识...
用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法能得出最短路径的最优解,但由于它遍历计算的节点很多,所以效率低。来源网址:https://baike.baidu.com/item/%E6%9C%80%E7%9F%AD%E8%B7...
SuperDataScience是关于数据科学和人工智能的图书馆,包含56门课程。点击跳转会来到Kirill Eremenko和Hadelin de Ponteves的机器学习课程知识库。该课程会提供代码和数据集。来源网址:https://www.superdatascience.com/pages...
一个有n个结点的连通图的生成树是原图的极小连通子图,且包含原图中的所有n个结点,并且有保持图连通的最少的边。最小生成树可以用kruskal(克鲁斯卡尔)算法或prim(普里姆)算法求出。来源网址:https://baike.baidu.com/item/%E6%9C%80%E5%B0%8F%E7%9...
Open Data Stack Exchange是是一个面向对开放数据感兴趣的开发人员和研究人员的问答网站。来源网址:https://opendata.stackexchange.com/
主路径分析是一种数学工具,最早由Hummon和Doreian在1989年提出,用于识别引文网络中的主要路径,这是有向无环图(DAG)的一种形式。该方法首先通过“遍历计数”的概念来测量引文网络中所有链接的重要性,然后将最重要的链接依次链接到“主路径”,这被认为是目标引文中最重要的历史路径。该方法适用于...
NLPIR实验室定位为世界一流的多语种认知智能创新中心,服务于国家安全治理、行业大数据挖掘与个人智能服务。实验室核心成果NLPIR多语大数据语义增强分析平台覆盖了中文、英文、西班牙语、法语、维语、阿拉伯语、印度乌尔都语、多哥语等“一带一路”沿线语言的自然语言处理,搭建了NLPIR大数据语义增强分析平...
网络中的链路预测(Link Prediction)是指如何通过已知的网络节点以及网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的可能性。这种预测既包含了对未知链接(exist yet unknown links)的预测也包含了对未来链接(future links)的预测。该问题的研究在理...
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游...
网络模体Network motifs是指在特定网络或各种网络中重复出现的相同的子图。这些子图由顶点之间特定的交互模式定义,一个子图便可以反映一个框架,这个框架可以有效地实现某个特定的功能。事实上,之所以说模体是一个重要的特性,正是因为它们可能反映出对应网络功能的这一性质。近年来这一概念作为揭示复杂网...
这是首个中文阅读理解数据集,包括人民日报和儿童童话(PD&CFT)。查看数据集需要科学上网。来源网址:https://github.com/ymcui/Chinese-Cloze-RC
语义网是对未来网络的一个设想,与Web3.0这一概念结合在一起,作为3.0网络时代的特征之一。简单地说,语义网是一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值。语义网,它的核心是:通过给万维网上的文档 (如:HTML文档、XML文档)添加能够被...
THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点:包含词频统计信息DF值(Document Frequency),方便用户个性化选择...
第一层:“字符集”层。Unicode和URI。Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resourc...
这是最全的中华古典文集数据库,包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人,和两宋时期 1.5 千古词人。数据来源于互联网。查看数据库需要科学上网。来源网址:https://github.com/chinese-poetry/chine...
资源描述框架(Resource Description Framework,RDF)是一个使用XML语法来表示的资料模型(Data model),用来描述Web资源的特性,及资源与资源之间的关系。RDF是W3C在1999年2月22日所颁布的一个建议(Recommendation),制定的目的主要是为...
【数据名称】 1. Keywords List; 2. Religion Network。【数据说明】Keywords List是中国宗教用户关键词列表 ,Religion Network是宗教用户构成的社交网络 。【使用说明】需引用 J. Hu, Q.-M. Zhang, T. Zhou. ...