雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。结果,模式图形成类似于雪花的形状。雪花模式和星形模式的主要不同在于,雪花模式的维表可能是规范化形式,以便减少冗余。这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。然而,与巨大的事实表相...
相关思维是比较复杂的统计学数据思维,相关思维包含正相关、负相关、非线性相关、不相关等多种类型,大部分应用在生物学、科学领域。复杂的相关分析需要应用函数,建模才能完成,而现实工作中,大部分应用不到这么深层复杂的程度。大部分应用主要研究A与B之间的关系,如销售额与UV之间的关系,广告费用成本与获取曝光量...
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与...
数据集市包含企业范围数据的一个子集,对于特定的用户是有用的。其范围限于选定的主题。例如,一个商场的数据集市可能限定其主题为顾客、商品和销售。包括在数据集市中的数据通常是汇总的。通常,数据集市可以在低价格的部门服务器上实现,基于 UNIX 或 Windows/NT。实现数据集市的周期一般是数以周计,而...
这种思维方式已经普及:注册转化、购买流程、销售管道、浏览路径等,太多的分析场景中,能找到这种思维的影子。但是,看上去越是普世越是容易理解的模型,它的应用越得谨慎和小心。在漏斗思维当中,尤其要注意漏斗的长度。漏斗从哪里开始到哪里结束?漏斗的环节不该超过5个,且漏斗中各环节的百分比数值,量级不要超过10...
目前数据库主要分为两种类型:一、关系数据库关系型数据库,存储的格式可以直观地反映实体间的关系。关系型数据库和常见的表格比较相似,关系型数据库中表与表之间是有很多复杂的关联关系的。 常见的关系型数据库有Mysql,SqlServer等。在轻量或者小型的应用中,使用不同的关系型数据库对系统的性能影响不大...
虚拟仓库是操作数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作数据库服务器具有剩余能力。自顶向下开发企业仓库是一种系统的解决方法,并能最大限度地减少集成问题。然而,它费用高,需要长时间开发,并且缺乏灵活性,因为整个组织的共同数据模型达到一致是困难的。...
矩阵思维是分类思维的发展,它不再局限于用量化指标来进行分类。许多时候,我们没有数据做为支持,只能通过经验做主管的推断时,是可以把某些重要因素组合成矩阵,大致定义出好坏的方向,然后进行分析。大家可以百度经典的管理分析方法“波士顿矩阵”模型。来源:知乎
数据库是存放数据的仓库。它的存储空间很大,可以存放百万条、千万条、上亿条数据。但是数据库并不是随意地将数据进行存放,是有一定的规则的,否则查询的效率会很低。当今世界是一个充满着数据的互联网世界,充斥着大量的数据。即这个互联网世界就是数据世界。数据的来源有很多,比如出行记录、消费记录、浏览的网页、发送...
元数据是关于数据的数据。在数据仓库中,元数据是定义仓库对象的数据。对于给定数据仓库的数据名和定义,创建元数据。其它元数据包括对提取数据添加的时间标签、提取数据的源、被数据清理或集成处理添加的字段等。元数据的存储应当包括:1.数据仓库结构的描述,包括仓库模式、视图、维、层次结构、导出数据的定义,以及数...
客户分群、产品归类、市场分级、绩效评价...许多事情都需要有分类的思维。主管拍脑袋也可以分类,通过机器学习算法也可以分类,那么许多人就模糊了,到底分类思维怎么应用呢?关键点在于,分类后的事物,需要在核心指标上能拉开距离!也就是说分类后的结果,必须是显著的。如图,横轴和纵轴往往是你运营当中关注的核心指...
提出一个好问题是成功的一半。如果我们想寻求他人的帮助,那么提问前很有必要先做到以下这些事情:1. 弄明白自己遇到的真正问题,梳理清楚2. 尝试上网搜索,尝试查询手册或者去专门的社区查看帖子3. 自己动手尝试过解决问题以下是几个错误的问题示范,学习者一定要避开:问题:我能在哪找到 X 程序或 X 资源...
填补遗漏值的方法:1.忽略元组:当类标号缺少时通常这样做(假定挖掘任务涉及分类或描述)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比很高时,它的性能非常差。2. 人工填写遗漏值:一般地说,该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。3. 使用一个全局常...
在 Python 中,使用了 yield 的函数被称为生成器(generator)。跟普通函数不同的是,生成器是一个返回迭代器的函数,只能用于迭代操作,更简单点理解生成器就是一个迭代器。在调用生成器运行的过程中,每次遇到 yield 时函数会暂停并保存当前所有的运行信息,返回 yield 的值, 并...
我们每个人都必不可免与「问题/故障」打交道,善于排查问题是个非常有用的技能。来看个例子:小明放学回家,无法进入自家大门于是他打电话给父亲。小明:爸,我进不去家门,门打不开。父亲:怎么打不开?小明:不知道,就是推不开。父亲:锁坏了?还是家里反锁了?小明:不知道。父亲:钥匙能转动吗?小明:不知道,钥匙捅...
噪音是测量变量的随机错误或偏差,去掉噪音才能让数据整体更平滑,方法如下:1.分箱:分箱方法通过考察“邻居”(即,周围的值)来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法导致值相邻,因此它进行局部平滑。2.聚类:局外者可以被聚类检测。聚类将类似的值组织成群或“聚类”。直观地,落在聚...
迭代是Python最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代器有两个基本的方法:iter() 和 next()。字符串,列表或元组对象都可用于创建迭代器:实例(Pyt...
浏览器能解决我们百分之八十的常见问题。互联网是规模庞大的信息库,各种类别的信息都可以在上面检索到,学习过程中遇到任何问题,都可以试着自己在网上检索看看。除了直接搜索外,也可以专门去技术博客、技术社区去寻求帮助。检索前你需要做好一件事——把自己的问题梳理清楚。如果不会问问题,可以参考本栏目「善于提问」...
数据变换将数据转换成适合于挖掘的形式。数据变换可能涉及如下内容:平滑:去掉数据中的噪音。这种技术包括分箱、聚类和回归。聚集:对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据方。数据泛化:使用概念分层,用高层次概念替换低层次“原始”数据。例如,...
在 python 用 import 或者 from...import 来导入相应的模块。将整个模块(somemodule)导入,格式为: import somemodule从某个模块中导入某个函数,格式为: from somemodule import somefunction从某个模块中导入多个函...