分析的前提—数据质量
数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障。数据质量保证(Data Quality Assurance)是数据仓库架构中的重要环节,也是ETL的重要组成部分。
数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障。数据质量保证(Data Quality Assurance)是数据仓库架构中的重要环节,也是ETL的重要组成部分。
图书分类是图书馆将图书数据采购入馆后,由于搜藏的图书数据过于繁杂,因此图书馆都会依据图书分类法,将图书数据依其内容主题的不同,分别归类,给定分类号,以作为图书馆图书整理和提供利用的工具。
Session是在服务端保存的一个数据结构,用来跟踪用户的状态,这个数据可以保存在集群、数据库、文件中;
Cookie是客户端保存用户信息的一种机制,用来记录用户的一些信息,也是实现Session的一种方式。
协调世界时(zulu
time),又称世界标准时间或世界协调时间,简称UTC(英文“Coordinated
Universal Time”/法文“Temps Universel
Coordonné”),是最主要的世界时间标准,其以原子时秒长为基础,在时刻上尽量接近于格林尼治标准时间(GMT)。
UTC基于国际原子时,并通过不规则的加入闰秒来抵消地球自转变慢的影响.
在军事中,协调世界时区会使用“Z”来表示。而在航空上,所有使用的时间划一规定是协调世界时。而且Z在无线电中应以北约音标字母读作“Zulu”,协调世界时也会被称为“Zulu
time”。比如说飞机在香港时间(UTC+8)18:00整起飞,就会写成1000z,又或者读作“1000Zulu”。
维度表和事实表之间的标准关系是一对多关系,这意味着维度表中的一行记录会连接事实表中的多行记录,但是事实表中的一行记录在维度表中只关联一行记录。这种关系很重要,因为它防止了重复计数。幸运的是,在大多数情况下都是这种一对多关系。
在现实世界中还存在比一对多关系更复杂的两种常见情况:
事实表和维度表之间的多对多关系。
维度表之间的多对多关系。
这两种情况本质是相同的,但事实表和维度表之间的多对多关系少了唯一描述事实和维度组的中间维度。
本文概述关系数据库中为表指定主键的策略。主要关注于何时使用自然键或者代理键的问题。有些人会告诉你应该总是使用自然键,而另外一些人会告诉你应该总是使用代理键。这些人总是被证明是错误的,通常他们仅仅是与你分享了他们“数据信仰”的偏见。事实上自然键与代理键具有各自的优缺点,没有在所有情况下都完美的策略。也就是说,你必须清楚你要做的事情才能做好它。本文讨论以下内容:
在进行客户关系管理(CRM)分析时,通常有三个客户行为分析值,分别是最近访问时间、访问频率和交易数量。最近访问时间指我们和客户最后一次接触的一些信息,包括最后访问时间或者最后一次接触到目前的时间间隔等。访问频率指我们和客户的接触频率。交易数量是我们和客户交互量的度量,例如购买量或者访问站点网页的总量等。在实际构建系统,每一个都需要进行细化。
通常这种针对最近访问时间(recency)、访问频率(frequency)和交易数量(intencity)的分析称为RFI分析。通过对这三个数字数据的收集,我们可以建立一个三维的Cube。数据挖掘人员可以根据这三个数值将客户进行聚类分析,通常的聚类结果为如下八类:
在进行数据分析和可视化之前,经常需要先“清洗”数据。这意味着什么?可能有些词条列表里是“New
York City”,而其他人写成“New York,
NY”。然而,你在看到某些模式前得将各种各样的输入词汇标准化。又或者,出现一些数值输入错误,错别字什么的。
有很多工具都可以实现你想要的功能,但大多都是付费的。对于专业人士来说,这些成本是值得的,但对于时不时才使用的业余人士来说,未免有些浪费。下面介绍的两个工具最伟大的地方就是——它们是免费的!