0%

一、什么是数据库分区

mysql数据库中的数据是以文件的形势存在磁盘上的,默认放在/mysql/data下面(可以通过my.cnf中的datadir来查看),一张表主要对应着三个文件,一个是frm存放表结构的,一个是myd存放表数据的,一个是myi存表索引的。
如果一张表的数据量太大的话,那么myd,myi就会变的很大,查找数据就会变的很慢,这个时候我们可以利用mysql的分区功能,在物理上将这一张表对应的三个文件,分割成许多个小块,这样呢,我们查找一条数据时,就不用全部查找了,只要知道这条数据在哪一块,然后在那一块找就行了。如果表的数据太大,可能一个磁盘放不下,这个时候,我们可以把数据分配到不同的磁盘里面去。

阅读全文 »

  数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障。数据质量保证(Data Quality Assurance)是数据仓库架构中的重要环节,也是ETL的重要组成部分。

阅读全文 »

一.图书分类

  图书分类是图书馆将图书数据采购入馆后,由于搜藏的图书数据过于繁杂,因此图书馆都会依据图书分类法,将图书数据依其内容主题的不同,分别归类,给定分类号,以作为图书馆图书整理和提供利用的工具。

阅读全文 »

Session是在服务端保存的一个数据结构,用来跟踪用户的状态,这个数据可以保存在集群、数据库、文件中;
Cookie是客户端保存用户信息的一种机制,用来记录用户的一些信息,也是实现Session的一种方式。

阅读全文 »

协调世界时(zulu time),又称世界标准时间或世界协调时间,简称UTC(英文“Coordinated Universal Time”/法文“Temps Universel Coordonné”),是最主要的世界时间标准,其以原子时秒长为基础,在时刻上尽量接近于格林尼治标准时间(GMT)。
UTC基于国际原子时,并通过不规则的加入闰秒来抵消地球自转变慢的影响.
在军事中,协调世界时区会使用“Z”来表示。而在航空上,所有使用的时间划一规定是协调世界时。而且Z在无线电中应以北约音标字母读作“Zulu”,协调世界时也会被称为“Zulu time”。比如说飞机在香港时间(UTC+8)18:00整起飞,就会写成1000z,又或者读作“1000Zulu”。

多对多维度或多值维度

维度表和事实表之间的标准关系是一对多关系,这意味着维度表中的一行记录会连接事实表中的多行记录,但是事实表中的一行记录在维度表中只关联一行记录。这种关系很重要,因为它防止了重复计数。幸运的是,在大多数情况下都是这种一对多关系。
在现实世界中还存在比一对多关系更复杂的两种常见情况:
事实表和维度表之间的多对多关系。
维度表之间的多对多关系。
这两种情况本质是相同的,但事实表和维度表之间的多对多关系少了唯一描述事实和维度组的中间维度。

阅读全文 »

本文概述关系数据库中为表指定主键的策略。主要关注于何时使用自然键或者代理键的问题。有些人会告诉你应该总是使用自然键,而另外一些人会告诉你应该总是使用代理键。这些人总是被证明是错误的,通常他们仅仅是与你分享了他们“数据信仰”的偏见。事实上自然键与代理键具有各自的优缺点,没有在所有情况下都完美的策略。也就是说,你必须清楚你要做的事情才能做好它。本文讨论以下内容:

阅读全文 »

在进行客户关系管理(CRM)分析时,通常有三个客户行为分析值,分别是最近访问时间、访问频率和交易数量。最近访问时间指我们和客户最后一次接触的一些信息,包括最后访问时间或者最后一次接触到目前的时间间隔等。访问频率指我们和客户的接触频率。交易数量是我们和客户交互量的度量,例如购买量或者访问站点网页的总量等。在实际构建系统,每一个都需要进行细化。
通常这种针对最近访问时间(recency)、访问频率(frequency)和交易数量(intencity)的分析称为RFI分析。通过对这三个数字数据的收集,我们可以建立一个三维的Cube。数据挖掘人员可以根据这三个数值将客户进行聚类分析,通常的聚类结果为如下八类:

阅读全文 »