关于数据挖掘(Data Mining)

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。也就是指从大量的数据中通过算法搜索隐藏于其中信息的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。有时候放“马后炮”也是有意义、有价值的。

数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大
量数据中寻找潜在规律以形成规则或知识的技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases,KDD) ,就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识)。
数据挖掘的主要功能

  1. 分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
  2. 聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
  3. 关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。
  4. 预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。
  5. 偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。

  需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。

第一回合:分析报告

在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱来写一篇文章分析。
孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。
二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环刀力量无穷。
所以在大战开始三百回合时候不相上下,结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手

最后二郎神赢了。分析报告完成。

第二回合:统计分析

大圣二战杨戬。这次在二位大战之前做个数理统计来预测结果。
首先根据历史样本史书记载发现两人在之前的五百年里打过100次,其中孙悟空赢60次。
然后有记录显示,之前孙悟空和牛魔王战斗的胜率是80%,而杨戬斗牛魔王胜率是70%。
所以可以得出综合预测总体胜率是孙悟空赢面大。

结论依靠历史记录,使用样本预测总体,根据经验做出假设。统计分析完成。

第三回合:数据挖掘

孙悟空和杨戬终极决战。这次咱们根据两位的详细资料(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机通过数据清洗建模后发现:
贫苦出身的孩子一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。
战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。
在都得到大师指点的情况下,贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。
样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。

综上所述,我们可知道:
论出身两位大神不分伯仲。一个从石头出来,一个是凡人与神仙结合所生。
悟空的师父菩提老祖(准提道人)和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高足所以前者更胜一筹。
斗战胜佛战斗经验相对整日快活逍遥无忧无虑的二郎神来说更加丰富。
另孙行者由于样貌原因始终单身(好伤感)。

所以可以得出结论,这次大战孙悟空赢面大。数据挖掘完成。

最后总结:

分析报告一般是整个事件发生结束以后的总结(马后炮)。
统计分析能利用大量的历史样本来预测整个事件总体未来的走向(概率)。
数据挖掘则透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系。