0%

人的力量永远来自心灵,当你的心灵产生力量后,外界的环境看上去也就没想象中的险恶了。

如何放下烦恼

最重要的两点:
对事:心放大事就变小了;
对人:换位思考(理解对方)

以上其实也是一种换个角度看问题的具体化。有个技巧就是当一件事情发生的时候,你认为它是正常的,就能减少很多的烦恼。俗话说,当局者迷,旁观者清,碰到事情,学会以一种旁观者的姿态去看待问题。

知足常乐和不焦虑是一体两面。俗话说,既得陇复望蜀,所以人心是永不知足的,这就是烦恼的来源。关于焦虑,像毛主席说得好,矛盾是事物的本质,是永远会存在的,你解决了这个矛盾,又会有新的矛盾出来,所以面对问题、面对矛盾的时候不需要焦虑,因为,无论如何都有新问题、新矛盾出现。

人生最重要的三点

  • 学会放下(面子、过去、未来......)
  • 不强求改变任何人
  • 自我意识不能太强(开放心态) 做事心态不要太认真。事情可以认真,但心态不要太认真。
    难得胡涂、游戏人间的态度。
阅读全文 »

"你无法在摘要上进行模式匹配,阅读他人对知识的压缩会创造知识的幻觉;二手洞见不是洞见,模式识别需要高质量的数据。"这句话讲得很好,学习一门新知识,必须系统的看一些经典的书籍。

关于机器学习(或深度学习)的书籍也看了很多,个人觉得最值得推荐的书有两本,一本是《Deep Learning with Python》(《Python深度学习》),深入浅出的介绍了机器学习的内容,让你知其然;另外一本是《MATHEMATICS FOR MACHINE LEARNING》 (《机器学习的数学基础》),把机器学习相关的数学知识和概念系统的介绍了一次,让你知其所以然。

《Practical Statistics for Data Scientists》(已翻译) 这本书也不错。

这本书从数据科学家而不是数学家的角度出发,所以摒弃了很多数学公式和细节。

但是概念的阐述得还算清楚,关键的混淆点也能指出。

以下这个网页介绍的几本书,感觉还不错。 打好数据科学和机器学习的基础——6本书带你学数学 https://www.dataapplab.com/6-best-books-to-learn-mathematics-for-data-science-machine-learning/

阅读全文 »

1、芝诺悖论

这涉及到潜无限问题,即无限过程无法完成,即1只能无限逼近,不能达到1,乌龟是不能被追上的。为此,潜无限只能假设空间不可以无限分割,这样悖论就不存在了。但实无限认为,无限过程可以完成,即极限可以达到1,乌龟可以追上。现在的实数,极限,微积分都建立在实无限上。对潜无限来说,实数,极限等都不成立,只能无限逼近。 P.S.目前数学界有"0.9999999999.......=1"之证明如下。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第7章 无监督学习

Unsupervised Learning

无监督学习这个术语指的是在没有标注数据(即已知感兴趣结果的数据)的情况下,从数据中提取意义的统计方法。在第四章到第六章中,目标是构建一个模型(一套规则),用一组预测变量来预测一个响应变量。这就是监督学习。与此相反,无监督学习也构建数据的模型,但它不区分响应变量和预测变量

无监督学习可以用于实现不同的目标。在某些情况下,当没有带标签的响应变量时,它可用于创建预测规则。例如,聚类方法可以用于识别有意义的数据组。我们可以使用用户在网站上的点击和人口统计数据,将不同类型的用户分组。然后,网站可以根据这些不同类型进行个性化

在另一些情况下,目标可能是将数据的维度降至一个更易于管理的变量集。然后,这个缩减后的集合可以作为输入用于预测模型,比如回归或分类。例如,我们可能有成千上万个传感器来监测一个工业过程。通过将数据简化为一个更小的特征集,我们也许能够构建一个比包含数千个传感器数据流更强大、更可解释的过程故障预测模型

最后,无监督学习可以被视为探索性数据分析(参见第一章)的延伸,适用于您面对大量变量和记录的情况。其目的是深入了解一组数据以及不同变量之间的相互关系。无监督技术让您能够筛选和分析这些变量,并发现其中的关系。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第6章 统计机器学习

Statistical Machine Learning

统计学在近期发展中,致力于开发更强大、更自动化的预测建模技术,涵盖了回归分类。这些方法与上一章讨论的方法一样,都是有监督学习——它们通过在已知结果的数据上进行训练,来学习如何预测新数据的结果。它们属于统计机器学习的范畴,与经典统计方法不同之处在于,它们是数据驱动的,并且不试图对数据强加线性的或其他整体结构。例如,K-最近邻(K-Nearest Neighbors)方法非常简单:根据相似记录的分类方式来对一条记录进行分类。最成功和应用最广泛的技术是基于集成学习(ensemble learning)并应用于决策树(decision trees.)的方法。集成学习的基本思想是使用多个模型来形成预测,而不是仅仅使用一个单一模型。决策树是一种灵活且自动化的技术,用于学习预测变量和结果变量之间关系的规则。事实证明,将集成学习与决策树相结合,可以产生一些性能最佳的现成预测建模技术。

许多统计机器学习技术的发展,可以追溯到加州大学伯克利分校的统计学家 Leo Breiman(参见图6-1)和斯坦福大学的 Jerry Friedman。 他们的工作,以及伯克利和斯坦福其他研究人员的工作,始于1984年对树模型的开发。随后在20世纪90年代开发的装袋法(bagging)提升法(boosting)等集成方法,奠定了统计机器学习的基础。

阅读全文 »

个人注:以下使用gemini翻译 20250916

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第5章 分类

数据科学家经常需要为商业问题提供自动化决策。一封电子邮件是钓鱼邮件吗?一个客户是否可能流失?一个网络用户是否可能点击广告?这些都是分类问题,一种监督学习形式。我们首先在已知结果的数据上训练一个模型,然后将该模型应用于结果未知的数据。分类也许是预测最重要的形式:其目标是预测一条记录是1还是0(例如,钓鱼/非钓鱼、点击/不点击、流失/不流失),或者在某些情况下,预测它属于几个类别中的一个(例如,Gmail 将你的收件箱过滤为“主要”、“社交”、“推广”或“论坛”)。

很多时候,我们需要的不仅仅是一个简单的二元分类,我们还想知道一个案例属于某个类别的预测概率。大多数算法都可以返回一个属于目标类别的概率分数(probability score)(倾向性)(propensity),而不仅仅是简单地分配一个二元分类。事实上,对于逻辑回归,R 的默认输出是对数几率(log-odds)尺度,这必须被转换为倾向性。在 Python 的 scikit-learn 中,逻辑回归与大多数分类方法一样,提供了两种预测方法:predict(返回类别)和 predict_proba(返回每个类别的概率)。然后,可以使用一个滑动截止点( sliding cutoff)将倾向性分数转换为决策。一般方法如下:

  1. 设定一个截止概率:为目标类别设定一个截止概率,如果记录的概率高于这个截止点,我们就认为它属于该类别。
  2. 估算概率:使用任何模型估算一条记录属于目标类别的概率。
  3. 做出决策:如果这个概率高于截止概率,则将新记录分配给目标类别。

截止点越高,被预测为1的记录就越少;截止点越低,被预测为1的记录就越多。

本章将介绍几种用于分类和估算倾向性的关键技术;下一章将描述既可用于分类也可用于数值预测的其他方法。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第 4 章 回归与预测

在统计学中,也许最常见的目标就是回答这样的问题:“变量 X(或者更常见地,X₁, …, Xₚ)是否与变量 Y 有关联?如果有,这种关系是什么,我们能否利用它来预测 Y?”

在预测领域——特别是基于其他“预测变量”的值来预测一个结果(目标)变量——统计学与数据科学的联系最为紧密。这一过程是在结果已知的数据上训练模型,以便随后将其应用于结果未知的数据,称为监督学习。数据科学与统计学的另一个重要交叉领域是异常检测:最初用于数据分析和改进回归模型的回归诊断方法,也可用来检测异常记录。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第 3 章 统计实验与显著性检验

实验设计是统计实践的基石,在几乎所有研究领域都有应用。其目标是设计实验以确认或拒绝某个假设。数据科学家往往需要持续进行实验,尤其是关于用户界面和产品营销方面的实验。本章回顾了传统实验设计,并讨论了数据科学中常见的一些挑战;还介绍了一些统计推断中经常被引用的概念,并解释了它们的含义及其与数据科学的相关性(或不相关性)。

F3.1

当你看到统计显著性、t 检验或 p 值等术语时,通常是在经典统计推断“流水线”的上下文中(见图 3-1)。这个过程从一个假设开始(例如“药物 A 优于现有标准药物”或“价格 A 比现有价格 B 更有利可图”)。然后设计实验(可能是 A/B 测试)以检验这个假设——设计得尽可能能够得出结论性结果。接着收集并分析数据,然后得出结论。术语“推断”体现了这样一种意图:将涉及有限数据集的实验结果,应用到更大的过程或总体上。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第 2 章 数据与抽样分布

人们常见的一个误解是,大数据时代意味着不再需要抽样。事实上,数据在质量和相关性上呈现爆炸式增长,反而强化了抽样作为高效处理各种数据并最小化偏差的工具的重要性。即使在大数据项目中,预测模型通常也是用样本开发和试运行的。样本还用于各种测试(例如,比较不同网页设计对点击率的影响)。

F2.1

图 2-1 展示了支撑本章所讨论概念——数据与抽样分布——的示意图。左侧表示总体,在统计学中假定总体遵循某个潜在但未知的分布。我们唯一能获取的是右侧所示的样本数据及其经验分布。要从左侧到达右侧,需要一个抽样过程(由箭头表示)。传统统计学非常注重左侧,依赖于对总体作出强假设的理论。现代统计学则更多地转向右侧,不再需要这些假设。

总体而言,数据科学家不必担心左侧的理论性质,而应关注抽样过程和手头的数据。不过也有一些显著例外。有时数据源自可以建模的物理过程。最简单的例子是掷硬币:它服从二项分布。任何现实中的二项情境(购买或不购买、欺诈或非欺诈、点击或不点击)都可以有效地用一枚硬币来建模(当然,硬币正面出现的概率可调整)。在这些情况下,我们可以通过理解总体获得更多洞见。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

前言

本书旨在帮助对 R 和/或 Python 编程语言有一定熟悉度、并对统计学有过一些前期(可能零星或短暂的)接触的数据科学家。两位作者从统计学领域进入数据科学世界,对统计学能为数据科学这门艺术所做的贡献心怀感激。与此同时,我们深知传统统计学教学的局限性:统计学作为一门学科已有一个半世纪的历史,大多数统计学教科书和课程都承载着巨轮般的动量和惯性。本书中的所有方法都与统计学这门学科有着某种联系——无论是历史上的还是方法论上的。那些主要从计算机科学演变而来的方法,比如神经网络,则不包括在内。

本书的两个目标是:

  • 以易于消化、导航和参考的形式,列出与数据科学相关的关键统计概念
  • 从数据科学的角度解释哪些概念是重要且有用的,哪些则不那么重要,以及原因何在
阅读全文 »