0%

人的力量永远来自心灵,当你的心灵产生力量后,外界的环境看上去也就没想象中的险恶了。

如何放下烦恼

最重要的两点:
对事:心放大事就变小了;
对人:换位思考(理解对方)

以上其实也是一种换个角度看问题的具体化。有个技巧就是当一件事情发生的时候,你认为它是正常的,就能减少很多的烦恼。俗话说,当局者迷,旁观者清,碰到事情,学会以一种旁观者的姿态去看待问题。

知足常乐和不焦虑是一体两面。俗话说,既得陇复望蜀,所以人心是永不知足的,这就是烦恼的来源。关于焦虑,像毛主席说得好,矛盾是事物的本质,是永远会存在的,你解决了这个矛盾,又会有新的矛盾出来,所以面对问题、面对矛盾的时候不需要焦虑,因为,无论如何都有新问题、新矛盾出现。

人生最重要的三点

  • 学会放下(面子、过去、未来......)
  • 不强求改变任何人
  • 自我意识不能太强(开放心态) 做事心态不要太认真。事情可以认真,但心态不要太认真。
    难得胡涂、游戏人间的态度。
阅读全文 »

"你无法在摘要上进行模式匹配,阅读他人对知识的压缩会创造知识的幻觉;二手洞见不是洞见,模式识别需要高质量的数据。"

这句话讲得很好,学习一门新知识,必须系统的看一些经典的书籍。

关于机器学习(或深度学习)的书籍也看了很多,推荐几本书以及阅读顺序(书籍封面见文末)。

1、《Deep Learning with Python》(《Python深度学习》 国内有该书第二版的正式中文版),深入浅出的介绍了机器学习的内容,作为宏观的机器学习(深度学习)的入门级书籍,条理很清晰,让你知其然

2、《Hands-On Large Language Models》,一本很新的书,2024年出版的,没有正式的中文版(不过为了阅读方面,自己倒是翻译了),这本书的特色是图文并茂,人是视觉动物,一张图胜过千言万语,这本书把大语言模型的基础概念、基础原理简述得很清楚,在技术的深度上也把握得很好,不过太过技术化。这本书在阅读过《Deep Learning with Python》的基础上再看更好,因为大语言模型的底层技术架构是深度学习,需要对神经网络的一些概念有基础。

3、《Practical Statistics For Data Scientists》(数据科学家的实用统计,国内有第一版的正式中文版,不过,为了方便阅读,自己翻译了该书的第二版),这本书从数据科学家所需要的统计视角来展开,介于基础数学和计算机之间,主要从统计学的角度去阐述相关的主题和概念,关键的混淆点也能指出。并且结合Python、R,列举了很多的案例,是一本很好的统计学基础书籍。这本书从数据科学家而不是数学家的角度出发,所以摒弃了很多数学公式和细节。

4、《MATHEMATICS FOR MACHINE LEARNING》 (《机器学习的数学基础》,网上有该书Part I部分的翻译,为了方便阅读,自己翻译了Part II部分),这本书详细的把机器学习相关的数学知识和概念系统的介绍了一次,让你知其所以然。这本书系统化的介绍了与机器学习有关的数学概念,整体性、系统性非常好。概念之间的联系非常清晰。 关于机器学习相关的数学书籍,可以参考“打好数据科学和机器学习的基础——6本书带你学数学” https://www.dataapplab.com/6-best-books-to-learn-mathematics-for-data-science-machine-learning/

以上几本书是从原理的角度出发,从AI深度学习原理、深度学习的数学基础、统计学基础等方面进行讲解,那以下这本书就是AI的实际应用,智能体(agent)的讲解。

5、《Agentic Design Patterns: A Hands-On Guide to Building Intelligent Systems》(Antonio Gulli 所著)

该书是一部全面的技术指南,涵盖了现代人工智能系统中智能体 (Agent) 设计的核心概念和实践方法。

这本书还有一个特点,就是这本书的英文版先是在google doc中公开的,在英文版正式付印前,github上的中文翻译版已经完成了。这就是AI的力量,通过AI翻译,让中文读者能第一时间看到英文版的资料(当然是符合相关的开源协议,也所谓的知识民主化)

阅读全文 »

1、芝诺悖论

这涉及到潜无限问题,即无限过程无法完成,即1只能无限逼近,不能达到1,乌龟是不能被追上的。为此,潜无限只能假设空间不可以无限分割,这样悖论就不存在了。但实无限认为,无限过程可以完成,即极限可以达到1,乌龟可以追上。现在的实数,极限,微积分都建立在实无限上。对潜无限来说,实数,极限等都不成立,只能无限逼近。 P.S.目前数学界有"0.9999999999.......=1"之证明如下。

阅读全文 »

《人间失格》是日本著名小说家太宰治最具影响力的小说作品,发表于1948年,是一部自传体的小说,在发表这部作品的同年,太宰治就自杀身亡。
这本小说去年就看完,之所以不按惯例在看完之后写下心得,主要是书中透露出的那种极致的颓废、极度的绝望,实在是和现实要求的正能量相距甚远。
就像鲁迅在《呐喊.自序》中曾指出:
「但既然是呐喊,则当然须听将令的了,所以我往往不恤用了曲笔,在《药》的瑜儿的坟上平空添上一个花环,在《明天》里也不叙单四嫂子竟没有做到看见儿子的梦,因为那时的主将是不主张消极的。至于自己,却也并不愿将自以为苦的寂寞,再来传染给也如我那年青时候似的正做着好梦的青年。」

所以,相对于鲁迅的那一圈红白的花,还给我们的人生留了一点念想和希望,而太宰治的书实在是一条道走到了底。
之所以今天想起记录一下这本书,因为村上春树《挪威的森林》中提到了太宰治,权当看在村上春树的份上,就随笔记录一下,仅此而已,但书中传递的价值,不代表本人的立场:)。

刘震云2011年茅盾文学奖的长篇小说《一句顶一万句》,看完印象深刻的几点:

  • 世界上的人只有说的着和说不着
    小说中说:“有些人说得着,有些人说不得着;有些人现在说不得着,将来或许能说得着;有些人现在说得着,将来未必能说得着;有些人这一辈子也说不得着。找一个能说得着的人过一辈子是福分,不管是爱人、朋友还是亲人。”
    就像伯牙子期高山流水的故事:伯牙鼓琴,锺子期听之。方鼓琴而志在太山,锺子期曰:“善哉乎鼓琴,巍巍乎若太山。”少选之间而志在流水,锺子期又曰:“善哉乎鼓琴,汤汤乎若流水。”锺子期死,伯牙破琴绝弦,终身不复鼓琴,以为世无足复为鼓琴者。

  • 反复使用的句式:A发生,不是因为显而易见的B,也不是相关的C,而是新的D,从而引出了与D相关的故事。

    例如: 牛爱国他妈叫曹青娥。牛爱国他妈本不该姓曹,应该姓姜;本也不该姓姜,应该姓吴;本也不该姓吴,应该姓杨。曹青娥五岁那年,被人从河南卖到山西。

    又例如:

    但等孩子买下之后,老曹才知道,老婆要这个孩子,既不是为了孩子,也不是为了老曹两口,也不是为了造七级浮屠,而是为了跟二叔置气。

  • 每个人都是孤独和漂泊的灵魂
    书中插入了一段关于意大利神父老詹在延津传教的故事。带出了人生的三大哲学问题:你是谁,从哪里来,到哪里去;给本书关于孤独和漂泊的主题注入了背景色。
    书的尾篇,提到神父老詹的教堂现在已经成为:“金盘洗脚屋”,一股浓浓的讽刺味。也许这就是中国人魂无所依、注定漂泊的原因吧。

  • 过日子是过以后,不是过从前
    这个大道理都能看懂,但是大道理之所以称为大道理,就是因为难以做到。人的以前也是构成你的一部分,割舍过去,就像把自己的一部分切割开,这岂是我们这些凡夫俗子能做到。

  • 生命中遗失的最重要的那句话
    牛爱国情人章楚红要给他说的那句话(这也是终篇时牛爱国说得找的理由吧),吴摩西(杨百顺)死前想对巧玲说的那句话,曾志远想见面与牛爱国说的那句话等等;最终都错过了。人们为了这句话,寻寻觅觅,其实背后寻找的是生命里“一句顶一万句”的那个人 。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第7章 无监督学习

Unsupervised Learning

无监督学习这个术语指的是在没有标注数据(即已知感兴趣结果的数据)的情况下,从数据中提取意义的统计方法。在第四章到第六章中,目标是构建一个模型(一套规则),用一组预测变量来预测一个响应变量。这就是监督学习。与此相反,无监督学习也构建数据的模型,但它不区分响应变量和预测变量

无监督学习可以用于实现不同的目标。在某些情况下,当没有带标签的响应变量时,它可用于创建预测规则。例如,聚类方法可以用于识别有意义的数据组。我们可以使用用户在网站上的点击和人口统计数据,将不同类型的用户分组。然后,网站可以根据这些不同类型进行个性化

在另一些情况下,目标可能是将数据的维度降至一个更易于管理的变量集。然后,这个缩减后的集合可以作为输入用于预测模型,比如回归或分类。例如,我们可能有成千上万个传感器来监测一个工业过程。通过将数据简化为一个更小的特征集,我们也许能够构建一个比包含数千个传感器数据流更强大、更可解释的过程故障预测模型

最后,无监督学习可以被视为探索性数据分析(参见第一章)的延伸,适用于您面对大量变量和记录的情况。其目的是深入了解一组数据以及不同变量之间的相互关系。无监督技术让您能够筛选和分析这些变量,并发现其中的关系。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第6章 统计机器学习

Statistical Machine Learning

统计学在近期发展中,致力于开发更强大、更自动化的预测建模技术,涵盖了回归分类。这些方法与上一章讨论的方法一样,都是有监督学习——它们通过在已知结果的数据上进行训练,来学习如何预测新数据的结果。它们属于统计机器学习的范畴,与经典统计方法不同之处在于,它们是数据驱动的,并且不试图对数据强加线性的或其他整体结构。例如,K-最近邻(K-Nearest Neighbors)方法非常简单:根据相似记录的分类方式来对一条记录进行分类。最成功和应用最广泛的技术是基于集成学习(ensemble learning)并应用于决策树(decision trees.)的方法。集成学习的基本思想是使用多个模型来形成预测,而不是仅仅使用一个单一模型。决策树是一种灵活且自动化的技术,用于学习预测变量和结果变量之间关系的规则。事实证明,将集成学习与决策树相结合,可以产生一些性能最佳的现成预测建模技术。

许多统计机器学习技术的发展,可以追溯到加州大学伯克利分校的统计学家 Leo Breiman(参见图6-1)和斯坦福大学的 Jerry Friedman。 他们的工作,以及伯克利和斯坦福其他研究人员的工作,始于1984年对树模型的开发。随后在20世纪90年代开发的装袋法(bagging)提升法(boosting)等集成方法,奠定了统计机器学习的基础。

阅读全文 »

个人注:以下使用gemini翻译 20250916

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第5章 分类

数据科学家经常需要为商业问题提供自动化决策。一封电子邮件是钓鱼邮件吗?一个客户是否可能流失?一个网络用户是否可能点击广告?这些都是分类问题,一种监督学习形式。我们首先在已知结果的数据上训练一个模型,然后将该模型应用于结果未知的数据。分类也许是预测最重要的形式:其目标是预测一条记录是1还是0(例如,钓鱼/非钓鱼、点击/不点击、流失/不流失),或者在某些情况下,预测它属于几个类别中的一个(例如,Gmail 将你的收件箱过滤为“主要”、“社交”、“推广”或“论坛”)。

很多时候,我们需要的不仅仅是一个简单的二元分类,我们还想知道一个案例属于某个类别的预测概率。大多数算法都可以返回一个属于目标类别的概率分数(probability score)(倾向性)(propensity),而不仅仅是简单地分配一个二元分类。事实上,对于逻辑回归,R 的默认输出是对数几率(log-odds)尺度,这必须被转换为倾向性。在 Python 的 scikit-learn 中,逻辑回归与大多数分类方法一样,提供了两种预测方法:predict(返回类别)和 predict_proba(返回每个类别的概率)。然后,可以使用一个滑动截止点( sliding cutoff)将倾向性分数转换为决策。一般方法如下:

  1. 设定一个截止概率:为目标类别设定一个截止概率,如果记录的概率高于这个截止点,我们就认为它属于该类别。
  2. 估算概率:使用任何模型估算一条记录属于目标类别的概率。
  3. 做出决策:如果这个概率高于截止概率,则将新记录分配给目标类别。

截止点越高,被预测为1的记录就越少;截止点越低,被预测为1的记录就越多。

本章将介绍几种用于分类和估算倾向性的关键技术;下一章将描述既可用于分类也可用于数值预测的其他方法。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第 4 章 回归与预测

在统计学中,也许最常见的目标就是回答这样的问题:“变量 X(或者更常见地,X₁, …, Xₚ)是否与变量 Y 有关联?如果有,这种关系是什么,我们能否利用它来预测 Y?”

在预测领域——特别是基于其他“预测变量”的值来预测一个结果(目标)变量——统计学与数据科学的联系最为紧密。这一过程是在结果已知的数据上训练模型,以便随后将其应用于结果未知的数据,称为监督学习。数据科学与统计学的另一个重要交叉领域是异常检测:最初用于数据分析和改进回归模型的回归诊断方法,也可用来检测异常记录。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第 3 章 统计实验与显著性检验

实验设计是统计实践的基石,在几乎所有研究领域都有应用。其目标是设计实验以确认或拒绝某个假设。数据科学家往往需要持续进行实验,尤其是关于用户界面和产品营销方面的实验。本章回顾了传统实验设计,并讨论了数据科学中常见的一些挑战;还介绍了一些统计推断中经常被引用的概念,并解释了它们的含义及其与数据科学的相关性(或不相关性)。

F3.1

当你看到统计显著性、t 检验或 p 值等术语时,通常是在经典统计推断“流水线”的上下文中(见图 3-1)。这个过程从一个假设开始(例如“药物 A 优于现有标准药物”或“价格 A 比现有价格 B 更有利可图”)。然后设计实验(可能是 A/B 测试)以检验这个假设——设计得尽可能能够得出结论性结果。接着收集并分析数据,然后得出结论。术语“推断”体现了这样一种意图:将涉及有限数据集的实验结果,应用到更大的过程或总体上。

阅读全文 »