《Hands-On Large Language Models》目录及前言

发表于 2025-04-01 分类于书籍翻译

《Hands-On Large Language Models: Language Understanding and Generation》 的目录中文翻译。

这本书将内容分为三个主要部分：理解 \(\text{LLM}\) 的底层原理、使用预训练模型进行应用，以及模型训练和微调的进阶技术。

《动手实践大型语言模型：语言理解与生成》目录

[cite_start]第一部分：理解语言模型 (\(\text{Understanding Language Models}\)) [cite: 5]

章节	英文标题	中文翻译	[cite_start]英文页码 [cite: 2, 3]
第 \(\text{1}\) 章	An Introduction to Large Language Models	大型语言模型简介	\(\text{3}\)
	What Is Language \(\text{AI}\)?	什么是语言 \(\text{AI}\)？	\(\text{4}\)
	A Recent History of Language \(\text{AI}\)	语言 \(\text{AI}\) 的近代史	\(\text{5}\)
	Representing Language as a Bag-of-Words	将语言表示为词袋模型	\(\text{6}\)
	Better Representations with Dense Vector Embeddings	使用密集向量嵌入实现更好的表示	\(\text{8}\)
	Representation Models: \(\text{Encoder}\)-Only Models	表征模型：仅编码器 (\(\text{Encoder}\)-Only) 模型	\(\text{18}\)
	Generative Models: \(\text{Decoder}\)-Only Models	生成模型：仅解码器 (\(\text{Decoder}\)-Only) 模型	\(\text{20}\)
	The Moving Definition of a "Large Language Model"	“大型语言模型”不断变化的定义	\(\text{25}\)
第 \(\text{2}\) 章	Tokens and Embeddings	分词 (\(\text{Tokens}\)) 与嵌入 (\(\text{Embeddings}\))	\(\text{37}\)
	\(\text{LLM}\) Tokenization	\(\text{LLM}\) 分词技术	\(\text{38}\)
	Token Embeddings	分词嵌入	\(\text{57}\)
	Text Embeddings (for Sentences and Whole Documents)	文本嵌入（针对句子和整个文档）	\(\text{61}\)
	Embeddings for Recommendation Systems	用于推荐系统的嵌入	\(\text{67}\)
第 \(\text{3}\) 章	Looking Inside Large Language Models	深入了解大型语言模型内部	\(\text{73}\)
	An Overview of \(\text{Transformer}\) Models	\(\text{Transformer}\) 模型概述	\(\text{74}\)
	Inside the \(\text{Transformer}\) Block	\(\text{Transformer}\) 块内部结构	\(\text{85}\)
	Recent Improvements to the \(\text{Transformer}\) Architecture	\(\text{Transformer}\) 架构的最新改进	\(\text{95}\)

[cite_start]第二部分：使用预训练语言模型 (\(\text{Using Pretrained Language Models}\)) [cite: 4]

章节	英文标题	中文翻译	[cite_start]英文页码 [cite: 4, 5]
第 \(\text{4}\) 章	Text Classification	文本分类	\(\text{111}\)
	Text Classification with Representation Models	使用表征模型进行文本分类	\(\text{113}\)
	Classification Tasks That Leverage Embeddings	利用嵌入的分类任务	\(\text{120}\)
	Text Classification with Generative Models	使用生成模型进行文本分类	\(\text{127}\)
第 \(\text{5}\) 章	Text Clustering and Topic Modeling	文本聚类与主题建模	\(\text{137}\)
	A Common Pipeline for Text Clustering	文本聚类的常见流程	\(\text{139}\)
	From Text Clustering to Topic Modeling	从文本聚类到主题建模	\(\text{146}\)
第 \(\text{6}\) 章	Prompt Engineering	提示工程	\(\text{167}\)
	Intro to Prompt Engineering	提示工程简介	\(\text{173}\)
	Advanced Prompt Engineering	高级提示工程	\(\text{177}\)
第 \(\text{7}\) 章	Advanced Text Generation Techniques and Tools	高级文本生成技术与工具	\(\text{199}\)
	Chains: Extending the Capabilities of \(\text{LLM}\)s	链 (\(\text{Chains}\)): 扩展 \(\text{LLM}\) 的能力	\(\text{202}\)
	Memory: Helping \(\text{LLM}\)s to Remember Conversations	记忆 (\(\text{Memory}\)): 帮助 \(\text{LLM}\) 记住对话	\(\text{209}\)
	Agents: Creating a System of \(\text{LLM}\)s	代理 (\(\text{Agents}\)): 创建 \(\text{LLM}\) 系统	\(\text{218}\)
第 \(\text{8}\) 章	Semantic Search and Retrieval-Augmented Generation	语义搜索与检索增强生成 (\(\text{RAG}\))	\(\text{225}\)
	Semantic Search with Language Models	使用语言模型进行语义搜索	\(\text{228}\)
	Retrieval-Augmented Generation (\(\text{RAG}\))	检索增强生成 (\(\text{RAG}\))	\(\text{249}\)
第 \(\text{9}\) 章	Multimodal Large Language Models	多模态大型语言模型	\(\text{259}\)
	Multimodal Embedding Models	多模态嵌入模型	\(\text{263}\)
	Making Text Generation Models Multimodal	使文本生成模型具备多模态能力	\(\text{273}\)

[cite_start]第三部分：训练和微调语言模型 (\(\text{Training and Fine-Tuning Language Models}\)) [cite: 5]

章节	英文标题	中文翻译	[cite_start]英文页码 [cite: 5]
第 \(\text{10}\) 章	Creating Text Embedding Models	创建文本嵌入模型	\(\text{289}\)
	What Is Contrastive Learning?	什么是对比学习？	\(\text{291}\)
	Fine-Tuning an Embedding Model	微调嵌入模型	\(\text{309}\)
	Unsupervised Learning	无监督学习	\(\text{316}\)
第 \(\text{11}\) 章	Fine-Tuning Representation Models for Classification	微调表征模型用于分类	\(\text{323}\)
	Fine-Tuning a Pretrained \(\text{BERT}\) Model	微调预训练的 \(\text{BERT}\) 模型	\(\text{325}\)
	Few-Shot Classification	少样本分类	\(\text{333}\)
	Named-Entity Recognition	命名实体识别	\(\text{345}\)
第 \(\text{12}\) 章	Fine-Tuning Generation Models	微调生成模型	\(\text{355}\)
	Supervised Fine-Tuning (\(\text{SFT}\))	有监督微调 (\(\text{SFT}\))	\(\text{357}\)
	Instruction Tuning with \(\text{QLoRA}\)	使用 \(\text{QLoRA}\) 进行指令调优	\(\text{367}\)
	Evaluating Generative Models	评估生成模型	\(\text{373}\)
	Preference-Tuning / Alignment / \(\text{RLHF}\)	偏好调优 / 对齐 / \(\text{RLHF}\)	\(\text{378}\)

[cite_start]后记 (\(\text{Afterword}\)) [cite: 5] \(\text{391}\)
[cite_start]索引 (\(\text{Index}\)) [cite: 5] \(\text{393}\)

前言

大型语言模型（\(\text{LLM}\)）对世界产生了深远而广泛的影响。通过使机器能够更好地理解和生成类似人类的语言，\(\text{LLM}\) 在 \(\text{AI}\) 领域开启了新的可能性，并影响了整个行业。

本书提供了一个全面且高度可视化的 \(\text{LLM}\) 世界入门介绍，涵盖了概念基础和实际应用。从早于深度学习的词汇表示，到（在撰写本文时）前沿的 \(\text{Transformer}\) 架构，我们将探索 \(\text{LLM}\) 的历史和演变。我们深入探讨 \(\text{LLM}\) 的内部工作原理，探索它们的架构、训练方法和微调技术。我们还将研究 \(\text{LLM}\) 在文本分类、聚类、主题建模、聊天机器人、搜索引擎等各种应用。

我们希望，凭借其独特的直觉构建、应用和图解风格的结合，本书能为那些希望探索 \(\text{LLM}\) 激动人心世界的人们提供理想的基础。无论您是初学者还是专家，我们都邀请您加入我们，开始使用 \(\text{LLM}\) 进行构建。

直觉优先的理念

本书的主要目标是为 \(\text{LLM}\) 领域提供直觉。语言 \(\text{AI}\) 领域的发展速度快得令人难以置信，试图跟上最新的技术可能会让人感到沮丧。因此，我们专注于 \(\text{LLM}\) 的基础知识，并旨在提供一个有趣且轻松的学习过程。

为了实现这种直觉优先的理念，我们大量使用了可视化语言。插图将有助于为 \(\text{LLM}\) 学习过程中涉及的主要概念和过程提供视觉上的标识。通过我们图解式的叙事方法，我们希望带您踏上这一激动人心、可能改变世界的领域的旅程。

在整本书中，我们明确区分了表征语言模型和生成语言模型。表征模型是不生成文本的 \(\text{LLM}\)，但通常用于特定任务的用例，例如分类；而生成模型是生成文本的 \(\text{LLM}\)，例如 \(\text{GPT}\) 模型。尽管生成模型通常是想到 \(\text{LLM}\) 时首先想到的，但表征模型仍然有很多用途。我们对大型语言模型中的“大”一词也采取了较为宽泛的使用，并且通常只称它们为语言模型，因为尺寸描述通常相当武断，并不总是能力的指标。

先决条件

本书假设您具有一定的 \(\text{Python}\) 编程经验，并熟悉机器学习的基础知识。重点将是建立强大的直觉，而不是推导数学方程。因此，插图结合动手实践的例子将贯穿本书的示例和学习过程。

本书假设读者不具备 \(\text{PyTorch}\) 或 \(\text{TensorFlow}\) 等流行的深度学习框架的预先知识，也不具备生成建模的任何先验知识。

如果您不熟悉 \(\text{Python}\)，一个很好的起点是 \(\text{Learn Python}\)，您可以在其中找到许多关于该语言基础知识的教程。为了进一步简化学习过程，我们已将所有代码上传到 \(\text{Google Colab}\)，这是一个您无需在本地安装任何东西即可运行所有代码的平台。

书籍结构

本书大致分为三个部分。它们如图 \(\text{P}-1\) 所示，以便您全面了解本书。请注意，每个章节都可以独立阅读，因此对于您已经熟悉的内容，请随意略读。

F0.1

第一部分：理解语言模型

在本书的第一部分，我们将探讨语言模型（无论大小）的内部工作原理。我们首先概述该领域和常用技术（参见第 \(\text{1}\) 章），然后转向这些模型的两个核心组成部分——分词 (\(\text{tokenization}\)) 和嵌入 (\(\text{embeddings}\))（参见第 \(\text{2}\) 章）。本部分最后将以 \(\text{Jay}\) 著名的《图解 \(\text{Transformer}\)》的更新和扩展版本结束，该版本深入探讨了这些模型的架构（参见第 \(\text{3}\) 章）。本书将介绍贯穿始终的许多术语和定义。

第二部分：使用预训练语言模型

在本书的第二部分，我们将通过常见的用例来探讨如何使用 \(\text{LLM}\)。我们将使用预训练模型，并在无需微调的情况下展示其功能。

您将学习如何使用语言模型进行有监督分类（参见第 \(\text{4}\) 章）、文本聚类和主题建模（参见第 \(\text{5}\) 章）、利用嵌入模型进行语义搜索（参见第 \(\text{6}\) 章）、生成文本（参见第 \(\text{7}\) 章和第 \(\text{8}\) 章），以及将文本生成的能力扩展到视觉领域（参见第 \(\text{9}\) 章）。

学习这些独立的语言模型功能将为您提供使用 \(\text{LLM}\) 解决问题和构建越来越高级的系统和流程所需的技能。

第三部分：训练和微调语言模型

在本书的第三部分，我们将通过训练和微调各种语言模型来探索高级概念。我们将探讨如何创建和微调嵌入模型（参见第 \(\text{10}\) 章），回顾如何微调 \(\text{BERT}\) 进行分类（参见第 \(\text{11}\) 章），并以微调生成模型的几种方法结束本书（参见第 \(\text{12}\) 章）。

硬件和软件要求

运行生成模型通常是一项计算密集型任务，需要配备功能强大的 \(\text{GPU}\) 的计算机。由于并非所有读者都具备 \(\text{GPU}\)，本书中的所有示例都设置为使用在线平台运行，即 \(\text{Google Colaboratory}\)（通常缩写为 \(\text{Google Colab}\)）。在撰写本文时，该平台允许您免费使用 \(\text{NVIDIA}\) \(\text{GPU}\) (\(\text{T}4\)) 来运行代码。该 \(\text{GPU}\) 具有 \(\text{16 GB}\) 的 \(\text{VRAM}\)（即您的 \(\text{GPU}\) 内存），这是我们在本书示例中要求的最低 \(\text{VRAM}\) 量。

并不是所有章节都需要最低 \(\text{16 GB}\) \(\text{VRAM}\)，因为有些示例（例如训练和微调）比其他示例（例如提示工程）对计算的要求更高。在代码库中，您可以找到每个章节所需的最低 \(\text{GPU}\) 要求。

所有代码、要求和附加教程都可在本书的代码库中获取。如果您想在本地运行这些示例，我们建议使用至少 \(\text{16 GB}\) \(\text{VRAM}\) 的 \(\text{NVIDIA}\) \(\text{GPU}\)。对于本地安装，例如使用 \(\text{conda}\)，您可以按照以下设置来创建您的环境：

1 2	conda create -n thellmbook python=3.10 conda activate thellmbook

您可以通过 \(\text{fork}\) 或克隆代码库，然后在您新建的 \(\text{Python 3.10}\) 环境中运行以下命令来安装所有必要的依赖项：

1	pip install -r requirements.txt

以下是书籍《\(\text{Hands-On Large Language Models}\)》中您提供的关于 \(\text{API}\) 密钥、书籍约定和 O’Reilly 信息的中文翻译：

\(\text{API}\) 密钥

我们在示例中同时使用了开源模型和专有模型，以展示两者的优缺点。对于专有模型，即 \(\text{OpenAI}\) 和 \(\text{Cohere}\) 提供的产品，您需要创建一个免费账户：

\(\text{OpenAI}\)

点击网站上的“注册”（\(\text{sign up}\)）来创建免费账户。该账户允许您创建一个 \(\text{API}\) 密钥，可用于访问 \(\text{GPT}-3.5\)。然后，转到“\(\text{API}\) 密钥”来创建一个密钥（\(\text{secret key}\)）。

\(\text{Cohere}\)

在网站上注册一个免费账户。然后，转到“\(\text{API}\) 密钥”来创建一个密钥（\(\text{secret key}\)）。

请注意，这两个账户都有速率限制（\(\text{rate limits}\)），并且这些免费的 \(\text{API}\) 密钥只允许每分钟进行有限次数的调用。在所有示例中，我们都考虑了这一点，并在必要时提供了本地替代方案。

对于开源模型，您无需创建账户，第 \(\text{2}\) 章中的 \(\text{Llama 2}\) 模型除外。要使用该模型，您需要一个 \(\text{Hugging Face}\) 账户：

\(\text{Hugging Face}\)

点击 \(\text{Hugging Face}\) 网站上的“注册”（\(\text{sign up}\)）来创建免费账户。然后，在“设置”（\(\text{Settings}\)）中转到“访问令牌”（\(\text{Access Tokens}\)），创建一个令牌，您可以使用该令牌下载某些 \(\text{LLM}\)。

本书中使用的约定

本书使用以下排版约定：

斜体表示新术语、\(\text{URL}\)、电子邮件地址、文件名和文件扩展名。

等宽字体 用于程序清单，以及段落内引用程序元素（例如变量或函数名称、数据库、数据类型、环境变量、语句和关键字）时。

等宽粗体 显示应由用户按字面输入的命令或其他文本。

等宽斜体 显示应替换为用户提供的值或由上下文确定的值的文本。

使用代码示例

补充材料（代码示例、练习等）可在以下网址下载：

\(\text{[https://github.com/HandsOnLLM/Hands-On-Large-Language-Models](https://github.com/HandsOnLLM/Hands-On-Large-Language-Models)}\)

如果您有技术问题或在使用代码示例时遇到问题，请发送电子邮件至 \(\text{support@oreilly.com}\)。

本书旨在帮助您完成工作。一般来说，如果本书提供了示例代码，您可以在您的程序和文档中使用它。除非您要复制代码的重要部分，否则您无需联系我们征求许可。例如，编写一个使用本书中几段代码的程序不需要许可。出售或分发 \(\text{O’Reilly}\) 书籍中的示例则需要许可。引用本书并引用示例代码来回答问题不需要许可。将本书中大量的示例代码纳入您的产品文档中则需要许可。

我们感激（但通常不要求）注明出处。出处通常包括书名、作者、出版商和 \(\text{ISBN}\)。例如：“《\(\text{Hands-On Large Language Models}\)》，作者 \(\text{Jay Alammar}\) 和 \(\text{Maarten Grootendorst}\) (\(\text{O’Reilly}\))。版权所有 \(\text{2024}\) \(\text{Jay Alammar}\) 和 \(\text{Maarten Pieter Grootendorst}\)，\(\text{978-1-098-15096-9}\)。”

如果您认为您对代码示例的使用超出了合理使用或上述许可范围，请随时通过 \(\text{permissions@oreilly.com}\) 联系我们。

O’Reilly 在线学习

\(\text{40}\) 多年来，\(\text{O’Reilly Media}\) 一直提供技术和商业培训、知识和见解，以帮助企业取得成功。

我们独特的专家和创新者网络通过书籍、文章和我们的在线学习平台分享他们的知识和专业技能。\(\text{O’Reilly}\) 的在线学习平台为您提供按需访问实时培训课程、深入学习路径、交互式编码环境以及来自 \(\text{O’Reilly}\) 和 \(\text{200}\) 多家其他出版商的海量文本和视频。欲了解更多信息，请访问 \(\text{[https://oreilly.com](https://oreilly.com)}\)。

如何联系我们

请将有关本书的评论和问题发送给出版商：

\(\text{O’Reilly Media, Inc.}\) \(\text{1005 Gravenstein Highway North}\) \(\text{Sebastopol, CA 95472}\)

\(\text{800-889-8969}\) (美国或加拿大境内) \(\text{707-827-7019}\) (国际或本地) \(\text{707-829-0104}\) (传真) \(\text{support@oreilly.com}\) \(\text{[https://www.oreilly.com/about/contact.html](https://www.oreilly.com/about/contact.html)}\)

我们为本书提供了一个网页，其中列出了勘误表、示例和任何附加信息。您可以通过 https://oreil.ly/hands_on_LLMs_1e 访问此页面。

要获取有关我们书籍和课程的新闻和信息，请访问 \(\text{[https://oreilly.com](https://oreilly.com)}\)。

在 \(\text{LinkedIn}\) 上关注我们：https://linkedin.com/company/oreilly-media。

在 \(\text{YouTube}\) 上观看我们：https://youtube.com/oreillymedia。

《金融经济学二十五讲》学习笔记

发表于 2025-02-02 分类于读书心得（社会科学）

金融的主干是定价（均衡定价、无套利定价）

金融是研究赚钱的理论，所以重点是研究市场上各类资产的定价，定价又涉及风险和效用的概念。

现实的资产价格（例如股票）由人的情绪来确定；一种投票的机制！！！！
行为经济学：非理性假设；方法论：使用心理学的结论作为起点
科学的尽头是神学，行为经济学是玄学，也是学术的宿命
VaR 历史模拟法
表见代理：例如老朱不认高管签订的合同就违反了这一点；案例见光大（？）证券的萝卜章事件。
场内市场场外市场OTC市场
阅读全文 »

《随机漫步的傻瓜》读书心得

发表于 2024-03-03 分类于读书心得（社会科学）

之前买错了《漫步华尔街》，现在补买回来这本书。本书有点哲学书的味道，讲了很多的人生，可以称之为轻哲学。

本书的核心思想是概率论，而概率论的核心是随机性、非对称、非线形，在生活和社会经济领域皆如此。

点题：

学习方法

阅读前人的事迹，向过去学习；
利用蒙特卡罗随机序列，向未来学习。

阅读全文 »

《漫步华尔街》读书心得

发表于 2023-12-29 分类于读书心得（社会科学）

本来是要买塔勒布的《随机漫步的傻瓜》，错买成了这本书。不过作为一部不错的股市、债券、期货、期权入门的书倒还不错。

主要思想

一定要明白，所谓原则、道理其实都是统计学意义上的合理性，真正的个体并不一定。

随机漫步（Random walk）
均值回归
金融万有引力定律
风险管理
不同年龄的风险承受能力不同，适配不同的投资组合。
杠杆的风险
指数投资
作者重点推荐的投资思想，其实就是个人不可能持续战胜市场的明智选择。

价格 or 价值

股票无非是关注价值还是价格，而价值又可以细分为关注当前价值还是未来价值（增长、成长性），价格关注的是人的心理（普通大众的心理预期），关键是否有人愿意出更高的价格。价值的难点在于需要很高的专业知识和洞察力。

泡沫萧条

经济发展->民众手中有钱->投资渠道少->从众->泡沫形成
恐慌情绪就像病毒，或者说开闸的洪水，很难软着陆。
就像气球，吹大的时候有个过程，当泄气是一瞬间的事情。上升像爬楼梯，下降像坐电梯。

阅读全文 »

《投资最重要的事》读书心得

发表于 2023-12-20 分类于读书心得（社会科学）

如何才能战胜市场？

稳妥的思考框架。
原则，方法论。
情绪控制
必须自己做到。压力应对。

面对未来的时机选择，风险管理。

巴菲特：价值投资，在别人恐惧时贪婪，在别人贪婪时恐惧。

降龙十八掌

投资需要平衡很多基本问题，面面俱到，又有机统一。

学习第二层次思维

环境的不可控+人心里的波动
第二层次思维
在大众思维的基础上进行思考，反过来想。
第二层思维需要考虑的东西

阅读全文 »

《几何学的力量》读书心得

发表于 2023-12-17 分类于读书心得（自然科学）

几何学最早是丈量世界而诞生，从而抽象了现实的世界。
一个人想要谈论某个事物，前提是他必须弄清楚该事物的定义。定义和概念是很重要的，于数学及现实皆然。
学几何学的是其中的逻辑思想，特别是欧几里得几何的研究问题的方法。整个体系的建设，从几个不证自明的公理出发，通过推理、演绎，建立相关的定理、命题，搭建了整个壮丽的几何学大厦。基于不同的公理可以构建不同的几何体系，例如欧氏几何和非欧几何。
数学有很大一部分作用在于，厘清哪些事物是我们暂时或者永远都不用关心的，这种选择性注意是人类理性的基本组成部分。这其实也是抽象的过程，抽象就是省略细节，关注你研究重点的过程，例如算术关注的是数量，而事物的本身是什么并不重要；而拓扑学（庞加莱创立，研究洞的问题）关注的是形状，大小、距离反而不关心；而物理关心的是位置和速度；欧氏几何研究的是长度、面积等不变量。

给不同的事物赋予相同的名称

其实就是考虑研究的特征，把形同特征的事物归类为同一事物，也是一种抽象的过程。
庞加莱：数学是一门给不同事物赋予相同的名称的艺术。

阅读全文 »

《格局》读书心得

发表于 2023-12-08 分类于读书心得（社会科学）

很早就看完的一本书，吴军写的，放车上，一直没有做笔记，书套都找不到了 :），今天在咖啡厅就顺便做了，不过可能经济不景气的原因，咖啡厅的人倒是很少。
本书副标题“世界永远不缺聪明人”，一本心灵鸡汤汇编而成的书，有点像《论语》，主要是教做人的道理。想起赵普的半部论语治天下，这本书倒也可以放车上，偶尔看看。

看行业、看产业

例如现在的新能源？

阅读全文 »

《魔鬼经济学》读书心得

发表于 2023-12-04 分类于读书心得（社会科学）

一本比较别具一格的经济类的书，一共四本（佩服作者这么多口水），以案例为出发点，引出经济学的知识。很多观点还是别具一格，令人耳目一新，从常人想不到的角度提出一些新的、还挺有道理的观点。不过因为是以案例为主，整书知识显得有点凌乱，不够系统。
茶余饭后消遣看看可以，猎奇一下。想真正的系统的了解学习经济学就帮不上忙了。
道德代表了人类希望这个世界应该如何运转，而经济学则代表着其实际的运转方式。
经济学，从根本而言，是一门研究动机的学科：人如何得偿所愿或满足所需，尤其是其他人欲求相同的情况下。
人的动机分三大类:总体来说是利己、趋利避害。因为价值观不同，在面临三者的取舍时，不同人会做出不同的选择，例如海瑞会选择道德一样，所以说传统经济学中提出的经济人是理性的（经济动机），是不完全的。

经济动机
社会动机：名声、从众心理、别人看法。
道德动机：情绪价值、名声、负罪感等，自身的价值观。人心中的道德指南针，类似古话说的“心中的一杆秤”

利用信息差获利

信息就是权力、就是资源。互联网的作用本质上是消除了信息差。有句话说，领导的主要权力就是信息，领导往往比下面人的信息更多，更充分。
有时面对专家的咨询反而加剧了信息的不对称现象，因为专家会利用手中的信息资源优势来获取利益。或者利用信息差来制造恐惧心理，创造需求。
不说假话，但真话不说全，也是一种利用信息不对称获得优势地位的手段。

阅读全文 »

《债务危机》读书心得

发表于 2023-11-05 分类于读书心得（社会科学）

2022年9月份看的一本书，现在补上读书心得。
思考，个人如何面对经济危机？国家、企业呢？不同层级应该有不同的对策。

文章摘要

由于信贷同时创造了购买力和债务，因此增加信贷的好坏取决于能否把借款用于生产性目的，从而创造出足够多的收入来还本付息。
PS：目前很多是借新债还旧债。
大量举债的风险主要是决策者能否有意愿和能力将坏账分摊到多年，取决于两个因素：
短期债务长期化，让时间来解决问题的思想。
1. 债务是否以决策者能够控制的货币计价；
2. 决策者能否对债权人和债务人施加影响。
化繁就简地讲，你一旦借钱，就会创造出一个周期，买一件你目前买不起的东西，你的消费必然会超出你的收入，借款时，你不仅是向贷款人借钱，你实际上是向未来的自己借钱，在未来的某个时刻，你必须降低消费水平，以偿还债务。
PS: 但借款用于生产就不一样。
PS：所以借款必须考虑未来的收入预期。如果因为太乐观，导致未来某个时刻的收入不能覆盖相关债务，就发生经济危机。对一个国家、经济体和个人都一样。
决策者可以采取以下四种措施，以降低债务与收入之间的比率和偿债总额与用于偿债的现金流之间的比率。
- 财政紧缩（即减少收入）
- 债务违约/重组
- 央行印钞，购买资产（或提供担保）
- 将资金和信贷从充足的领域转向不足的领域。
和谐的去杠杆化
降低债务和收入比率，同时保持适当的经济增长率和通胀率。
但实际上很难，物极必反，往往都是快速下降的硬着陆方式（也就是说的自我强化），而不是缓缓下降的软着陆。就像地产。不过话说，挤掉泡沫，来一次置之死地而后生。
例如房地产的三条红线，导致地产的偿债增加；同时由于地产房价的泡沫，导致需求减少，减低了收入，故出现地产的债务危机。

阅读全文 »

《赤裸裸的统计学》读书心得

发表于 2023-10-16 分类于读书心得（自然科学）

一本关于统计学的普及类书籍，从宏观上介绍了统计学的主要概念和关键的原理。写得通俗易懂，作为一本入门的了解统计学的书籍来说还是不错的。
本书的主要目的是需要明白数学在生活中的意义，所以很多的例子是结合生活中的实际场景来展开的，使统计学的概念变得更加直观和便于理解。确实是，学习一门课程，考虑生活意义，从生活意义出发是让学生提高兴趣的最好的方法，避免一开始就进入枯燥的定理和公式，只会劝退大部分的学生。
统计学中重要的区分因果关系和相关性（具有统计学意义）。

统计学是大数据时代最炙手可热的学问

从抽样数据来解决大问题。统计学的一个核心功能就是使用手中已有的数据进行合理推测，以回答那些我们还未掌握所有信息的“大”问题。简而言之，我们能够使用“已知世界”的数据来对“未知世界”进行推断。

将一序列复杂数据浓缩成单一数字的应用。例如足球中会把一堆数据浓缩成一个单独的评分。
描述统计学存在的意义就是简化，因此不可避免的丢失一些内容和细节，方便对比和评价。（简化才能适应人的大脑，才容易传播，特别是面对公共领域的时候。），浓缩的技术、取舍权重不同导致不同的结果。人们喜欢看到简单的答案！
任何一个风险评估模型都必须以概率为基础。（概率的不确定性会导致黑天鹅事件的颠覆效应。）
统计学总是想告诉我们一些信息，但是面对这些信息，聪明而又诚实的人经常有不同的看法。

描述统计学

平均数、中位数、四分位数等。

25百分位和75百分位，通常作为中产阶级中的高收入和低收入人群。

标准差也是一个能让我们在一堆杂乱无章的数字中发现真理的统计数值。我们用它来衡量数据相对于平均值的分散程度，根据标准差，我们可以知道所有观察数值的分散情况。
标准差和方差。

阅读全文 »

《动手实践大型语言模型：语言理解与生成》 目录

[cite_start]第一部分：理解语言模型 (\(\text{Understanding Language Models}\)) [cite: 5]

[cite_start]第二部分：使用预训练语言模型 (\(\text{Using Pretrained Language Models}\)) [cite: 4]

[cite_start]第三部分：训练和微调语言模型 (\(\text{Training and Fine-Tuning Language Models}\)) [cite: 5]

前言

直觉优先的理念

先决条件

书籍结构

硬件和软件要求

\(\text{API}\) 密钥

本书中使用的约定

使用代码示例

O’Reilly 在线学习

如何联系我们

主要思想

价格 or 价值

泡沫 萧条

如何才能战胜市场？

降龙十八掌

学习第二层次思维

给不同的事物赋予相同的名称

看行业、看产业

利用信息差获利

文章摘要

统计学是大数据时代最炙手可热的学问

描述统计学

《动手实践大型语言模型：语言理解与生成》目录

泡沫萧条