个人注:以下使用gemini翻译 20250916
《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍
第5章 分类
数据科学家经常需要为商业问题提供自动化决策。一封电子邮件是钓鱼邮件吗?一个客户是否可能流失?一个网络用户是否可能点击广告?这些都是分类问题,一种监督学习形式。我们首先在已知结果的数据上训练一个模型,然后将该模型应用于结果未知的数据。分类也许是预测最重要的形式:其目标是预测一条记录是1还是0(例如,钓鱼/非钓鱼、点击/不点击、流失/不流失),或者在某些情况下,预测它属于几个类别中的一个(例如,Gmail 将你的收件箱过滤为“主要”、“社交”、“推广”或“论坛”)。
很多时候,我们需要的不仅仅是一个简单的二元分类,我们还想知道一个案例属于某个类别的预测概率。大多数算法都可以返回一个属于目标类别的概率分数(probability score)(倾向性)(propensity),而不仅仅是简单地分配一个二元分类。事实上,对于逻辑回归,R 的默认输出是对数几率(log-odds)尺度,这必须被转换为倾向性。在 Python 的 scikit-learn 中,逻辑回归与大多数分类方法一样,提供了两种预测方法:predict(返回类别)和 predict_proba(返回每个类别的概率)。然后,可以使用一个滑动截止点( sliding cutoff)将倾向性分数转换为决策。一般方法如下:
- 设定一个截止概率:为目标类别设定一个截止概率,如果记录的概率高于这个截止点,我们就认为它属于该类别。
- 估算概率:使用任何模型估算一条记录属于目标类别的概率。
- 做出决策:如果这个概率高于截止概率,则将新记录分配给目标类别。
截止点越高,被预测为1的记录就越少;截止点越低,被预测为1的记录就越多。
本章将介绍几种用于分类和估算倾向性的关键技术;下一章将描述既可用于分类也可用于数值预测的其他方法。