一文搞懂 One-Hot Encoding（独热编码）

JOYCE_Leo16

发布于 2024-05-04 08:41:32

3050

发布于 2024-05-04 08:41:32

文章被收录于专栏：计算机视觉计算机视觉

前言

本文将从独热编码的原理、独热编码的分类、独热编码的应用三个方面，来展开介绍独热编码 One-Hot Encoding。

1、独热编码的原理

特征数字化：将分类变量（或称为离散特征、无序特征）转换为一种适合机器学习算法处理的格式。

特征数字化

为每个分类特征的每个可能值创建一个新的二进制特征（即“独热”特征），其中只有一个特征在任何给定时间被激活（标记为1），而其他所有特征都被标记为0。

步骤1：确定动物类别

首先，确定需要分类的动物类别。在这个例子中，我们有四种动物：猫、狗、乌龟和鱼。

步骤2：创建二进制特征向量

为每个动物类别创建一个二进制特征向量。向量的长度等于动物类别的数量，即在这个例子中是4。对于每个动物，只有与其对应的特征位置为1，其余位置为0。

步骤3：对动物进行独热编码

根据每个动物的类别，将其转换为对应的独热编码表示。在这个例子中，猫的编码是 [1, 0, 0, 0]，狗的编码是 [0, 1, 0, 0]，乌龟的编码是 [0, 0, 1, 0]，鱼的编码是 [0, 0, 0, 1]。

对动物进行独热编码

独热编码（One-Hot Encoding）：使用N位状态寄存器对N个状态进行编码，每个状态由其独立的寄存器位表示，并且任意时刻只有一位是有效的（即设置为1）。

优点：

解决分类数据处理问题：独热编码将离散分类特征转换为机器学习算法易于处理的二进制格式，提高了算法对离散特征的处理能力。
避免引入数值偏误：通过将每个类别映射到独立的二进制向量，独热编码消除了类别间可能存在的错误数值关系，从而避免了算法基于这些关系做出不准确的预测。

缺点：

维度增加：当类别数量较多时，独热编码会显著增加特征空间的维度，可能导致计算复杂性和过拟合问题。
信息损失风险：独热编码可能无法充分捕捉类别间的潜在关系或顺序信息，从而在某些情况下导致有用信息的丢失。

2、独热编码的分类

基于分类值的独热编码：独热编码是针对具有明确分类值的数据进行预处理的有效方法，通过将每个分类值转换为独立的二进制向量，确保模型正确理解非数值分类特征，避免数值关系的误判。

基于分类值的独热编码

针对具有明确分类值的数据：

独热编码特别适用于处理那些具有明确、有限且通常不带有数值意义的分类值的数据。例如，在性别这一特征中，我们有“男”和“女”这两个分类值，它们之间没有数值上的大小或顺序关系。同样，在颜色特征中，“红”、“绿”和“蓝”也是纯粹的分类标签，没有隐含的数值含义。

每个唯一分类值转换为二进制向量：

在独热编码中，每个唯一的分类值都被赋予一个唯一的二进制向量，也被称为“独热”向量，因为在这个向量中，只有一个位置的元素是1（表示该类别的存在），其余所有位置的元素都是0。例如，如果三个颜色类别，那么“红”可能被编码为 [1, 0. 0]，“绿”被编码为 [0, 1, 0]，“蓝”被编码为 [0, 0, 1]。

避免数值关系误解

使用独热编码的一个重要原因是，它可以防止机器学习模型错误地解释分类值之间可能存在的数值关系。如果直接使用原始的分类标签（如整数或字符串），某些模型（特别是基于数值计算的模型，如线性回归）可能会尝试在这些标签之间建立数值上的联系。通过转换为独热编码，每个类别都是完全独立的。模型不会受到这种潜在误导的影响。

基于序数的独热编码：对序数型数据应用独热编码可能会丢失重要的顺序信息，因此需要慎重考虑信息损失的风险，并根据模型需求和场景选择更合适的编码策略。