关于机器学习当中的决策树算法解析

2025/11/10 13:06:16 来源：https://blog.csdn.net/HappyAcmen/article/details/144747481 浏览: 次关键词：关于机器学习当中的决策树算法解析

一、决策树简介

1. 什么是决策树？

决策树是一种基于树结构的机器学习算法，用于解决分类和回归问题。在决策树中，每个节点表示一个特征，每个边代表一个决策规则，最终的叶节点代表输出。一句话进行概括就是就是通过一系列的问题，帮助你找到答案的过程。

二、决策树的核心概念

1. 节点类型

根节点：包含整个数据集。
内部节点：表示一个特征的测试条件。
叶节点：代表最终的决策结果或预测值。

2. 决策树的构建过程

选择最优特征：使用信息增益、基尼指数等准则选择最佳特征进行分裂。
分裂：根据选定的特征，将数据集分割成子集。
递归构建：对每个子集重复上述过程，直到满足停止条件（如所有样本属于同一类）。

3. 特征选择准则

信息增益：ID3算法采用信息增益作为划分标准。
基尼指数：CART算法使用基尼指数来选择最佳特征。
信息增益比：C4.5算法为了克服ID3偏向多值特征的问题，引入了信息增益比。

三、Python代码实现决策树

老规矩： 记得检查环境，忘记的可以看我之前的文章环境安装

我们在windows环境的话安装语句一般都使用

pip  install 要安装的库名

1. 首先导入必要的库

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree

2. 准备数据结构

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

3. 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4. 创建决策树模型

# 创建决策树分类器
model = DecisionTreeClassifier(random_state=42)

5. 拟合模型

# 训练模型
model.fit(X_train, y_train)

6. 可视化决策树

plt.figure(figsize=(10, 8))
plot_tree(model, feature_names=iris.feature_names, class_names=iris.target_names, filled=True)
plt.show()

7. 模型评估

from sklearn.metrics import accuracy_score
y_pred = model.predict(X_test)
print("准确率:", accuracy_score(y_test, y_pred))

四、分析决策树的优缺点

优点

易于理解和解释：规则类似人类的逻辑思考过程。
可处理混合数据类型：数值型和分类型数据都能处理。
无需大量参数调整：相比其他复杂算法，决策树需要的参数较少。

缺点

容易过拟合：尤其是在树结构很复杂的时候。
受噪音影响较大：数据中的噪音可能导致模型不稳定。