sklearn中的决策树-分类树:实例-分类树在合成数据集上的表现

news/2025/2/26 9:04:20

分类树实例:分类树在合成数据集上的表现

代码分解
  • 在不同结构的据集上测试一下决策树的效果(二分型,月亮形,环形)

  • 导入

    import numpy as np
    from matplotlib import pyplot as plt
    from matplotlib.colors import ListedColormap
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import StandardScaler
    from sklearn.datasets import make_moons,make_circles,make_classification
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.model_selection import cross_val_score
    
  • 生成三种数据集(月亮形、环形、二分型)

    X,y = make_classification(n_samples=100 # 生成100个样本
                              ,n_features=2 # 包含两个特征
                              ,n_redundant=0 # 添加冗余特征0个
                              ,n_informative=2 # 包含信息的特征是2个
                              ,random_state=1 # 随机数种子
                              ,n_clusters_per_class=1 # 每个簇内包含的标签类别有2个
                             )
    plt.scatter(X[:,0],X[:,1])
    

    20211206Sw3qqx

    图上可以看出,生成的二分型数据的两个簇离彼此很远,可能分类边界过于明显,使用交叉验证尝试看一下是否分类效果特别好

    for i in range(1,11):
        clf = DecisionTreeClassifier()
        cross_val = cross_val_score(clf,X,y,cv=10).mean()
        print(cross_val)
        
    """输出"""
    1.0
    1.0
    1.0
    1.0
    1.0
    1.0
    1.0
    1.0
    1.0
    1.0
    

    交叉验证看,效果太好,这样不利于我们测试分类器的效果,因此我们使用np生成 随机数组通过让已经生成的二分型数据点加减0~1之间的随机数使数据分布变得更散更稀疏 注意,这个过程只能够运行一次,因为多次运行之后X会变得非常稀疏,两个簇的数据会混合在一起,分类器的效应会 继续下降。

    rng = np.random.RandomState(2) # 生成一种随机模式
    X += 2*rng.uniform(size=X.shape)# 加减0-1之间的随机数
    Linearly_separable = (X,y)
    plt.figure(figsize=(12,8))
    plt.scatter(X[:,0],X[:,1])
    

    202112065QEFAm

    依次生成月亮型环形数据,并并入datasets中

    # 用make_moons创建月亮型数据
    X,y = make_moons(noise=0.3
                     ,random_state=0
                    )
    Moons_data = (X,y)
    
    # 用make_circles创建环形数据
    X,y = make_circles(noise=0.2
                       ,factor=0.5
                       ,random_state=1
                      )
    Circle_data = (X,y)
    
    datasets = (Moons_data,Circle_data,Linearly_separable)
    
  • 画出三种数据集和三颗决策树分类效应图像

    """画出三种数据集和三颗决策树分类效应图像"""
    figure = plt.figure(figsize=(12,18))
    i = 1 # 设置用来安排图像显示位置的全局变量i
    
    # 开始迭代数据,对datasets中的数据进行for循环
    
    for ds_index,ds in enumerate(datasets):
        X,y = ds
        X = StandardScaler().fit_transform(X)
        X_train,X_test,y_train,y_test = train_test_split(X
                                                         ,y
                                                         ,test_size=.4
                                                         ,random_state=42)
        # 找出数据集中两个特征的最大值和最小值,让最大值+0.5,最小值-0.5,创造一个比两个特征的区间本身更大 一点的区间
        x1_min,x1_max = X[:,0].min() - .5,X[:,0].max() + .5
        x2_min,x2_max = X[:,1].min() - .5,X[:,1].max() + .5
        
        #用特征向量生成网格数据,网格数据,其实就相当于坐标轴上无数个点 
        #函数np.arange在给定的两个数之间返回均匀间隔的值,0.2为步长 
        #函数meshgrid用以生成网格数据,能够将两个一维数组生成两个二维矩阵。 
        #如果第一个数组是narray,维度是n,第二个参数是marray,维度是m。那么生成的第一个二维数组是以narray为行,m行的矩阵,而第二个二维数组是以marray的转置为列,n列的矩阵 
        #生成的网格数据,是用来绘制决策边界的,因为绘制决策边界的函数contourf要求输入的两个特征都必须是二维的
        array1,array2 = np.meshgrid(np.arange(x1_min, x1_max, 0.2),
                             np.arange(x2_min, x2_max, 0.2))
        #接下来生成彩色画布 
        #用ListedColormap为画布创建颜色,#FF0000正红,#0000FF正蓝 
        cm = plt.cm.RdBu
        cm_bright = ListedColormap(['#FF0000', '#0000FF'])
        #在画布上加上一个子图,数据为len(datasets)行,2列,放在位置i上 
        ax = plt.subplot(len(datasets), 2, i)
        #到这里为止,已经生成了0~1之间的坐标系3个了,接下来为我们的坐标系放上标题 
        #我们有三个坐标系,但我们只需要在第一个坐标系上有标题,因此设定if ds_index==0这个条件 
        if ds_index == 0:
            ax.set_title("Input data")
        #将数据集的分布放到我们的坐标系上
        #先放训练集
        ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train,
                   cmap=cm_bright,edgecolors='k')
        # 放测试集
        ax.scatter(X_test[:, 0]
                   , X_test[:,1]
                   ,c=y_test
                   ,cmap=cm_bright
                   ,alpha=0.6
                   ,edgecolors='k'
                  )
        #为图设置坐标轴的最大值和最小值,并设定没有坐标轴 
        ax.set_xlim(array1.min(), array1.max()) 
        ax.set_ylim(array2.min(), array2.max()) 
        ax.set_xticks(())
        ax.set_yticks(())
        
        #每次循环之后,改变i的取值让图每次位列不同的位置
        i+=1
        
        #至此为止,数据集本身的图像已经布置完毕,运行以上的代码,可以看见三个已经处理好的数据集 
        #############################从这里开始是决策树模型##########################
        #在这里,len(datasets)其实就是3,2是两列 
        #在函数最开始,我们定义了i=1,并且在上边建立数据集的图像的时候,已经让i+1,所以i在每次循环中的取值是2,4,6
        ax = plt.subplot(len(datasets),2,i)
        #决策树的建模过程:实例化 → fit训练 → score接口得到预测的准确率 
        clf = DecisionTreeClassifier(max_depth=5) 
        clf.fit(X_train, y_train)
        score = clf.score(X_test, y_test)
        #绘制决策边界,为此,我们将为网格中的每个点指定一种颜色[x1_min,x1_max] x [x2_min,x2_max] 
        #分类树的接口,predict_proba,返回每一个输入的数据点所对应的标签类概率 
        #类概率是数据点所在的叶节点中相同类的样本数量/叶节点中的样本总数量 
        #由于决策树在训练的时候导入的训练集X_train里面包含两个特征,所以我们在计算类概率的时候,也必须导入结构相同的数组,即是说,必须有两个特征 
        #ravel()能够将一个多维数组转换成一维数组 
        #np.c_是能够将两个数组组合起来的函数
        
        #在这里,我们先将两个网格数据降维降维成一维数组,再将两个数组链接变成含有两个特征的数据,再带入决策 树模型,生成的Z包含数据的索引和每个样本点对应的类概率,再切片,切出类概率
        Z = clf.predict_proba(np.c_[array1.ravel(),array2.ravel()])[:, 1]
        #np.c_[np.array([1,2,3]), np.array([4,5,6])]
        #将返回的类概率作为数据,放到contourf里面绘制去绘制轮廓
        Z = Z.reshape(array1.shape)
        ax.contourf(array1, array2, Z, cmap=cm, alpha=.8)
        #将数据集的分布放到我们的坐标系上
        # 将训练集放到图中去
        ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright,
                    edgecolors='k') 
        # 将测试集放到图中去
        ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright,
                   edgecolors='k', alpha=0.6)
        #为图设置坐标轴的最大值和最小值 
        ax.set_xlim(array1.min(), array1.max()) 
        ax.set_ylim(array2.min(), array2.max()) 
        #设定坐标轴不显示标尺也不显示数字 
        ax.set_xticks(())
        ax.set_yticks(())
        #我们有三个坐标系,但我们只需要在第一个坐标系上有标题,因此设定if ds_index==0这个条件 
        if ds_index == 0:
            ax.set_title("Decision Tree")
        #写在右下角的数字
        ax.text(array1.max() - .3, array2.min() + .3, ('{:.1f}%'.format(score*100)),
                size=15, horizontalalignment='right') 
        
        #让i继续加一
        i += 1
        
    plt.tight_layout()
    plt.show()
        
    

    20211206CLVzAn

  • 从图上来看,每一条线都是决策树在二维平面上画出的一条决策边界,每当决策树分枝一次,就有一条线出现。当数据的维度更高的时候,这条决策边界就会由线变成面,甚至变成我们想象不出的多维图形。

    同时,很容易看得出,分类树天生不擅长环形数据。每个模型都有自己的决策上限,所以一个怎样调整都无法提升 表现的可能性也是有的。当一个模型怎么调整都不行的时候,我们可以选择换其他的模型使用,不要在一棵树上吊 死。顺便一说:

    1. 最擅长月亮型数据的是最近邻算法,RBF支持向量机和高斯过程;
    2. 最擅长环形数据的是最近邻算法 和高斯过程;
    3. 最擅长对半分的数据的是朴素贝叶斯,神经网络和随机森林。
所有代码
  • 所有代码

    import numpy as np
    from matplotlib import pyplot as plt
    from matplotlib.colors import ListedColormap
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import StandardScaler
    from sklearn.datasets import make_moons,make_circles,make_classification
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.model_selection import cross_val_score
    
    """生成三种数据集(月亮形、环形、二分型)"""
    #make_classification生成二分型数据
    X,y = make_classification(n_samples=100 # 生成100个样本
                              ,n_features=2 # 包含两个特征
                              ,n_redundant=0 # 添加冗余特征0个
                              ,n_informative=2 # 包含信息的特征是2个
                              ,random_state=1 # 随机数种子
                              ,n_clusters_per_class=1 # 每个簇内包含的标签类别有2个
                             )
    
    for i in range(1,11):
        clf = DecisionTreeClassifier()
        cross_val = cross_val_score(clf,X,y,cv=10).mean()
        print(cross_val)
    plt.figure(figsize=(12,8))
    plt.scatter(X[:,0],X[:,1])
    plt.title('make_classification')
    plt.show()
    
    ##从交叉验证和图上可以看出,生成的二分型数据的两个簇离彼此很远
    # ,这样不利于我们测试分类器的效果,因此我们使用np生成 随机数组
    # ,通过让已经生成的二分型数据点加减0~1之间的随机数
    # ,使数据分布变得更散更稀疏 
    #注意,这个过程只能够运行一次,因为多次运行之后X会变得非常稀疏,两个簇的数据会混合在一起,分类器的效应会 继续下降
    rng = np.random.RandomState(2) # 生成一种随机模式
    X += 2*rng.uniform(size=X.shape)# 加减0-1之间的随机数
    Linearly_separable = (X,y)
    plt.figure(figsize=(12,8))
    plt.scatter(X[:,0],X[:,1])
    
    
    
    # 用make_moons创建月亮型数据
    X,y = make_moons(noise=0.3
                     ,random_state=0
                    )
    Moons_data = (X,y)
    
    # 用make_circles创建环形数据
    X,y = make_circles(noise=0.2
                       ,factor=0.5
                       ,random_state=1
                      )
    Circle_data = (X,y)
    
    datasets = (Moons_data,Circle_data,Linearly_separable)
    
    """画出三种数据集和三颗决策树分类效应图像"""
    figure = plt.figure(figsize=(12,18))
    i = 1 # 设置用来安排图像显示位置的全局变量i
    
    # 开始迭代数据,对datasets中的数据进行for循环
    
    for ds_index,ds in enumerate(datasets):
        X,y = ds
        X = StandardScaler().fit_transform(X)
        X_train,X_test,y_train,y_test = train_test_split(X
                                                         ,y
                                                         ,test_size=.4
                                                         ,random_state=42)
        # 找出数据集中两个特征的最大值和最小值,让最大值+0.5,最小值-0.5,创造一个比两个特征的区间本身更大 一点的区间
        x1_min,x1_max = X[:,0].min() - .5,X[:,0].max() + .5
        x2_min,x2_max = X[:,1].min() - .5,X[:,1].max() + .5
        
        #用特征向量生成网格数据,网格数据,其实就相当于坐标轴上无数个点 
        #函数np.arange在给定的两个数之间返回均匀间隔的值,0.2为步长 
        #函数meshgrid用以生成网格数据,能够将两个一维数组生成两个二维矩阵。 
        #如果第一个数组是narray,维度是n,第二个参数是marray,维度是m。那么生成的第一个二维数组是以narray为行,m行的矩阵,而第二个二维数组是以marray的转置为列,n列的矩阵 
        #生成的网格数据,是用来绘制决策边界的,因为绘制决策边界的函数contourf要求输入的两个特征都必须是二维的
        array1,array2 = np.meshgrid(np.arange(x1_min, x1_max, 0.2),
                             np.arange(x2_min, x2_max, 0.2))
        #接下来生成彩色画布 
        #用ListedColormap为画布创建颜色,#FF0000正红,#0000FF正蓝 
        cm = plt.cm.RdBu
        cm_bright = ListedColormap(['#FF0000', '#0000FF'])
        #在画布上加上一个子图,数据为len(datasets)行,2列,放在位置i上 
        ax = plt.subplot(len(datasets), 2, i)
        #到这里为止,已经生成了0~1之间的坐标系3个了,接下来为我们的坐标系放上标题 
        #我们有三个坐标系,但我们只需要在第一个坐标系上有标题,因此设定if ds_index==0这个条件 
        if ds_index == 0:
            ax.set_title("Input data")
        #将数据集的分布放到我们的坐标系上
        #先放训练集
        ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train,
                   cmap=cm_bright,edgecolors='k')
        # 放测试集
        ax.scatter(X_test[:, 0]
                   , X_test[:,1]
                   ,c=y_test
                   ,cmap=cm_bright
                   ,alpha=0.6
                   ,edgecolors='k'
                  )
        #为图设置坐标轴的最大值和最小值,并设定没有坐标轴 
        ax.set_xlim(array1.min(), array1.max()) 
        ax.set_ylim(array2.min(), array2.max()) 
        ax.set_xticks(())
        ax.set_yticks(())
        
        #每次循环之后,改变i的取值让图每次位列不同的位置
        i+=1
        
        #至此为止,数据集本身的图像已经布置完毕,运行以上的代码,可以看见三个已经处理好的数据集 
        #############################从这里开始是决策树模型##########################
        #在这里,len(datasets)其实就是3,2是两列 
        #在函数最开始,我们定义了i=1,并且在上边建立数据集的图像的时候,已经让i+1,所以i在每次循环中的取值是2,4,6
        ax = plt.subplot(len(datasets),2,i)
        #决策树的建模过程:实例化 → fit训练 → score接口得到预测的准确率 
        clf = DecisionTreeClassifier(max_depth=5) 
        clf.fit(X_train, y_train)
        score = clf.score(X_test, y_test)
        #绘制决策边界,为此,我们将为网格中的每个点指定一种颜色[x1_min,x1_max] x [x2_min,x2_max] 
        #分类树的接口,predict_proba,返回每一个输入的数据点所对应的标签类概率 
        #类概率是数据点所在的叶节点中相同类的样本数量/叶节点中的样本总数量 
        #由于决策树在训练的时候导入的训练集X_train里面包含两个特征,所以我们在计算类概率的时候,也必须导入结构相同的数组,即是说,必须有两个特征 
        #ravel()能够将一个多维数组转换成一维数组 
        #np.c_是能够将两个数组组合起来的函数
        
        #在这里,我们先将两个网格数据降维降维成一维数组,再将两个数组链接变成含有两个特征的数据,再带入决策 树模型,生成的Z包含数据的索引和每个样本点对应的类概率,再切片,切出类概率
        Z = clf.predict_proba(np.c_[array1.ravel(),array2.ravel()])[:, 1]
        #np.c_[np.array([1,2,3]), np.array([4,5,6])]
        #将返回的类概率作为数据,放到contourf里面绘制去绘制轮廓
        Z = Z.reshape(array1.shape)
        ax.contourf(array1, array2, Z, cmap=cm, alpha=.8)
        #将数据集的分布放到我们的坐标系上
        # 将训练集放到图中去
        ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright,
                    edgecolors='k') 
        # 将测试集放到图中去
        ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright,
                   edgecolors='k', alpha=0.6)
        #为图设置坐标轴的最大值和最小值 
        ax.set_xlim(array1.min(), array1.max()) 
        ax.set_ylim(array2.min(), array2.max()) 
        #设定坐标轴不显示标尺也不显示数字 
        ax.set_xticks(())
        ax.set_yticks(())
        #我们有三个坐标系,但我们只需要在第一个坐标系上有标题,因此设定if ds_index==0这个条件 
        if ds_index == 0:
            ax.set_title("Decision Tree")
        #写在右下角的数字
        ax.text(array1.max() - .3, array2.min() + .3, ('{:.1f}%'.format(score*100)),
                size=15, horizontalalignment='right') 
        
        #让i继续加一
        i += 1
        
    plt.tight_layout()
    plt.show()
    

http://www.niftyadmin.cn/n/5868442.html

相关文章

stm32使用(无线串口)实现收发、判断数据+DMA(HAL库)

目录 前言: 1. 用CubeMX配置串口DMA所需要的环境 (1)打开CubeMAX,点击红框 (2)查找stm32F103C8T6的芯片 (3)配置SYS (4)配置RCC时钟 (5&am…

2025年第16届蓝桥杯嵌入式竞赛学习笔记(十):ADC测量电压

1.原理图 VDD的最大值为3.3V,所以PB15测量电压值的范围为0~3.3V,然后它读取到的AD值为0~4096,所以电压测量公式为 为什么是4096,因为ADC是一个12比特的 2.CubeMX配置 将PB15引脚配置为ADC2_IN15,PB12配置为ADC1_IN11 …

【LeetCode Hot100】旋转图像|原地旋转 vs 转置+反转,Java实现,图解+代码

💻 [LeetCode Hot100] 旋转图像|原地旋转 vs 转置反转,Java实现,图解代码 ✏️本文对应题目链接:旋转图像 📌 题目描述 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 …

[杂学笔记]OSI七层模型作用、HTTP协议中的各种方法、HTTP的头部字段、TLS握手、指针与引用的使用场景、零拷贝技术

1.OSI七层模型作用 物理层:负责光电信号的传输,以及将光电信号转化为二进制数据数据链路层:主要负责将收到的二进制数据进一步的封装为数据帧报文。同时因为数据在网络中传递的时候,每一个主机都能够收到报文数据,该层…

安宝特科技 | Vuzix Z100智能眼镜+AugmentOS:重新定义AI可穿戴设备的未来——从操作系统到硬件生态,如何掀起无感智能革命?

一、AugmentOS:AI可穿戴的“操作系统革命” 2025年2月3日,Vuzix与AI人机交互团队Mentra联合推出的AugmentOS,被业内视为智能眼镜领域的“iOS时刻”。这款全球首个专为智能眼镜设计的通用操作系统,通过三大突破重新定义了AI可穿戴…

使用内置命令查看笔记本电池健康状态

如何使用powercfg /batteryreport命令查看笔记本电池健康状态 在Windows系统中,了解笔记本电池的健康状态对于维护电脑性能和预测电池寿命至关重要。Windows 10和Windows 11系统提供了一个内置命令powercfg /batteryreport,可以生成一份详细的电池使用情…

计算机网络:应用层 —— 电子邮件

文章目录 电子邮件的起源与发展电子邮件的组成电子邮件协议邮件发送和接收过程邮件发送协议SMTP协议多用途因特网邮件扩展MIME 电子邮件的信息格式 邮件读取协议邮局协议POP因特网邮件访问协议IMAP 基于万维网的电子邮件 电子邮件(E-mail)是因特网上最早…

SSL/TLS 协议、SSL证书 和 SSH协议 的区别和联系

下面是 SSL/TLS 协议、SSL证书 和 SSH协议 的区别和联系,包含它们的英文全称和中文全称: 属性SSL/TLS 协议SSL证书SSH 协议英文全称Secure Sockets Layer / Transport Layer SecuritySecure Sockets Layer CertificateSecure Shell Protocol中文全称安全…