机器学习与深度学习06-决策树02

目录

    • 前文回顾
    • 5.决策树中的熵和信息增益
    • 6.什么是基尼不纯度
    • 7.决策树与回归问题
    • 8.随机森林是什么

前文回顾

上一篇文章地址:链接

5.决策树中的熵和信息增益

熵和信息增益是在决策树中用于特征选择的重要概念,它们帮助选择最佳特征进行划分。

  1. 熵(Entropy):熵是信息论中用来度量不确定性或混乱程度的概念。在决策树中,熵被用来度量一个节点的不纯度,即该节点包含多少不同类别的样本,熵的计算公式为,对于节点t, p i p_i pi表示类别i在节点t中的样本比例

E n t r o p y ( t ) = − ∑ i = 1 c p i log ⁡ 2 ( p i ) Entropy(t) = - \sum_{i = 1}^{c} p_i \log_2(p_i) Entropy(t)=i=1cpilog2(pi)
其中,c表示类别的数量。熵的值在0和1之间,越接近0表示节点越纯净,越接近1表示节点的不纯度越高。

  1. 信息增益(Information Gain):信息增益用于选择最佳特征来划分数据集。它衡量了通过选择某个特征进行划分后,父节点的熵减少了多少,即子节点的不纯度相对于父节点而言减少了多少, 信息增益的计算公式为
    I n f o r m a t i o n G a i n ( D , A ) = E n t r o p y ( D ) − ∑ v ∈ V a l u e s ( A ) ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Information \ Gain(D, A) = Entropy(D) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} Entropy(D_v) Information Gain(D,A)=Entropy(D)vValues(A)DDvEntropy(Dv)
    其中,D是父节点的数据集,A是要划分的特征, V a l u e s ( A ) Values(A) Values(A)是特征A的取值集合, D v D_v Dv是特征A取值为v时的子节点数据集,信息增益的目标是选择使得信息增益最大的特征来进行划分,因为最大的信息增益意味着划分后的子节点更纯净,不确定性更低。因此,信息增益可以帮助决策树选择最能有效地划分数据的特征,从而构建更加有用的决策树模型
    需要注意的是,信息增益在选择特征时有一定的偏向性,它倾向于选择取值较多的特征,因此在某些情况下可能不适用。为了解决这个问题,基尼不纯度(Gini Impurity)是另一种可选的划分准则,它在某些情况下更适用于特征选择。在实际应用中,可以根据具体问题和数据集选择适当的划分准则

6.什么是基尼不纯度

基尼不纯度是一种用于决策树中的划分准则,它用来度量一个节点的不纯度或混乱程度,基尼不纯度越低,表示节点的纯度越高,即该节点包含的样本更倾向于属于同一类别。与信息增益不同,基尼不纯度不依赖于对数,计算相对较为简单。基尼不纯度的计算公式为,对于节点t, p i p_i pi表示类别i在节点t中的样本比例
G i n i ( t ) = 1 − ∑ i = 1 c ( p i ) 2 Gini(t) = 1 - \sum_{i = 1}^{c} (p_i)^2 Gini(t)=1i=1c(pi)2
其中,c表示类别的数量。基尼不纯度的值在0和1之间,越接近0表示节点越纯净,越接近1表示节点的不纯度越高,与信息增益相比,基尼不纯度有一些不同之处:

  1. 计算方式:信息增益使用对数计算,而基尼不纯度使用平方计算。这意味着基尼不纯度对误分类的惩罚相对较小,因此更偏向于选择具有最大基尼不纯度下降的特征
  2. 取值范围:信息增益的取值范围在0到1之间,而基尼不纯度的取值范围也在0到1之间,但通常基尼不纯度的值略高于信息增益
  3. 应用场景:基尼不纯度在某些情况下更适用于特征选择。特别是在处理多分类问题(类别数较多)时,基尼不纯度通常表现更好,因为它偏向于选择取值较少的特征,可以降低树的复杂度

在选择划分特征时,可以根据具体问题和数据集的特点选择使用信息增益或基尼不纯度。通常情况下,它们都是有效的划分准则,但在不同情况下可能表现出不同的优势。机器学习库(如Scikit-Learn)通常提供了两者的选项,以便根据问题需求进行选择

7.决策树与回归问题

决策树是一种用于分类和回归问题的机器学习模型,它们的主要区别在于应用的问题类型和输出变量的性质。

  1. 分类问题:在分类问题中,目标是将输入数据分为预定义的类别或标签中的一个。决策树用于解决分类问题时,每个叶子节点代表一个类别,模型通过从根节点到叶子节点的路径来确定数据点的类别。例如,可以使用决策树来判断电子邮件是垃圾邮件还是正常邮件、患者是否患有某种疾病等
  2. 回归问题:在回归问题中,目标是预测一个连续的数值输出,而不是分类标签。决策树用于解决回归问题时,每个叶子节点代表一个数值,模型通过从根节点到叶子节点的路径来预测数据点的数值输出。例如,可以使用决策树来预测房屋价格、股票价格等连续性输出
  3. 主要区别:主要区别在于输出变量的性质。分类问题的输出是离散的类别标签,而回归问题的输出是连续的数值。决策树的构建和评估方法在两种问题中基本相同,但叶子节点的表示和预测方式不同
  4. 将决策树应用于回归问题:要将决策树应用于回归问题,需要对其进行一些适应性修改

以下是一些将决策树用于回归问题的关键点:

  1. 叶子节点的表示:在回归决策树中,叶子节点不再代表类别标签,而代表数值。通常,叶子节点的数值是该节点中所有训练样本的目标变量值的平均值
  2. 划分准则:在回归决策树中,常用的划分准则包括均方误差(Mean Squared Error)和平均绝对误差(Mean Absolute Error)。划分时选择使均方误差或平均绝对误差最小化的特征和取值
  3. 剪枝:与分类决策树类似,回归决策树也可以进行剪枝操作,以减小树的复杂度,提高泛化能力
  4. 评估指标:在回归问题中,通常使用均方误差、平均绝对误差、决定系数(R-squared)等指标来评估模型的性能

8.随机森林是什么

随机森林(Random Forest)是一种集成学习算法,用于改进单个决策树模型的性能。是一种强大且广泛应用的机器学习方法,随机森林的核心思想是通过构建多个决策树,并将它们的预测结果结合起来,来提高整体模型的性能和鲁棒性,以下是随机森林是如何改进单个决策树模型性能的主要方式

  1. 随机抽样(Bootstrap抽样):在构建每棵决策树时,随机森林从训练数据中使用有放回抽样(Bootstrap抽样)来创建不同的训练子集。这意味着每棵树使用的数据集都是略有不同的,从而增加了模型的多样性
  2. 随机特征选择:在每次分裂决策树节点时,随机森林不考虑所有特征,而是从所有特征中随机选择一个子集用于分裂。这样可以防止某些特征在模型中占据主导地位,增加了模型的多样性,同时也提高了计算效率
  3. 多数投票或平均:当随机森林中的所有决策树都构建完成后,它们的预测结果会被结合起来。对于分类问题,采用多数投票的方式,即每棵树投票选择类别,最终选择得票最多的类别作为模型的预测结果。对于回归问题,采用平均的方式,即将所有树的预测结果取平均值作为最终预测值
  4. 降低过拟合风险:由于随机森林的每个决策树都是在不同的子集上训练的,因此它们具有较高的多样性,降低了过拟合的风险。这意味着即使训练数据中存在噪声或异常值,随机森林也能够产生稳健的预测
  5. 高性能:随机森林通常在处理大规模数据集时表现良好,因为每棵决策树可以并行构建,从而提高了训练速度。此外,它们通常不需要太多的超参数调整,使其易于使用

总的来说,随机森林通过组合多个决策树,利用随机性和投票策略,改进了单个决策树的性能,提高了模型的泛化能力和鲁棒性,适用于各种机器学习任务,包括分类、回归和特征选择

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.tpcf.cn/web/81996.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Kotlin】数字字符串数组集合

【Kotlin】简介&变量&类&接口 【Kotlin】数字&字符串&数组&集合 文章目录 Kotlin_数字&字符串&数组&集合数字字面常量显式转换数值类型转换背后发生了什么 运算字符串字符串模板字符串判等修饰符数组集合通过序列提高效率惰性求值序列的操…

oscp练习PG Monster靶机复现

端口扫描 nmap -A -p- -T4 -Pn 192.168.134.180 PORT STATE SERVICE VERSION 80/tcp open http Apache httpd 2.4.41 ((Win64) OpenSSL/1.1.1c PHP/7.3.10) |_http-server-header: Apache/2.4.41 (Win64) OpenSSL/1.1.1c PHP/7.3.10 | http-methods:…

近期知识库开发过程中遇到的一些问题

我们正在使用Rust开发一个知识库系统,遇到了一些问题,在此记录备忘。 错误:Unable to make method calls because underlying connection is closed 场景:在docker中调用headless_chrome时出错 原因:为减小镜像大小&am…

Ubuntu 22.04 系统下 Docker 安装与配置全指南

Ubuntu 22.04 系统下 Docker 安装与配置全指南 一、前言 Docker 作为现代开发中不可或缺的容器化工具,能极大提升应用部署和环境管理的效率。本文将详细介绍在 Ubuntu 22.04 系统上安装与配置 Docker 的完整流程,包括环境准备、安装步骤、权限配置及镜…

C#获取磁盘容量:代码实现与应用场景解析

C#获取磁盘容量:代码实现与应用场景解析 在软件开发过程中,尤其是涉及文件存储、数据备份等功能时,获取磁盘容量信息是常见的需求。通过获取磁盘的可用空间和总大小,程序可以更好地进行资源管理、预警提示等操作。在 C# 语言中&a…

2025年- H56-Lc164--200.岛屿数量(图论,深搜)--Java版

1.题目描述 2.思路 (1)主函数,存储图结构 (2)主函数,visit数组表示已访问过的元素 (3)辅助函数,用递归(深搜),遍历以已访问过的元素&…

详细到用手撕transformer下半部分

之前我们讨论了如何实现 Transformer 的核心多头注意力机制,那么这期我们来完整地实现整个 Transformer 的编码器和解码器。 Transformer 架构最初由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出,专为序列到序列(seq2s…

WPF事件处理器+x名称空间

目录 ​编辑 一、事件处理器知识点 1. XAML中的事件绑定 2. C#中的事件处理方法 3. 方法签名解释 4. 命名规范 工作流程 二、导入引用名称空间 三、x名称空间及其常用元素 (1)x名称空间的由来和作用 (2)x名称空间里都有…

Axure设计案例——科技感渐变线性图

想让数据变化趋势展示告别枯燥乏味,成为吸引观众目光的亮点吗?快来看看这个Axure设计的科技感渐变线性图案例!科技感设计风格凭借炫酷的渐变色彩打破传统线性图的单调,营造出一种令人过目难忘的视觉体验。每一条线条都仿佛是流动的…

Git全流程操作指南

Git全流程操作指南 一、Git 环境配置 1. 安装 Git Windows:下载 Git for Windows macOS:brew install git Linux: sudo apt-get update && sudo apt-get install git # Debian/Ubuntu sudo yum install git …

AI与软件工程结合的未来三年发展路径分析

基于对数字化、制造业、工业、零售业等行业的系统调研,以及微软、谷歌、阿里、华为等大厂的实践案例,我们可以预见未来三年AI与软件工程结合将呈现以下发展路径和趋势。 一、技术应用维度 1. AI辅助编程工具全面普及 未来三年,AI辅助编程工…

tiktoken学习

1.tiktoken是OpenAI编写的进行高效分词操作的库文件。 2.操作过程: enc tiktoken.get_encoding("gpt2") train_ids enc.encode_ordinary(train_data) val_ids enc.encode_ordinary(val_data) 以这段代码为例,get_encoding是创建了一个En…

DeepSeek 赋能文化遗产数字化修复:AI 重构千年文明密码

目录 一、引言二、文化遗产数字化修复概述2.1 文化遗产数字化修复的意义2.2 传统数字化修复方法与局限 三、DeepSeek 技术剖析3.1 DeepSeek 技术原理与核心优势3.2 相比其他技术的独特之处 四、DeepSeek 在文化遗产数字化修复中的应用4.1 破损文物的智能修复4.2 文化遗产的虚拟…

leetcode题解513:找树左下角的值(递归中的回溯处理)!

一、题目内容: 题目要求找到一个二叉树的最底层最左边节点的值。具体来说,我们需要从根节点开始遍历二叉 树,找到最深的那层中的最左边的节点,并返回该节点的值。因为要先找到最底层左侧的值,所以我们选择遍历顺序一定…

C#面试问题41-60

41. What is the Singleton design pattern? Singleton is a class that only allows creating a single instance of itselt. 单例设计模式是一个类,它只允许创建自己的单个实例。 构造函数防止他在单例类以外的地方被调用。 使用情景:need a sing…

笔记思考法

掌握麦肯锡流笔记术,对大家来说有以下几种好处: 1) 可以将自己的思考可视化,使之变得更加清晰 2) 避免无用功 3) 经常能够提出有创意的想法 4) 遇到问题时能够及时找到解决办法 5) 不管面对什么情况都能够找出真正有效的解决办法 为什么仅仅通过改变使用…

Rust 学习笔记:关于闭包的练习题

Rust 学习笔记:关于闭包的练习题 Rust 学习笔记:关于闭包的练习题问题 1问题 2以下程序能否通过编译?若能,输出是?以下程序能否通过编译?若能,输出是?考虑该 API,空白处填…

(一)微服务(垂直AP/分布式缓存/装饰器Pattern)

文章目录 项目地址一、创建第一个垂直API1.1 创建Common层1. ICommand接口2. IQuery接口 1.2 创建API1. 实体2. Handler3. endpoint 1.3 使用Marten作为ORM 二、Redis缓存2.1 使用缓存装饰器1. 创建装饰器2. 注册装饰器 2.2 创建docker-compose1. docker-compose2. docker-comp…

Spring AI系列之使用 Spring AI 转录音频文件(基于OpenAI)

概述 企业常常需要从各种类型的音频内容中提取有价值的数据,例如:将客户支持通话转录用于情感分析、为视频生成字幕,或整理会议纪要。然而,手动转录音频文件既耗时又昂贵。 为了解决这一问题,OpenAI 提供了强大的语…

室内VR全景助力房产营销及装修

在当今的地产行业,VR全景已成为不可或缺的应用工具。从地产直播到楼市VR地图,从效果图到水电家装施工记录,整个地产行业的上下游生态中,云VR全景的身影无处不在。本文将探讨VR全景在房产营销及装修领域的应用,并介绍众…