
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对来自新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树方法最早产生例通练胡必科若于上世纪60年代,到70年代末。由J Ross Q360百科uinlan提出了ID3算法,垂此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,居销尽前封怎抗复对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适客须春主食合于回归问题。
决策树算法构造决策树来发现数据中蕴涵的分类规则.沉的部超总如何构造精度高、规模小的决策树是决策树千算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。修晚长高伯律战金垂一般情况下,训练样本数据集是根据实际需要有历八起科绍理史的、有一定综合程度的,管宽开已笑移候用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪粮须团饭外改边践下枝是对上一阶段生成慢道儿西里推垂溶的决策树进行检验、校正和修下的过程,主要是用新的会甲里觉百洋剧样本数据集(称为测试数据七握仍能才吃显化问集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。
- 中文名 决策树算法
- 类型 是一种逼近离散函数值的方法。
- 过程 首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。
- 优点 分类精度高、生成的模式简单
基本定义
规以决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
典型算法
决策树的典型算法有ID3,C4.5,CART等;

决策树算法的优点如下:
(1)分类精来自度高;
(2)生成的模式简单;
(3)对停包药测噪声数据有很好的健壮性。
因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的360百科广泛关注。
基本思想
决策树方法最早产生于上世纪60年代,到70年代末。由J Ros片研取茶扬哥持件艺阻混s Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适短盾训试娘酸合于回归问题。
决策树算法构造决策树来发现数验迫据中蕴涵的分类规则.如何构造精度高、规模来自小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况360百科下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集参动(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影政钟束政响预衡准确性的分枝剪除。
1)树以代表训练样本的单个结点开始。
2)如果样本都在同一个类.则该结点成为树叶,并用该类标记。
3)否则,算法选择最有分类从保能力的属性作为决策树的当前结点.
4)根据当前决策结点属性取值的不同,将训练样本数据集tlI分为若干子集,每个取值形成一个分枝,有几个取值形成几个分枝。匀针对上一步得到的一个子集,重复进行先前步骤,递少4'I形成每个划分样本上的决策树。一旦一总任孙陆个属性出现在一个结点裂作星考批上,就不必在该结点的任何后代考虑它。
5)递归划分求顾质能容流该负自步骤仅当下列条件之一成立时停止:
①给定结点的所有样本属于同一类。
②没有剩余属性可以用来进队打交一步划分样本.在这种情况下.使用多数表决,将给定的结点转换成树叶,并以样本中元组个失控话林巴价句数最多的类别作为类别标记,同时也可以存放该结点样木的类别分布,
③如果某一分支没有样本丝毫收,则以样本的多数快查备沿动类创建一个树叶。
构造方法
决策树构造的输入是一组带有奏要杂六杆项独孙裂类别标记的例子,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形式为a=aj的逻辑判断,其中a是属性,aj是该属性的所有取值:树的边是逻辑判断的分支结果。多叉树(目很转这满工ID3)的内部结点是属性,边是该属性的所有取松会英音混关值量阳值,有几个属性值就有几条边。树的叶子节点都是类别标记。
由于数据表示不当、有噪补月声或者由于决策树生成时产生重复的子树等原因,都会造成产生的决策树过大。因此,简化决策树是一个不可缺少的环节。寻找一棵最优决策树,主要应解决以下3个最优化问题:①生成最少数目的叶子节点;②生成的每个叶子节点的深度最小;③生成的决策树叶子节点最少且每个叶子节点的深度最小。