消息详情

机械进修 决策树的生成过程是如何?(一)
作者:admin 发布于:2019-04-12

  对于全体的数据集而言:按照所有的特征属性进行划分操做,对所有划分操做的成果集的“纯度”进行比力,选择“纯度”越高的特征属性做为当前需要朋分的数据集进行朋分操做。

  若是值为离散型,且生成二叉决策树,能够按照 “属于此子集”和“不属于此子集”分成两个分支。仍是像的婚姻形态,这能够按照已婚,和非婚,构成两个分支。

  步调三:利用第二步遍历所有特征,选择出最优的特征,以及该特征的最优的划分体例,得出最终的子节点N1、 N2.Nm

  可是,现实是不成能将数据分的那么的纯,因而,需要“”策略,力争正在每次朋分时都比上一次好一些,分的更纯一些。

  步调四:对子节点N1、N2.Nm别离继续施行2-3步,曲到每个最终的子节点都脚够“纯”。

  若是值为持续性,能够确定一个值做为点,按照大于朋分点,小于或等于朋分点生成两个分支,如上图数据,我能够按照6千元的点划分成:大于6千元和小于6千元。

  步调二:遍历当前特征的每一种朋分体例,找到最好的朋分点eg(婚姻形态这个特征,我们能够按照独身、已婚、离婚进行划分;也能够按照结过婚、没有结过婚进行划分);将数据划分为分歧的子节点,eg: N1、 N2.Nm;计较划分之后所有子节点的“纯度”消息

  三种算法的区别仅仅只是对于当前树的评价尺度分歧罢了,ID3利用消息增益、 5利用消息增益率、CART利用基尼系数。

  正在ID3算法的根本上,进行算法优化提出的一种算法(C4.5),利用消息增益率来代替ID3中的消息增益。

  ID3和5算法都是单变量决策树当属性值取值比力多的时候,最好考虑C4.5算法,ID3得出的结果会比力差  决策树分类一般环境只适合小数据量的环境(数据能够放内存)  CART算法是三种算法中最常用的一种决策树建立算法(sklearn中仅支撑CART)。

  分歧于线性回归等是多项式,决策树是一种树形的布局,一般由根节点、父节点、子节点、叶子节点形成如图所示。

  人人都是产物司理(是以产物司理、运营为焦点的进修、交换、分享平台,集、培训、社群为一体,全方位办事产物人和运营人,成立8年举办正在线+期,线+场,产物司理大会、运营大会20+场,笼盖北上广深杭成都等15个城市,外行业有较高的影响力和出名度。平台堆积了浩繁BAT美团京东滴滴360小米网易等出名互联网公司产物总监和运营总监,他们正在这里取你一路成长。

  H(D|A)为:正在给定前提A下的纯度,两者之差为消息增益度。若是消息增益度越大,则H(D|A)越小,则代表成果集的数据越纯。

  父节点和子节点是相对的,子节点能够由父节点而来,而子节点还能做为新的父节点继续;根节点是没有父节点,即初始节点,叶子节点是没有子节点的节点,为终节点。

  接下来,对左子树年收入大于97.5的数据,继续选择特征进行划分,且不再考虑收入这个特征,方式如上,能够获得如图:

  步调一:将所有的特征当作一个一个的节点,eg(具有房产、婚姻形态、年收入这些特征,我们能够当作一个一个的节点。)

  体例一可能会使树的节点过多,导致过拟合(Overfiting)等问题。所以,比力常用的体例是利用体例二做为遏制前提。

  若是值为离散型,且不生成二叉决策树,则此时一个属性就是能够一个分支,好比:上图数据显示,婚姻形态为一个属性,而下面有三个值,独身、已婚、离婚,则这三个值都能够做为一个分类。

  相关链接:

Copyright 2018-2019 www.ddzwj003.com 版权所有 未经授权,严禁转载,违者将被追究法律责任。