• 沒有找到結果。

基于知识线记忆的多分类器集成算法

N/A
N/A
Protected

Academic year: 2022

Share "基于知识线记忆的多分类器集成算法"

Copied!
14
0
0

加載中.... (立即查看全文)

全文

(1)

第4卷 第3期

年3月 计  算  机  学  报

CHINESEJOURNALOFCOMPUTERS 4N

稿日期在线发布日期本课题得到国家自然科学基金项目北京智源人工智 能研究院中国科学院青年创新促进会国家重点研发计划联想中科院联合实验室 青年科学家项目王宽诚教育基金会重庆市基础科学与前沿技术研究专项项目重点和泰山学者工程专项经费

资助.于思皓,博士研究生主要研究方向为强化学习集成学习自适应网络.郭嘉丰,博士 研究员中国计算机学会会员主要研究领域为信息检索数据挖掘.范意兴,博士助理研究员主要研究方向为信息检索自然语 处理.兰艳艳,博士研究员中国计算机学会会员主要研究领域为机器学习排序学习信息检索.程学旗,博士研究员中国 计算机学会会员主要研究领域为网络科学网络与信息安全互联网搜索与数据挖掘.

基于知识线记忆的多分类器集成算法

于思皓

  郭嘉丰

  范意兴

  兰艳艳

  程学旗

中国科学院计算技术研究所网络数据科学与技术重点实验室 北京 

中国科学院大学 北京 

烟台中科网络技术研究所 山东烟台 

  多分类器系统作为混合智能系统的分支集成了具有多样性的分类器集合使整体得到更优的分类性能.

果融合是该领域中的一个重要问题在相同分类器成员下好的融合策略可以有效提升系统整体的分类正确率.

着模型安全性得到重视传统融合策略可解释性差的问题凸显.本文基于心理学中的知识线记忆理论进行建模 考人类决策过程提出了一种拥有较好可解释性的启发式多分类器集成算法称为知识线集成算法.该算法模拟 类学习与推断的行为组织多分类器结果的融合.在训练中模型收集给定分类器集合的不同子集构建不同特 征空间到解空间的映射构成知识线.在推断时模型启发式地激活知识线进行选择性结果集成得到推断结果.

识线集成使用样本驱动的模式易于进行中间过程与最终结果的分析.以决策树作为分类器的实验表明在相同 决策树集合下知识线集成算法分类正确率与随机森林相仿.在此基础之上知识线集成算法可量化问题不同粒 度下的难易程度且在推断时能提供相关训练样本作为依据.

关键词 多分类器知识线记忆理论启发式样本驱动可解释性 中图法分类号   

犕 狌 犾 狋 犻 犆 犾 犪 狊 狊 犻 犳 犻 犲 狉 犈 狀 狊 犲 犿 犫 犾 犲 犃 犾 犵 狅 狉 犻 狋 犺 犿犅 犪 狊 犲 犱 狅 狀 犓 狀 狅 狑 犾 犲 犱 犵 犲  犔 犻 狀 犲 犕 犲 犿 狅 狉 狔

YUSiHao GUOJiaFeng FANYiXing LANYanYan CHENGXueQi

犳犖 

 

犳犖 

犃犫狊狋狉犪犮狋 MulticlassifierSystemabranchtechnologyofHybridIntelligentSystemintegrates manyclassifierstoapproachhigheraccuracy.Becauseofthelimitationofcomputingresourceand thequalityofclassifiersclassifiersfusionisanimportantprobleminMulticlassifierSystem.

BetterfusionstrategycanreachhigherperformanceofwholeMulticlassifierSystemunderthe samewelltrainedclassifiermembers.Thetraditionalmethodshadtriedmanyfusionstrategies suchasnormalvotingweightedvotingandfusionfunction.Asthemodelsdevelopedthe classificationaccuracywenthigher.Butthesemodelsonlypaidattentiontoclassificationaccuracy andpaidlittleattentiontointerpretabilitywhichisaninevitableproblemwhensafetyofmodel wasconcerned.Thispapertakesaviewofhumandecisionmakingandpresentsanewmulti classifierensemblealgorithmnamedknowledgelineensemblewhichbasedonknowledgeline memorytheorydescribingtheprocessofhumandecisionmakingwithmemory.Inordertogetthe

《 计

算 机

学 报

(2)

interpretabilitylikehumandecisionmakingknowledgelineensemblealgorithmimitatesthe learningandinferenceprocessesofhumanaccordingtothepsychologicaltheorydescription.In trainingthemodeltriestocreatememorycalledknowledgelinelikehumantostorememory aboutsolvingdifferentproblemsandforgetmemorylikehumaninordertoavoidsinkingintospecial badcases.Knowledgelineandtrainingsampleareonetoonecorrespondence.Knowledgeline isasubsetofgivenwelltrainedclassifierswhichcanresultinrightclassificationonthe correspondingsample.Differentsamplesresultincreatingdifferentknowledgelinessoafter trainingthemodelstoresvariedknowledgelines.Theseknowledgelinescreateasetof mappingswhichareusedtomapfeaturespacetoanswerspace.Ininferencethemodelchoosesa subsetofexistingknowledgelinestoactivatedependingonheuristicsrules.Theseactive knowledgelineswillworkandvotetogetaresult.Knowledgelineensemblealgorithmisa kindofsampledrivenmethodwheninferringanewcaseonlytheknowledgelinesbornwith familiarsampleswillbeactivated.Itseemsthathumanbeingsthinkofsolutioninmemorywhen sufferingfromtroubles.Soknowledgelineensemblealgorithmisusingsampleddatatomake decisions.Speciallybecausetheprocessthattheknowledgelinememorytheoryusescomputing unitstoconstructknowledgelinesissimilartoaddingelementstosetsinordertodescribethe calculationprocessofthealgorithmbetterthispaperusesmatricestomodelthisprocess.The connectionrelationshipbetweentheknowledgelinesandthecomputingunitscanberepresented byanadjacencymatrixtheresultsofdifferentclassifierscanbestoredbyaclassificationmatrix andtheactivationoftheknowledgelinescanbecompletedintheformoftheinnerproductofthe resultsofallknowledgelinesandtheactivationvectors.Sothefinalclassificationresultcanbe expressedintheformofmatrixmultiplication.Onthisbasisthegoalandconvergenceofthe algorithmareexplained.Intheexperimentsthispaperuseddecisiontreesasthegivenclassifiers.

Underthesamegivenclassifiersexperimentsshowedthatknowledgelineensemblealgorithm hadcomparableaccuracywithrandomforestwhichusesnormalvotingasitscoordinatingstrategy.

Moreimportantlyknowledgelineensemblealgorithmcandiscriminatethedifficultyofinference casesaccordingtotheactivesituationofknowledgelinesandgivespecifictrainingcasesto supporttheinferencewhichmakesitsresultsmoreconvinced.

犓犲狔狑狅狉犱狊 multiclassifierknowledgelinememorytheoryheuristicssampledriveninterpretability

1    

随着大数据时代的推进数据所蕴含的模式多 元化机器学习算法需要解决的任务愈发困难.在多 变的任务中模型结构趋于复杂参数量愈发庞大. 但是没有免费的午餐原理是一个无法打破的枷 锁它论证了单个模型能力的局限性.若要有所突 破多个模型的合作势在必行.

正如在多个器官的共同作用下人类得以生存. 擅长不同任务的智能体合理地组成一个系统就可 以解决更多样化的问题.混合智能系统也是在这 样的构想下被提出的.在机器学习任务中分类问题 与回归问题是重要的基础问题.针对分类问题多分

类器系统作为混合智能系统的分支在文献中被 提出.多分类器系统重点在于采用分而治之的理 念.它将复杂的分类问题分解成多个简单的子问题 分别使用单模型逐个击破后再合理地将这些模型 组合以得到原问题的解决方案.

如今多分类器集成算法在各种任务中扮演着 重要角色也是机器学习竞赛中提升成绩的重要手 段.但是在金融安全等任务上仅有分类正确率是 不够的即使模型在测试集上的正确率达到100% 模型也依旧具有极大的可能在新的样本上给出荒谬 的结果.原因是仅靠类似正确率的一个指标只能 做出现实世界中大多数任务的不完整描述.模型 做出决策的原因是不能忽略的.

现有的多分类器系统所使用的集成策略在推

3期 于思皓等基于知识线记忆的多分类器集成算法

《 计

算 机

学 报

(3)

断时无法给出做决策的具体原因无法像犓近 邻协同过滤等模型一样显式的给出推断时起 作用的训练样本.事实上在心理学的研究中知识 线记忆理论说明了人在决策时会激活过往数据产 生的记忆用旧例子作为依据来推测新问题的答案. 本文的贡献主要有以下几点

本文用矩阵对知识线记忆理论的计算框架 进行了数学建模.

本文结合心理学中的知识线记忆理论提出 了一种新的多分类器集成策略称为知识线集成算 法.该算法具有良好可解释性且分类正确率与现有 集成分类算法保持在同一水平.

该算法为使用者提供了丰富简单的模型 分析手段.可以量化类别推断难度估计类别样本 之间产生混淆的概率.

2   背景介绍与相关工作

本文根据心理学中的知识线记忆理论设计了 一套启发式多分类器集成算法本节将介绍多分类 器系统的相关工作参考文献89与知识线记忆 理论的背景知识.

2.1 多分类器系统

多分类器系统是混合智能系统中的一个重要分 支旨在集成多个模型解决分类问题.它的拓扑结构 有两种链式结构与分布式结构.

链式结构如图1所示所有分类器成员有序排 列数据从前到后逐个经过每个分类器.分类器成员 在训练中逐个产生每个新成员是在给定已有分类 器与当前集成结果的条件下得到的.链式结构主要 有两种运行模式.第一种为数据传递型.前置分 类器接收到数据时计算得到推断的结果并评估此 结果的可信程度.若可信度不足则把数据发送给后 续的分类器直到有分类器给出可信结果.这种方式 有着明显的弊端分类器成员的数量难以控制可信 度难以评估被拒绝的结果对后续分类器作用有限. 因此第二种模式合作型也就是Boosting应 运而生.每个分类器不再讨论难以评估的结果可信 度而是直接使用监督学习的方式找出推断错误的 训练样本分类器不再逐条数据进行训练而是面向 整个数据集根据前置分类器的表现调整数据分布 推断结果由所有分类器的加权和得到而不是完全 由最后的分类器决定.链式结构下分类器之间必然 会产生较大相关性而本文主要研究独立的分类器

集成方法所以此处不再对链式结构相关方法的发 展进行更深入地讨论.

图1 链式结构多分类器系统

分布式的结构如图2所示它要求分类器成员输 入的数据相同结果独立且分类器群体具有多样性. 文献21从统计学出发论证了无穷个无偏独立分 类器的结果均值与最佳贝叶斯分类器效果一致.它 说明了独立的多个分类器使用少数服从多数的 投票策略进行决策是一种多分类器结果融合的有效 思路.它对分布式多分类器系统的发展有着指导意 义.分布式多分类器系统的设计主要是解决两个问 题其一如何得到具有多样性且独立性较高的分类 器集合其二如何将多个分类器的结果融合成一个 结果.

图2 分布式结构多分类器系统

针对第一个问题解决方案可以分为两类数据 采样与模型多样化.数据采样包括样本的随机采样 比如Bagging特征的随机采样比如随机森 林在决策树上的尝试文献24在线性分类器上 的尝试文献25在最小距离分类器上的尝试数据 特征空间分割比如文献26中所提出的模型数据 特征子集的随机投影比如AttributeBagging 数据标签的形式修改比如文献28将标签改成多 次一对多的二分类形式.模型多样化指模型在训练 过程中模型受到干预导致的多样化比如使用不同 初始化的神经网络部分节点随机分裂的决策树等.

针对第二个问题主要有三种解决方案标签融 合函数融合和训练融合.标签融合是指多个分类器 结果按照一定的规则合成一个结果.在文献21的 基础上可以证明若每个分类器成员的正确率大于

计  算  机  学  报

《 计

算 机

学 报

(4)

随机分类的正确率则整体投票结果的正确率将比 分类器成员正确率均值高.可见少数服从多数的 结果投票是简单有效的方法除此之外文献29 认为不同的分类器应有不同的重要性所以提出了 带权重的投票来组合分类器结果.文献3032利用 特征信息来辅助完成结果融合.而函数融合是把每 个分类器得到的分数融合成最终结果比如文献

3335使用SoftMax函数把多个分类器的结果重 构成最终结果的后验概率文献36构建结果的最 优投影得到统一的结果.以上方法都基于人为设定 的规则其实融合结果的函数也可以通过机器学习得 到即训练融合.它可以使用决策树感知机 进化算法数据包围分析学习权重使用强化 学习启发式搜索剪枝使用Stacking把结 果作为输入再次训练或者将所有分类器的结果作 为特征输入到一个融合分类器中进行训练比如神 经网络贝叶斯分类器来得到一个组合多分 类器结果的模型.而本文提出的方法是一种更具有 可解释性的启发式剪枝方法.

多分类器系统是重要前沿的方法它的应用十 分广泛比如在遥感上的土地覆盖制图变化检 测计算机安全上的手机通讯网络安全 银行中的欺诈检测经济风险评估医药中的 蛋白质折叠检测神经科学以及推荐系 统等.在众多机器学习竞赛中集成学习模型 融合也是提高指标的重要手段.目前的集成方法虽 然能提供良好的分类性能但同样重要的模型可解 释性却都有所欠缺.而在上述提到的众多应用中尤 其是与安全和风险有关的应用模型的可解释性往 往是更重要的需求.因此本文从心理学中的知识线 记忆理论出发设计了一个具有良好可解释性的启 发式分类器集成算法.

2.2 知识线记忆理论

知识是如何表述存储提取使用的?心理学 中的知识线记忆理论尝试回答了这个问题.每当你

有一个好主意解决了一个问题时你就会创建知 识线来记忆它.知识线会与被激活的思维智能体相 联结之后当你再次激活此知识线时与这个知识线 联结的智能体就会被激活使得你进入之前解决问 题时相似的思维状态.这就让你在解决新的相 似的问题时感到容易一些.这就是知识线的基本 理论.

此处引用心智社会中提到的一个例子

你想要维修一辆自行车在你开始之前先将红色油 漆抹在手上.这样你所用过的所有工具都会有红色 的记号.当你修好之后只要记住红色标记表示有 助于修车下次你再修自行车的时候就可以节约时 间只需要把涂了红色标记的工具拿出来就可以了. 这里的红色就是知识线工具就是思维智能体.如果 你用不同的颜色标记不同的工作有些工具最后可 能会有不止一种颜色.每个智能体可以和多个知识 线相联结.当问题来临只要激活问题相关的知识线 即可.

知识线理论阐述了人类构建记忆和使用记忆的 过程是心理学中对人类行为的一种基于经验的解 释是目前比较被认同的一种猜想.本文算法受到此 理论的启发对其计算框架进行数学建模将知识线 抽象成线性算子构造出新的多模型集成算法.正如 知识线记忆理论可以对人类行为进行解释类知识 线的构造也赋予了本文算法较好的可解释性.

3   知识线集成算法

本节将详细介绍本文提出的知识线集成算法 首先3.1节用矩阵建模了知识线集成算法并给出计 算框架3.2节针对知识线理论中未知的复杂函数 给出了知识线集成算法中的定义3.3节3.4节中 具体说明了知识线训练与推断的过程并给出了算 法流程以及相关的描述与分析.最后3.5节中对算 法的可解释性进行了说明.

3.1 一般投票与知识线集成计算框架

给定狏个独立的ω类分类器算子构成向量 犆=…,对于给定数据特征狓有

狓 烄 烆

ω ω

 

烌 烎

ω

其中犼=犮犼∈表示第犻类分类器结果是 否为犼且有

犼犮=1则分类器结果狔…,

ω

=argmax犮狕=1…,ω 按照少数服从多数的一般投票方式对每个 分类器的结果进行公平的计数最终票数最多的类 别作为最终的结果

狔=argmax犻

=1犐=狕狕=1…,ω

3期 于思皓等基于知识线记忆的多分类器集成算法

《 计

算 机

学 报

(5)

其中·为示性函数当自变量逻辑为真时结果 为1假时为0.在式若第犻个分类器结果狔 等于狕则结果为1否则为0.

以上是Bagging中采用的做法.根据Bagging 方法的结论当每个分类器的结果错误率低于随机 分类错误率时Bagging得到结果的错误率低于单一 分类器的错误率均值且在狀趋于无穷时Bagging结 果的错误率趋于理论最小错误率.

从统计学的角度来看上述方法有很好的理论 保证后续的众多研究也都是在其基础上改进的但 是这些方法都只注重最终结果的正确率却忽视了 算法的可解释性.

根据心理学中的记忆理论人脑会根据需要 唤醒一部分智能体进行决策而具体应该唤醒哪些 智能体由人脑之前的记忆决定.而本文受到此理论 的启发将多分类集成的过程嵌入到知识线记忆理 论的框架下得到知识线集成算法计算框架如图3 所示.

图3 知识线集成算法计算框架

计算层中的分类器算子犮扮演着知识线记忆理 论中的计算单元它可以提供最基础的决策.知识层 中的犽代表知识线理论中的知识线它与计算层中 的计算单元相联结若当前存在μ个知识线则它的 形式为

犓= 犽 烄 烆

烌 烎

μ

  犽μ1犽μ2 犽μ

烄 烆

烌 烎

其中犼∈表示第犻个知识线是否激活第犼个 分类器若犽犼=1则表示激活.

当接收到数据特征狓时根据知识线理论中的 表述只有与问题相关的知识线应该被激活.因此激 活层犃的目标是对知识线进行激活.它的形式表达 如下

犃= 犪 烄 烆

烌 烎

μ T

犻=1…,μ 若犪=1则表示第犻个知识线犽被激活.最终 不同分类结果的分值犛=…,ω=犃犓

犛= 犪 烄 烆

烌 烎

μ

T犽

  犽μ1犽μ犽μ

烄 烆

烌 烎

狓 烄 烆

其中为犓每行经过标准化后的结果且有犽犼= 犽

犼犽.最终分类结果为

狔=argmax犛狕=1…,ω 从式可以看出知识线集成算法本质上是一 种加权集成的做法但与传统加权集成算法不同的 是本算法中的权重矩阵犓是通过模拟知识线记忆 理论中记忆更新迭代的方法得到的这使得它可以 进行更丰富的可解释性方面的分析.具体将在后文 进行讨论.

3.2 知识线的计算

知识线集成算法的计算框架已经在3.1节中详 细说明但是如何计算知识线矩阵犓中的元素犽以 及激活向量犃中的元素犪还未定义.实际上知识线 理论对于知识线的激活以及计算单元的激活问题也 只给出了逻辑表述而缺乏具体算法本文本着计算 简单有效且符合知识线理论中相关表述的原则对 知识线这部分的具体内容与计算方法进行了设计. 3.2.1 计算层激活

计算层中计算单元的激活由与其联结的知识 线控制若第犻个知识线与第犼个分类器联结则有 犽犼=1否则犽犼=0.根据记忆理论当遇到无法解决 的问题时大脑不断尝试激活不同的计算单元子集 直到找到解决该问题的子集后使用一个智能体与 本次激活的计算单元相联结从而构建一个知识线. 即找到一个集合犆′!…,使得以下条件 成立

=argmax犮

∈犆′犐狕=argax犮)( 其中狕′=1…,ω为正确的类别.因为所有 分类器的集合较大且随机采样得到的犆′不能保证 结果正确性所以此处令犆′=犆且对于犮∈犆=argmax犮.这样即可保证结果的正确性

计  算  机  学  报

《 计

算 机

学 报

(6)

而避免低效的重复采样. 3.2.2 知识层激活

当使用知识线集成算法进行推断时激活层将 选取部分知识层中的知识线进行激活即计算犪.根 据知识线理论的描述知识线是根据某个特定问题 产生的之后若遇到类似问题此知识线将被激活. 在本文算法中当知识线犽为了记忆样本狓而 产生时此样本的类别狔也同时被记忆.当对新的 样本狓′进行推断时有

=犐=argmax狓′) ( 其中·为示性函数当自变量逻辑为真时结果 为1假时为0.在式若知识线犽判定狓′与狓

有相同的标签则被激活.知识线犽所联结的分类器 构成了类别狔的印象若在同样的映射下狓′得到 相同的结果说明狓′与狓具有相似性.因此 的是符合知识线激活描述的一种激活方法.

3.3 记忆的产生

知识线集成算法主要包含三部分激活矩阵犃 知识线矩阵犓分类算子向量犆其中犆如式的 形式是提前训练完成的犃是基于犓得到的而犓 中参数需要通过学习获得.记忆的产生即知识线的 更新也就是犓的训练其具体算法如下

算法1. 知识线矩阵参数学习.

输入分类算子向量数据集D 输出知识线矩阵

.初始化…, aD

.  . 

.  …, .  

.   .   

Δ .   …,…,    …,…,   

 

训练伊始模型不存在记忆此时犓中不包含 有效信息当遇到问题时若此时依靠知识线无法推 断出正确答案则需要参考正确答案.算法1第5行 中的犐·为示性函数→狔=1则表示第犻 个分类器结果正确.这样得到的犽′即可满足式

的要求.将犽′添加到犓的最后一行并记录知识线犽′ 所对应的类型狔即完成了一次知识线的更新.经过 一段时间的迭代后知识线矩阵中已经储存了一定 信息此时若推断错误有两个原因其一现有知识 线尚未覆盖当前问题所以依旧需要执行上述更新 记忆的操作其二现有知识线中存在精准率较低的 特例知识线它严重影响了整体集成的效果这个问 题则需要通过遗忘来解决.

在遗忘过程中模型会按照给定概率狆删除一 条知识线如下

犽′=argmin

犽∈犓Δ

犻=1犐=狔=狔

犻=1犐=狔 10 其中犖为样本总数·为示性函数Δ表示被错 误激活的知识线集合即集合内元素被激活但所对应 的类别是错误的表示知识线犽对应的标签 表示知识线犽对第犻个数据判断的结果表示第犻 个数据的真实标签.式10可以更直观的表述为

犽′=argmin

犽∈犓Δ犘狉犲犮犻狊犻狅狀 11 即在犯错的知识线中找到精准率最低的知识线进行 删除.不妨设犽′在知识线矩阵犓的第犻行.所以经过 遗忘之后的知识线矩阵为

犓=…,…,犽|犓| 12 由于激活操作的存在本算法实际上使用了二 分类器集合来判断样本是否属于某特定类别并通 过投票解决多分类问题因此当解决ω分类问题 时目标函数可设置为最大化犚

犚=犻

ω=1狆狉犲犮犻狊犻狅狀+狉犲犮犪犾犾 13 对于类别为犼的单个知识线它只对所属类别 的精准率即狆狉犲犮犻狊犻狅狀犼以及其他类别的召回率即 狉犲犮犪犾犾起作用.此知识线精准率越高则本身所属 类别精准率越高且对其他类别的召回率负面影响 越小.特别地当精准率为100%时此知识线仅对 自身类别样本的推断提供正确信息且完全不影响其 他类别.单个知识线的高召回率可以有效减少知识 线的必要数量但并不是单个知识线的必要目标.精 准率是单个知识线唯一需要考虑的目标且精准率 越高效果越好所以在遗忘知识线时采用贪心算法 留下精准率更高的知识线.在保证高精准率的情况 下增加知识线的过程则可近似成用贪心法解决集 合覆盖问题的过程.无法正确推断的样本相当于未

3期 于思皓等基于知识线记忆的多分类器集成算法

《 计

算 机

学 报

參考文獻

相關文件

預算科目部分,總預算、特別預算及政事型特種基金填至業務(工作)計畫;業權型基金填至損益表(收支餘絀表)3級科目(xx成本或xx費用);財團法人填至收

武術的基本特徵包括踢、打、摔、拿、擊、刺等技 擊動作,不僅有變化多端的 徒手技法 ,還有多種令 人嘆為觀止的

基於「就業服務法」第 16

基於「就業服務法」第 16

基於「就業服務法」第 16

基於「就業服務法」第 16

Ø 该类抑制剂与 COX-2 的共晶结构表明,甲磺酰基或氨磺 酰基可作用于 COX-2 通道上由缬氨酸

MASS::lda(Y~.,data) Linear discriminant analysis MASS::qda(Y~.,data) Quadratic Discriminant Analysis class::knn(X,X,Y,k,prob) k-Nearest Neighbour(X 為變數資料;Y 為分類)