基于知识线记忆的多分类器集成算法

(1)

书书书

第４４卷　第３期

２０２１年３月计　　算　　机　　学　　报

ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ ^Ｖ^ｏ^ｌ^．^４^Ｍ^４Ｎ^ａ^ｒ^．^２^ｏ^０^．^２^３^１

收稿日期：２０１９１０１０^；在线发布日期：２０２００９１５．本课题得到国家自然科学基金项目（６１７２２２１１^，６１８７２３３８^，６１９０２３８１^）^、北京智源人工智能研究院（ＢＡＡＩ２０１９ＺＤ０３０６^）^、中国科学院青年创新促进会（２０１４４３１０^）^、国家重点研发计划（２０１６ＱＹ０２Ｄ０４０５^）^、联想中科院联合实验室青年科学家项目、王宽诚教育基金会、重庆市基础科学与前沿技术研究专项项目（重点）（ｃｓｔｃ２０１７ｊｃｊｙＢＸ００５９^）和泰山学者工程专项经费

（ｔｓ２０１５１１０８２^）资助．^于思皓，博士研究生，主要研究方向为强化学习、集成学习、自适应网络．Ｅｍａｉｌ^：ｙｕｓｉｈａｏ＠ｉｃｔ．ａｃ．ｃｎ．^郭嘉丰，博士，研究员，中国计算机学会（ＣＣＦ^）会员，主要研究领域为信息检索、数据挖掘．范意兴，博士，助理研究员，主要研究方向为信息检索、自然语言处理．兰艳艳，博士，研究员，中国计算机学会（ＣＣＦ^）会员，主要研究领域为机器学习、排序学习、信息检索．程学旗，博士，研究员，中国计算机学会（ＣＣＦ^）会员，主要研究领域为网络科学、网络与信息安全、互联网搜索与数据挖掘．

基于知识线记忆的多分类器集成算法

于思皓

^１^）^，^２^）

　 ^郭嘉丰

^１^）^，^２^）

　 ^范意兴

^１^）

　 ^兰艳艳

^１^）^，^２^）

　 ^程学旗

^３^）

１^）（中国科学院计算技术研究所网络数据科学与技术重点实验室　北京　１００１９０^）

２）（中国科学院大学　北京　１００１９０^）

３^）（烟台中科网络技术研究所　山东烟台　２６４００５^）

摘　^要　多分类器系统作为混合智能系统的分支^，集成了具有多样性的分类器集合，使整体得到更优的分类性能．

结果融合是该领域中的一个重要问题，在相同分类器成员下，好的融合策略可以有效提升系统整体的分类正确率．

随着模型安全性得到重视，传统融合策略可解释性差的问题凸显．本文基于心理学中的知识线记忆理论进行建模，参考人类决策过程，提出了一种拥有较好可解释性的启发式多分类器集成算法，称为知识线集成算法．该算法模拟人类学习与推断的行为，组织多分类器结果的融合．在训练中，模型收集给定分类器集合的不同子集，构建不同特征空间到解空间的映射，构成知识线．在推断时，模型启发式地激活知识线，进行选择性结果集成，得到推断结果．

知识线集成使用样本驱动的模式，易于进行中间过程与最终结果的分析．以决策树作为分类器的实验表明，在相同的决策树集合下，知识线集成算法分类正确率与随机森林相仿．在此基础之上，知识线集成算法可量化问题不同粒度下的难易程度，且在推断时能提供相关训练样本作为依据．

关键词　多分类器^；知识线记忆理论；启发式；样本驱动；可解释性中图法分类号ＴＰ３９３　　　犇犗犐号１０．１１８９７^／ＳＰ．Ｊ．１０１６．２０２１．００４６２

犕狌犾狋犻犆犾犪狊狊犻犳犻犲狉犈狀狊犲犿犫犾犲犃犾犵狅狉犻狋犺犿犅犪狊犲犱狅狀犓狀狅狑犾犲犱犵犲  犔犻狀犲犕犲犿狅狉狔

ＹＵＳｉＨａｏ^１^）^，^２^）　ＧＵＯＪｉａＦｅｎｇ^１^）^，^２^）　ＦＡＮＹｉＸｉｎｇ^１^）　ＬＡＮＹａｎＹａｎ^１^）^，^２^）　ＣＨＥＮＧＸｕｅＱｉ^３^）

１）（犓犲狔犔犪犫狅犳犖犲狋狑狅狉犽犇犪狋犪犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅犵狔^，犐狀狊狋犻狋狌狋犲狅犳犆狅犿狆狌狋犻狀犵犜犲犮犺狀狅犾狅犵狔^，犆犺犻狀犲狊犲犃犮犪犱犲犿狔狅犳犛犮犻犲狀犮犲狊^，犅犲犻犼犻狀犵　１００１９０^）

２^）（犝狀犻狏犲狉狊犻狋狔狅犳犆犺犻狀犲狊犲犃犮犪犱犲犿狔狅犳犛犮犻犲狀犮犲狊^，犅犲犻犼犻狀犵　１００１９０^）

３）（犐狀狊狋犻狋狌狋犲狅犳犖犲狋狑狅狉犽犜犲犮犺狀狅犾狅犵狔犐犆犜^（犢犃犖犜犃犐^）犆犃犛^，犢犪狀狋犪犻^，犛犺犪狀犱狅狀犵　２６４００５^）

犃犫狊狋狉犪犮狋　ＭｕｌｔｉｃｌａｓｓｉｆｉｅｒＳｙｓｔｅｍ^，ａｂｒａｎｃｈｔｅｃｈｎｏｌｏｇｙｏｆＨｙｂｒｉｄＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍ^，ｉｎｔｅｇｒａｔｅｓｍａｎｙｃｌａｓｓｉｆｉｅｒｓｔｏａｐｐｒｏａｃｈｈｉｇｈｅｒａｃｃｕｒａｃｙ．Ｂｅｃａｕｓｅｏｆｔｈｅｌｉｍｉｔａｔｉｏｎｏｆｃｏｍｐｕｔｉｎｇｒｅｓｏｕｒｃｅａｎｄｔｈｅｑｕａｌｉｔｙｏｆｃｌａｓｓｉｆｉｅｒｓ^，ｃｌａｓｓｉｆｉｅｒｓｆｕｓｉｏｎｉｓａｎｉｍｐｏｒｔａｎｔｐｒｏｂｌｅｍｉｎＭｕｌｔｉｃｌａｓｓｉｆｉｅｒＳｙｓｔｅｍ．

ＢｅｔｔｅｒｆｕｓｉｏｎｓｔｒａｔｅｇｙｃａｎｒｅａｃｈｈｉｇｈｅｒｐｅｒｆｏｒｍａｎｃｅｏｆｗｈｏｌｅＭｕｌｔｉｃｌａｓｓｉｆｉｅｒＳｙｓｔｅｍｕｎｄｅｒｔｈｅｓａｍｅｗｅｌｌｔｒａｉｎｅｄｃｌａｓｓｉｆｉｅｒｍｅｍｂｅｒｓ．Ｔｈｅｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｈａｄｔｒｉｅｄｍａｎｙｆｕｓｉｏｎｓｔｒａｔｅｇｉｅｓｓｕｃｈａｓｎｏｒｍａｌｖｏｔｉｎｇ^，ｗｅｉｇｈｔｅｄｖｏｔｉｎｇａｎｄｆｕｓｉｏｎｆｕｎｃｔｉｏｎ．Ａｓｔｈｅｍｏｄｅｌｓｄｅｖｅｌｏｐｅｄ^，ｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｗｅｎｔｈｉｇｈｅｒ．Ｂｕｔｔｈｅｓｅｍｏｄｅｌｓｏｎｌｙｐａｉｄａｔｔｅｎｔｉｏｎｔｏｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙａｎｄｐａｉｄｌｉｔｔｌｅａｔｔｅｎｔｉｏｎｔｏｉｎｔｅｒｐｒｅｔａｂｉｌｉｔｙｗｈｉｃｈｉｓａｎｉｎｅｖｉｔａｂｌｅｐｒｏｂｌｅｍｗｈｅｎｓａｆｅｔｙｏｆｍｏｄｅｌｗａｓｃｏｎｃｅｒｎｅｄ．Ｔｈｉｓｐａｐｅｒｔａｋｅｓａｖｉｅｗｏｆｈｕｍａｎｄｅｃｉｓｉｏｎｍａｋｉｎｇａｎｄｐｒｅｓｅｎｔｓａｎｅｗｍｕｌｔｉ ｃｌａｓｓｉｆｉｅｒｅｎｓｅｍｂｌｅａｌｇｏｒｉｔｈｍｎａｍｅｄｋｎｏｗｌｅｄｇｅｌｉｎｅｅｎｓｅｍｂｌｅｗｈｉｃｈｂａｓｅｄｏｎｋｎｏｗｌｅｄｇｅｌｉｎｅｍｅｍｏｒｙｔｈｅｏｒｙｄｅｓｃｒｉｂｉｎｇｔｈｅｐｒｏｃｅｓｓｏｆｈｕｍａｎｄｅｃｉｓｉｏｎｍａｋｉｎｇｗｉｔｈｍｅｍｏｒｙ．Ｉｎｏｒｄｅｒｔｏｇｅｔｔｈｅ

《计

算机

学报

》

(2)

ｉｎｔｅｒｐｒｅｔａｂｉｌｉｔｙｌｉｋｅｈｕｍａｎｄｅｃｉｓｉｏｎｍａｋｉｎｇ^，ｋｎｏｗｌｅｄｇｅｌｉｎｅｅｎｓｅｍｂｌｅａｌｇｏｒｉｔｈｍｉｍｉｔａｔｅｓｔｈｅｌｅａｒｎｉｎｇａｎｄｉｎｆｅｒｅｎｃｅｐｒｏｃｅｓｓｅｓｏｆｈｕｍａｎａｃｃｏｒｄｉｎｇｔｏｔｈｅｐｓｙｃｈｏｌｏｇｉｃａｌｔｈｅｏｒｙｄｅｓｃｒｉｐｔｉｏｎ．Ｉｎｔｒａｉｎｉｎｇ^，ｔｈｅｍｏｄｅｌｔｒｉｅｓｔｏｃｒｅａｔｅｍｅｍｏｒｙｃａｌｌｅｄｋｎｏｗｌｅｄｇｅｌｉｎｅｌｉｋｅｈｕｍａｎｔｏｓｔｏｒｅｍｅｍｏｒｙａｂｏｕｔｓｏｌｖｉｎｇｄｉｆｆｅｒｅｎｔｐｒｏｂｌｅｍｓａｎｄｆｏｒｇｅｔｍｅｍｏｒｙｌｉｋｅｈｕｍａｎｉｎｏｒｄｅｒｔｏａｖｏｉｄｓｉｎｋｉｎｇｉｎｔｏｓｐｅｃｉａｌｂａｄｃａｓｅｓ．Ｋｎｏｗｌｅｄｇｅｌｉｎｅａｎｄｔｒａｉｎｉｎｇｓａｍｐｌｅａｒｅｏｎｅｔｏｏｎｅｃｏｒｒｅｓｐｏｎｄｅｎｃｅ．Ｋｎｏｗｌｅｄｇｅｌｉｎｅｉｓａｓｕｂｓｅｔｏｆｇｉｖｅｎｗｅｌｌｔｒａｉｎｅｄｃｌａｓｓｉｆｉｅｒｓｗｈｉｃｈｃａｎｒｅｓｕｌｔｉｎｒｉｇｈｔｃｌａｓｓｉｆｉｃａｔｉｏｎｏｎｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｓａｍｐｌｅ．Ｄｉｆｆｅｒｅｎｔｓａｍｐｌｅｓｒｅｓｕｌｔｉｎｃｒｅａｔｉｎｇｄｉｆｆｅｒｅｎｔｋｎｏｗｌｅｄｇｅｌｉｎｅｓ^，ｓｏａｆｔｅｒｔｒａｉｎｉｎｇ^，ｔｈｅｍｏｄｅｌｓｔｏｒｅｓｖａｒｉｅｄｋｎｏｗｌｅｄｇｅｌｉｎｅｓ．Ｔｈｅｓｅｋｎｏｗｌｅｄｇｅｌｉｎｅｓｃｒｅａｔｅａｓｅｔｏｆｍａｐｐｉｎｇｓｗｈｉｃｈａｒｅｕｓｅｄｔｏｍａｐｆｅａｔｕｒｅｓｐａｃｅｔｏａｎｓｗｅｒｓｐａｃｅ．Ｉｎｉｎｆｅｒｅｎｃｅ^，ｔｈｅｍｏｄｅｌｃｈｏｏｓｅｓａｓｕｂｓｅｔｏｆｅｘｉｓｔｉｎｇｋｎｏｗｌｅｄｇｅｌｉｎｅｓｔｏａｃｔｉｖａｔｅｄｅｐｅｎｄｉｎｇｏｎｈｅｕｒｉｓｔｉｃｓｒｕｌｅｓ．Ｔｈｅｓｅａｃｔｉｖｅｋｎｏｗｌｅｄｇｅｌｉｎｅｓｗｉｌｌｗｏｒｋ^，ａｎｄｖｏｔｅｔｏｇｅｔａｒｅｓｕｌｔ．Ｋｎｏｗｌｅｄｇｅｌｉｎｅｅｎｓｅｍｂｌｅａｌｇｏｒｉｔｈｍｉｓａｋｉｎｄｏｆｓａｍｐｌｅｄｒｉｖｅｎｍｅｔｈｏｄ^，ｗｈｅｎｉｎｆｅｒｒｉｎｇａｎｅｗｃａｓｅ^，ｏｎｌｙｔｈｅｋｎｏｗｌｅｄｇｅｌｉｎｅｓｂｏｒｎｗｉｔｈｆａｍｉｌｉａｒｓａｍｐｌｅｓｗｉｌｌｂｅａｃｔｉｖａｔｅｄ．Ｉｔｓｅｅｍｓｔｈａｔｈｕｍａｎｂｅｉｎｇｓｔｈｉｎｋｏｆｓｏｌｕｔｉｏｎｉｎｍｅｍｏｒｙｗｈｅｎｓｕｆｆｅｒｉｎｇｆｒｏｍｔｒｏｕｂｌｅｓ．Ｓｏｋｎｏｗｌｅｄｇｅｌｉｎｅｅｎｓｅｍｂｌｅａｌｇｏｒｉｔｈｍｉｓｕｓｉｎｇｓａｍｐｌｅｄｄａｔａｔｏｍａｋｅｄｅｃｉｓｉｏｎｓ．Ｓｐｅｃｉａｌｌｙ^，ｂｅｃａｕｓｅｔｈｅｐｒｏｃｅｓｓｔｈａｔｔｈｅｋｎｏｗｌｅｄｇｅｌｉｎｅｍｅｍｏｒｙｔｈｅｏｒｙｕｓｅｓｃｏｍｐｕｔｉｎｇｕｎｉｔｓｔｏｃｏｎｓｔｒｕｃｔｋｎｏｗｌｅｄｇｅｌｉｎｅｓｉｓｓｉｍｉｌａｒｔｏａｄｄｉｎｇｅｌｅｍｅｎｔｓｔｏｓｅｔｓ^，ｉｎｏｒｄｅｒｔｏｄｅｓｃｒｉｂｅｔｈｅｃａｌｃｕｌａｔｉｏｎｐｒｏｃｅｓｓｏｆｔｈｅａｌｇｏｒｉｔｈｍｂｅｔｔｅｒ^，ｔｈｉｓｐａｐｅｒｕｓｅｓｍａｔｒｉｃｅｓｔｏｍｏｄｅｌｔｈｉｓｐｒｏｃｅｓｓ．Ｔｈｅｃｏｎｎｅｃｔｉｏｎｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅｋｎｏｗｌｅｄｇｅｌｉｎｅｓａｎｄｔｈｅｃｏｍｐｕｔｉｎｇｕｎｉｔｓｃａｎｂｅｒｅｐｒｅｓｅｎｔｅｄｂｙａｎａｄｊａｃｅｎｃｙｍａｔｒｉｘ^，ｔｈｅｒｅｓｕｌｔｓｏｆｄｉｆｆｅｒｅｎｔｃｌａｓｓｉｆｉｅｒｓｃａｎｂｅｓｔｏｒｅｄｂｙａｃｌａｓｓｉｆｉｃａｔｉｏｎｍａｔｒｉｘ^，ａｎｄｔｈｅａｃｔｉｖａｔｉｏｎｏｆｔｈｅｋｎｏｗｌｅｄｇｅｌｉｎｅｓｃａｎｂｅｃｏｍｐｌｅｔｅｄｉｎｔｈｅｆｏｒｍｏｆｔｈｅｉｎｎｅｒｐｒｏｄｕｃｔｏｆｔｈｅｒｅｓｕｌｔｓｏｆａｌｌｋｎｏｗｌｅｄｇｅｌｉｎｅｓａｎｄｔｈｅａｃｔｉｖａｔｉｏｎｖｅｃｔｏｒｓ．Ｓｏｔｈｅｆｉｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｃａｎｂｅｅｘｐｒｅｓｓｅｄｉｎｔｈｅｆｏｒｍｏｆｍａｔｒｉｘｍｕｌｔｉｐｌｉｃａｔｉｏｎ．Ｏｎｔｈｉｓｂａｓｉｓ^，ｔｈｅｇｏａｌａｎｄｃｏｎｖｅｒｇｅｎｃｅｏｆｔｈｅａｌｇｏｒｉｔｈｍａｒｅｅｘｐｌａｉｎｅｄ．Ｉｎｔｈｅｅｘｐｅｒｉｍｅｎｔｓ^，ｔｈｉｓｐａｐｅｒｕｓｅｄｄｅｃｉｓｉｏｎｔｒｅｅｓａｓｔｈｅｇｉｖｅｎｃｌａｓｓｉｆｉｅｒｓ．

Ｕｎｄｅｒｔｈｅｓａｍｅｇｉｖｅｎｃｌａｓｓｉｆｉｅｒｓ^，ｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｅｄｔｈａｔｋｎｏｗｌｅｄｇｅｌｉｎｅｅｎｓｅｍｂｌｅａｌｇｏｒｉｔｈｍｈａｄｃｏｍｐａｒａｂｌｅａｃｃｕｒａｃｙｗｉｔｈｒａｎｄｏｍｆｏｒｅｓｔｗｈｉｃｈｕｓｅｓｎｏｒｍａｌｖｏｔｉｎｇａｓｉｔｓｃｏｏｒｄｉｎａｔｉｎｇｓｔｒａｔｅｇｙ．

Ｍｏｒｅｉｍｐｏｒｔａｎｔｌｙ^，ｋｎｏｗｌｅｄｇｅｌｉｎｅｅｎｓｅｍｂｌｅａｌｇｏｒｉｔｈｍｃａｎｄｉｓｃｒｉｍｉｎａｔｅｔｈｅｄｉｆｆｉｃｕｌｔｙｏｆｉｎｆｅｒｅｎｃｅｃａｓｅｓａｃｃｏｒｄｉｎｇｔｏｔｈｅａｃｔｉｖｅｓｉｔｕａｔｉｏｎｏｆｋｎｏｗｌｅｄｇｅｌｉｎｅｓａｎｄｇｉｖｅｓｐｅｃｉｆｉｃｔｒａｉｎｉｎｇｃａｓｅｓｔｏｓｕｐｐｏｒｔｔｈｅｉｎｆｅｒｅｎｃｅｗｈｉｃｈｍａｋｅｓｉｔｓｒｅｓｕｌｔｓｍｏｒｅｃｏｎｖｉｎｃｅｄ．

犓犲狔狑狅狉犱狊　ｍｕｌｔｉｃｌａｓｓｉｆｉｅｒ^；ｋｎｏｗｌｅｄｇｅｌｉｎｅｍｅｍｏｒｙｔｈｅｏｒｙ^；ｈｅｕｒｉｓｔｉｃｓ^；ｓａｍｐｌｅｄｒｉｖｅｎ^；ｉｎｔｅｒｐｒｅｔａｂｉｌｉｔｙ

１　 ^引　 ^言

随着大数据时代的推进，数据所蕴含的模式多元化，机器学习算法需要解决的任务愈发困难．在多变的任务中，模型结构趋于复杂，参数量愈发庞大．但是“没有免费的午餐”原理^［^１^］是一个无法打破的枷锁，它论证了单个模型能力的局限性．若要有所突破，多个模型的合作势在必行．

正如在多个器官的共同作用下^，人类得以生存．擅长不同任务的智能体合理地组成一个系统^，就可以解决更多样化的问题．混合智能系统^［^２^］也是在这样的构想下被提出的．在机器学习任务中，分类问题与回归问题是重要的基础问题．针对分类问题^，多分

类器系统作为混合智能系统的分支在文献^［３^］中被提出．多分类器系统重点在于采用^“分而治之^”的理念．它将复杂的分类问题分解成多个简单的子问题，分别使用单模型逐个击破后，再合理地将这些模型组合以得到原问题的解决方案．

如今^，多分类器集成算法在各种任务中扮演着重要角色^，也是机器学习竞赛中提升成绩的重要手段．但是在金融、安全等任务上，仅有分类正确率是不够的，即使模型在测试集上的正确率达到１００％^，模型也依旧具有极大的可能在新的样本上给出荒谬的结果．原因是^，仅靠类似正确率的一个指标^，只能做出现实世界中大多数任务的不完整描述^［^４^］．模型做出决策的原因是不能忽略的．

现有的多分类器系统所使用的集成策略^，在推

３６３期于思皓等：基于知识线记忆的多分类器集成算法４

《计

算机

学报

》

(3)

断时无法给出做决策的具体原因^，无法像犓近邻^［^５^］、协同过滤^［^６^］等模型一样显式的给出推断时起作用的训练样本．事实上^，在心理学的研究中^，知识线记忆理论^［^７^］说明了人在决策时会激活过往数据产生的记忆^，用旧例子作为依据来推测新问题的答案．本文的贡献主要有以下几点^：

（１^）本文用矩阵对知识线记忆理论的计算框架进行了数学建模．

（２^）本文结合心理学中的知识线记忆理论提出了一种新的多分类器集成策略^，称为知识线集成算法．该算法具有良好可解释性，且分类正确率与现有集成分类算法保持在同一水平．

（３^）该算法为使用者提供了丰富^、简单的模型分析手段．可以量化类别推断难度，估计类别、样本之间产生混淆的概率．

２　 ^{背景介绍与相关工作}

本文根据心理学中的知识线记忆理论，设计了一套启发式多分类器集成算法^，本节将介绍多分类器系统的相关工作（参考文献［８９^］^）与知识线记忆理论的背景知识．

２．１　^{多分类器系统}

多分类器系统是混合智能系统中的一个重要分支^，旨在集成多个模型解决分类问题．它的拓扑结构有两种：链式结构与分布式结构．

链式结构如图１所示^，所有分类器成员有序排列，数据从前到后逐个经过每个分类器．分类器成员在训练中逐个产生^，每个新成员是在给定已有分类器与当前集成结果的条件下得到的．链式结构主要有两种运行模式．第一种为数据传递型^［^１^０^^１^６^］．前置分类器接收到数据时^，计算得到推断的结果并评估此结果的可信程度．若可信度不足，则把数据发送给后续的分类器^，直到有分类器给出可信结果．这种方式有着明显的弊端：分类器成员的数量难以控制、可信度难以评估^，被拒绝的结果对后续分类器作用有限．因此，第二种模式，合作型，也就是Ｂｏｏｓｔｉｎｇ^［^１^７^^２^０^］应运而生．每个分类器不再讨论难以评估的结果可信度^，而是直接使用监督学习的方式找出推断错误的训练样本；分类器不再逐条数据进行训练，而是面向整个数据集^，根据前置分类器的表现调整数据分布^；推断结果由所有分类器的加权和得到，而不是完全由最后的分类器决定．链式结构下^，分类器之间必然会产生较大相关性^，而本文主要研究独立的分类器

集成方法^，所以此处不再对链式结构相关方法的发展进行更深入地讨论．

图１　链式结构多分类器系统

分布式的结构如图２所示，它要求分类器成员输入的数据相同^，结果独立^，且分类器群体具有多样性．文献［２１^］从统计学出发，论证了无穷个无偏、独立分类器的结果均值与最佳贝叶斯分类器效果一致．它说明了独立的多个分类器^，使用^“少数服从多数^”的投票策略进行决策是一种多分类器结果融合的有效思路．它对分布式多分类器系统的发展有着指导意义．分布式多分类器系统的设计主要是解决两个问题^：其一^，如何得到具有多样性且独立性较高的分类器集合^；其二^，如何将多个分类器的结果融合成一个结果．

图２　分布式结构多分类器系统

针对第一个问题^，解决方案可以分为两类^，数据采样与模型多样化．数据采样包括样本的随机采样，比如Ｂａｇｇｉｎｇ^［^２^２^］^；特征的随机采样^，比如随机森林^［^２^３^］在决策树上的尝试，文献［２４^］在线性分类器上的尝试^，文献^［２５^］在最小距离分类器上的尝试^；数据特征空间分割^，比如文献^［２６^］中所提出的模型^；数据特征子集的随机投影，比如ＡｔｔｒｉｂｕｔｅＢａｇｇｉｎｇ^［^２^７^］^；数据标签的形式修改^，比如文献^［２８^］将标签改成多次一对多的二分类形式．模型多样化指模型在训练过程中^，模型受到干预导致的多样化^，比如使用不同初始化的神经网络^，部分节点随机分裂的决策树等．

针对第二个问题，主要有三种解决方案：标签融合^、函数融合和训练融合．标签融合是指多个分类器结果按照一定的规则合成一个结果．在文献［２１^］的基础上^，可以证明若每个分类器成员的正确率大于

４６

４计　　算　　机　　学　　报２０２１年

《计

算机

学报

》

(4)

随机分类的正确率^，则整体投票结果的正确率将比分类器成员正确率均值高．可见^，^“少数服从多数^”的结果投票是简单有效的方法^，除此之外^，文献^［２９^］认为不同的分类器应有不同的重要性，所以提出了带权重的投票来组合分类器结果．文献［３０３２^］利用特征信息来辅助完成结果融合．而函数融合是把每个分类器得到的分数融合成最终结果^，比如文献

［３３３５^］使用ＳｏｆｔＭａｘ函数把多个分类器的结果重构成最终结果的后验概率^，文献^［３６^］构建结果的最优投影得到统一的结果．以上方法都基于人为设定的规则，其实融合结果的函数也可以通过机器学习得到，即训练融合．它可以使用决策树^［^３^７^］、感知机^［^３^８^］、进化算法^［^３^９^］、数据包围分析^［^４^０^］学习权重；使用强化学习^［^４^１^］^、启发式搜索^［^４^２^］剪枝^；使用Ｓｔａｃｋｉｎｇ^［^４^３^］把结果作为输入再次训练^，或者将所有分类器的结果作为特征输入到一个融合分类器中进行训练^，比如神经网络^［^４^４^］^、贝叶斯分类器^［^４^５^］^，来得到一个组合多分类器结果的模型．而本文提出的方法是一种更具有可解释性的启发式剪枝方法．

多分类器系统是重要、前沿的方法，它的应用十分广泛^，比如在遥感上的土地覆盖制图^［^４^６^］^、变化检测^［^４^７^］^、计算机安全上的手机通讯^［^４^８^］^、网络安全^［^４^９^］^，银行中的欺诈检测^［^５^０^］^、经济风险评估^［^５^１^］^，医药中的蛋白质折叠检测^［^５^２^］^、神经科学^［^５^３^］以及推荐系统^［^５^４^^５^５^］等．在众多机器学习竞赛中^，集成学习^、模型融合也是提高指标的重要手段．目前的集成方法虽然能提供良好的分类性能，但同样重要的模型可解释性却都有所欠缺．而在上述提到的众多应用中，尤其是与安全和风险有关的应用^，模型的可解释性往往是更重要的需求．因此本文从心理学中的知识线记忆理论出发^，设计了一个具有良好可解释性的启发式分类器集成算法．

２．２　^{知识线记忆理论}

知识是如何表述、存储、提取、使用的？心理学中的知识线记忆理论尝试回答了这个问题．每当你

“有一个好主意^”^，解决了一个问题时^，你就会创建知识线来记忆它．知识线会与被激活的思维智能体相联结^，之后当你再次激活此知识线时^，与这个知识线联结的智能体就会被激活^，使得你进入之前解决问题时相似的“思维状态”．这就让你在解决新的、相似的问题时，感到容易一些．这就是知识线的基本理论．

此处引用^《心智社会^》^［^５^６^］中提到的一个例子^：当

你想要维修一辆自行车^，在你开始之前^，先将红色油漆抹在手上．这样你所用过的所有工具都会有红色的记号．当你修好之后^，只要记住红色标记表示^“有助于修车”，下次你再修自行车的时候就可以节约时间，只需要把涂了红色标记的工具拿出来就可以了．这里的红色就是知识线，工具就是思维智能体．如果你用不同的颜色标记不同的工作^，有些工具最后可能会有不止一种颜色．每个智能体可以和多个知识线相联结．当问题来临^，只要激活问题相关的知识线即可．

知识线理论阐述了人类构建记忆和使用记忆的过程^，是心理学中对人类行为的一种基于经验的解释，是目前比较被认同的一种猜想．本文算法受到此理论的启发^，对其计算框架进行数学建模^，将知识线抽象成线性算子，构造出新的多模型集成算法．正如知识线记忆理论可以对人类行为进行解释^，类知识线的构造也赋予了本文算法较好的可解释性．

３　 ^{知识线集成算法}

本节将详细介绍本文提出的知识线集成算法^，首先３．１节用矩阵建模了知识线集成算法并给出计算框架^；３．２节针对知识线理论中未知的复杂函数^，给出了知识线集成算法中的定义；３．３节^、３．４节中具体说明了知识线训练与推断的过程^，并给出了算法流程以及相关的描述与分析．最后３．５节中对算法的可解释性进行了说明．

３．１　一般投票与知识线集成计算框架

给定狏个独立的ω类分类器算子^，构成向量：犆＝^（犮^１^，犮^２^，^…，犮^狏^）^，对于给定数据特征狓有

犆^（狓^）＝

犮^１^（狓^）犮^２^（狓^）犮^狏^（狓烄烆

烌

）烎

＝

犮^１^１犮^１^２ ^…犮^１^ω 犮^２^１犮^２^２ ^…犮^２ω

 ^ 犮^狏^１犮^狏^２ ^…犮^狏烄

烆

烌烎

ω

（１^）其中，犮^犻犼＝犮^犻^（狓^）犼∈^｛０^，１^｝表示第犻类分类器结果是否为犼^，且有

∑

犼犮^犻^犼＝１^，则分类器结果狔^犻∈^｛１^，２^，^…，

ω^｝有

狔^犻＝ａｒｇ_狕ｍａｘ犮^犻^狕^，狕＝１^，２^，^…，ω ^（２^）按照^“少数服从多数^”的一般投票方式^，对每个分类器的结果进行公平的计数，最终票数最多的类别作为最终的结果^：

狔＝ａｒｇ_狕ｍａｘ犻

∑

^狏＝１犐^（狔^犻＝狕^）^，狕＝１^，２^，^…，ω^（３^）

５６３期于思皓等：基于知识线记忆的多分类器集成算法４

《计

算机

学报

》

(5)

其中^，犐^（^·^）为示性函数^，当自变量逻辑为真时结果为１^，假时为０．在式（３^）中，若第犻个分类器结果狔^犻等于狕^，则结果为１^，否则为０．

以上是Ｂａｇｇｉｎｇ中采用的做法．根据Ｂａｇｇｉｎｇ方法的结论^，当每个分类器的结果错误率低于随机分类错误率时^，Ｂａｇｇｉｎｇ得到结果的错误率低于单一分类器的错误率均值，且在狀趋于无穷时Ｂａｇｇｉｎｇ结果的错误率趋于理论最小错误率．

从统计学的角度来看，上述方法有很好的理论保证^，后续的众多研究也都是在其基础上改进的^，但是这些方法都只注重最终结果的正确率，却忽视了算法的可解释性．

根据心理学中的记忆理论^，人脑会根据需要^，唤醒一部分智能体进行决策，而具体应该唤醒哪些智能体^，由人脑之前的记忆决定．而本文受到此理论的启发，将多分类集成的过程嵌入到知识线记忆理论的框架下^，得到知识线集成算法计算框架如图３所示．

图３　知识线集成算法计算框架

计算层中的分类器算子犮^犻扮演着知识线记忆理论中的计算单元，它可以提供最基础的决策．知识层中的犽^犻代表知识线理论中的知识线，它与计算层中的计算单元相联结，若当前存在μ个知识线^，则它的形式为

犓＝犽^１犽^２犽 烄烆

烌烎

μ

＝

犽^１^１犽^１^２ ^…犽^１^狏犽^２^１犽^２^２ ^…犽^２^狏

 ^ 犽μ１犽μ２ …犽μ

烄烆

烌烎

狏

（４^）其中，犽^犻犼∈^｛０^，１^｝表示第犻个知识线是否激活第犼个分类器，若犽^犻犼＝１^，则表示激活．

当接收到数据特征狓时^，根据知识线理论中的表述，只有与问题相关的知识线应该被激活．因此激活层犃的目标是对知识线进行激活．它的形式表达如下：

犃＝犪^１犪^２犪 烄烆

烌烎

μ Ｔ

，犪^犻∈^｛０^，１^｝^，犻＝１^，^…，μ ^（５^）若犪^犻＝１则表示第犻个知识线犽^犻被激活．最终不同分类结果的分值犛＝^（狊^１^，狊^２^，^…，狊^ω^）＝犃犓^犆^（狓^）即

犛＝犪^１犪^２犪 烄烆

烌烎

μ

Ｔ犽^１^^１犽^１^^２ ^…犽^１^^狏犽^２^^１犽^２^^２ ^…犽^２^^狏

 ^ 犽μ^１犽μ^２ …犽μ^

烄烆

烌烎

狏

犮^１^（狓^）犮^２^（狓^）犮^狏^（狓烄烆

烌

）烎

（６^）其中，犓^为犓每行经过标准化后的结果^，且有犽^犻^犼＝犽^犻^犼

∑

犼犽^犻^犼．最终分类结果为

狔＝ａｒｇ_狕ｍａｘ犛^狕^，狕＝１^，２^，^…，ω ^（７^）从式（６^）可以看出，知识线集成算法本质上是一种加权集成的做法^，但与传统加权集成算法不同的是^，本算法中的权重矩阵犓是通过模拟知识线记忆理论中记忆更新迭代的方法得到的，这使得它可以进行更丰富的可解释性方面的分析．具体将在后文进行讨论．

３．２　^{知识线的计算}

知识线集成算法的计算框架已经在３．１节中详细说明，但是如何计算知识线矩阵犓中的元素犽^犻^犼以及激活向量犃中的元素犪^犻还未定义．实际上知识线理论对于知识线的激活以及计算单元的激活问题也只给出了逻辑表述而缺乏具体算法^，本文本着计算简单有效且符合知识线理论中相关表述的原则，对知识线这部分的具体内容与计算方法进行了设计．３．２．１　计算层激活

计算层中计算单元的激活由与其联结的知识线控制^，若第犻个知识线与第犼个分类器联结则有犽^犻犼＝１^，否则犽^犻犼＝０．根据记忆理论，当遇到无法解决的问题时^，大脑不断尝试激活不同的计算单元子集^，直到找到解决该问题的子集后，使用一个智能体与本次激活的计算单元相联结^，从而构建一个知识线．即找到一个集合犆′^!^｛犮^１^，犮^２^，^…，犮^狏^｝使得以下条件成立：

狔^＝ａｒｇ_狕ｍａｘ犮_犻

∑

∈犆′犐^（狕＝ａｒｇ_狕ｍ_′ａｘ犮^犻^（狓^）^狕^′^）（８^）其中，狕^，狕′＝１^，２^，^…，ω^，狔^为正确的类别．因为所有分类器的集合较大^，且随机采样得到的犆′不能保证结果正确性，所以此处令犆′＝犆^^，且对于犮∈犆^^，狔^＝ａｒｇｍ_狕ａｘ犮^（狓^）^狕．这样即可保证结果的正确性^，从

６６

４计　　算　　机　　学　　报２０２１年

《计

算机

学报

》

(6)

而避免低效的重复采样．３．２．２　知识层激活

当使用知识线集成算法进行推断时^，激活层将选取部分知识层中的知识线进行激活^，即计算犪^犻．根据知识线理论的描述^，知识线是根据某个特定问题产生的^，之后若遇到类似问题^，此知识线将被激活．在本文算法中^，当知识线犽^犻为了记忆样本狓^犽犻而产生时^，此样本的类别狔^犽犻也同时被记忆．当对新的样本狓′进行推断时有：

犪^犻＝犐^（狔^犽犻＝ａｒｇ_狕ｍａｘ^（犽^犻犆^（狓′^）^）^狕^{）（}９^）其中，犐^（^·^）为示性函数，当自变量逻辑为真时结果为１^，假时为０．在式（９^）中，若知识线犽^犻判定狓′与狓^犽犻

有相同的标签则被激活．知识线犽^犻所联结的分类器构成了类别狔^犽犻的印象，若在同样的映射下，狓′得到相同的结果，说明狓′与狓^犽犻具有相似性．因此，式（９^）的是符合知识线激活描述的一种激活方法．

３．３　^{记忆的产生}

知识线集成算法主要包含三部分^，激活矩阵犃^，知识线矩阵犓^，分类算子向量犆^，其中犆如式^（１^）的形式^，是提前训练完成的^；犃是基于犓得到的^，而犓中参数需要通过学习获得．记忆的产生即知识线的更新^，也就是犓的训练^，其具体算法如下^：

算法１．　知识线矩阵参数学习．

输入：分类算子向量犆^；数据集Ｄａｔａ输出：知识线矩阵犓

１．初始化犓＝^（０^，０^，^…，０^）^，狔^犓＝^（０^）２．ＦＯＲ（狓^，狔^）^ｉ^ｎ^Ｄ^ａ^ｔ^ａＤ^Ｏ

３．　狔′＝犐狀犳犲狉犲狀犮犲^（犆^，犓^，狔^犓^，狓^）４．　ＩＦ狔′≠狔ＴＨＥＮ

５．　　犽′＝^（犐^（犮^１^（狓^）→狔^）^，^…，犐^（犮^狏^（狓^）→狔^）^）^Ｔ６．　　犓＝^（犓^Ｔ｜犽′^）^Ｔ^，狔^犓＝^（狔^犓｜狔^）

７．　　ＩＦｎｅｅｄｆｏｒｇｅｔＴＨＥＮ８．　　　犽^犻＝ａｒｇｍｉｎ

犽∈犓Δ犘狉犲犮犻狊犻狅狀^（犽^）９．　　　犓＝^（犽^１^，^…，犽^犻^－^１^，犽^犻^＋^１^，^…，犽^犓ｒｏｗ）^Ｔ１０．　　　狔^犓＝^（狔^犽_１^，^…，狔^犽_犻_－_１^，狔^犽_犻_＋_１^，^…，狔^犽_犓_ｒ_ｏ_ｗ^）１１．　　ＥＮＤＩＦ

１２．　ＥＮＤＩＦ１３．ＥＮＤＦＯＲ１４．ＲＥＴＵＲＮ犓

训练伊始，模型不存在记忆，此时犓中不包含有效信息^，当遇到问题时^，若此时依靠知识线无法推断出正确答案^，则需要参考正确答案．算法１第５行中的犐^（^·^）为示性函数^，犐^（犮^犻^（狓^）→狔^）＝１则表示第犻个分类器结果正确．这样得到的犽′即可满足式^（８^）

的要求．将犽′添加到犓的最后一行并记录知识线犽′ 所对应的类型狔^，即完成了一次知识线的更新．经过一段时间的迭代后，知识线矩阵中已经储存了一定信息，此时若推断错误有两个原因：其一，现有知识线尚未覆盖当前问题^，所以依旧需要执行上述更新记忆的操作^；其二^，现有知识线中存在精准率较低的特例知识线^，它严重影响了整体集成的效果^，这个问题则需要通过遗忘来解决．

在遗忘过程中^，模型会按照给定概率狆删除一条知识线如下^：

犽′＝ａｒｇｍｉｎ

犽∈犓^Δ

∑

^犖

犻＝１犐^（狔^犻＝狔^犽^，狔^犽^，^犻＝狔^犽^）

∑

^犖

犻＝１犐^（狔^犽^，^犻＝狔^犽^） ^（１０^）其中^，犖为样本总数^，犐^（^·^）为示性函数^，犓^Δ表示被错误激活的知识线集合即集合内元素被激活但所对应的类别是错误的^，狔^犽表示知识线犽对应的标签^，狔^犽^，^犻表示知识线犽对第犻个数据判断的结果^，狔^犻表示第犻个数据的真实标签．式^（１０^）可以更直观的表述为

犽′＝ａｒｇｍｉｎ

犽∈犓^Δ犘狉犲犮犻狊犻狅狀^（犽^） ^（１１^）即在犯错的知识线中找到精准率最低的知识线进行删除．不妨设犽′在知识线矩阵犓的第犻行．所以经过遗忘之后的知识线矩阵为

犓＝^（犽^１^，^…，犽^犻^－^１^，犽^犻^＋^１^，^…，犽｜犓｜）^Ｔ（１２^）由于激活操作的存在，本算法实际上使用了二分类器集合来判断样本是否属于某特定类别，并通过投票解决多分类问题^，因此当解决ω分类问题时^，目标函数可设置为最大化犚^：

犚＝犻

∑

^ω＝１狆狉犲犮犻狊犻狅狀^犻＋狉犲犮犪犾犾^犻 ^（１３^）对于类别为犼的单个知识线^，它只对所属类别的精准率即狆狉犲犮犻狊犻狅狀^犻^＝犼以及其他类别的召回率即狉犲犮犪犾犾^犻^≠^犼起作用．此知识线精准率越高则本身所属类别精准率越高，且对其他类别的召回率负面影响越小．特别地，当精准率为１００％时^，此知识线仅对自身类别样本的推断提供正确信息且完全不影响其他类别．单个知识线的高召回率可以有效减少知识线的必要数量，但并不是单个知识线的必要目标．精准率是单个知识线唯一需要考虑的目标，且精准率越高效果越好^，所以在遗忘知识线时采用贪心算法^，留下精准率更高的知识线．在保证高精准率的情况下，增加知识线的过程则可近似成用贪心法解决集合覆盖问题的过程．无法正确推断的样本相当于未

基于知识线记忆的多分类器集成算法

基于知识线记忆的多分类器集成算法

于思皓

郭嘉丰

范意兴

兰艳艳

程学旗

犕 狌 犾 狋 犻 犆 犾 犪 狊 狊 犻 犳 犻 犲 狉 犈 狀 狊 犲 犿 犫 犾 犲 犃 犾 犵 狅 狉 犻 狋 犺 犿犅 犪 狊 犲 犱 狅 狀 犓 狀 狅 狑 犾 犲 犱 犵 犲  犔 犻 狀 犲 犕 犲 犿 狅 狉 狔

《 计

算 机

学 报

》

１ 引 言

《 计

算 机

学 报

》

２ 背景介绍与相关工作

《 计

算 机

学 报

》

３ 知识线集成算法

∑

∑

《 计

算 机

学 报

》

∑

∑

《 计

算 机

学 报

》

∑

∑

∑

《 计

算 机

学 报

》

　 ^郭嘉丰

　 ^范意兴

　 ^兰艳艳

　 ^程学旗

犕狌犾狋犻犆犾犪狊狊犻犳犻犲狉犈狀狊犲犿犫犾犲犃犾犵狅狉犻狋犺犿犅犪狊犲犱狅狀犓狀狅狑犾犲犱犵犲  犔犻狀犲犕犲犿狅狉狔

《计

算机

学报

１　 ^引　 ^言

《计

算机

学报

２　 ^{背景介绍与相关工作}

《计

算机

学报

３　 ^{知识线集成算法}

《计

算机

学报

《计

算机

学报

《计

算机

学报