九游会ag登陆|(官网)点击登录

新闻中心

News Center

【行业研讨】英国AI学者Michael Lones独家避坑指南,破解呆板学习五大圈套

泉源:2021-08-16

截屏2021-08-16 下战书3.10.36.png


【大诺择要】在创建呆板学习模子历程中,应重点留意的题目包罗1、构建模子前的预备;
2、怎样牢靠地创建模子;3、怎样公道地评价模子;4、怎样客观地比力模子;5、怎样形貌事情结论。(文章泉源:AI科技批评;https://mp.weixin.qq.com/s/HeIH1Tlyk-rMIe0x2L978g)

克日,Michael A. Lones传授在arXiv提交了一篇论文,片面叙述了呆板学习在实践使用中的罕见圈套以及对应办法,以协助呆板学习的学术小白们疾速入门。



论文地点:

https://arxiv.org/pdf/2108.02497.pdf



Michael A. Lones是爱丁堡赫瑞瓦特大学数学与盘算机迷信系副传授,次要研讨研讨涵盖优化、数据发掘、医学信息学、体系生物学和非尺度盘算等。

作为一名资深呆板学习范畴专家,Michael 更存眷学术界,而非产业界(产业界水太深,还得教会你怎样劝酒哈哈)。这篇论文的履历分享,是他在实践的呆板学习讲授和研讨中积聚的知识。差别于其他广泛的呆板学习办法,本文仅反应学术界存眷的一些重点题目,好比怎样严谨地评价和比力呆板学习模子,怎样在论文中更好的叙述本人的事情等。

为了使本文愈加生动和易读,Michael 接纳了复杂明白的“该做什么,不应做什么”的编写作风来,以免各人还得费力巴拉的“总结本段粗心、总结文章粗心”。

总体来看,本文更偏重于学术研讨配景下的罕见题目,好比学术狗们必要在论文里同时对多少种办法举行严厉的叙述和比力,并从征象中发掘出无效的结论,升华事情的深度和内涵。

详细而言,它涵盖了呆板学习的五个阶段:


  • 在创建模子之前要做什么预备?
  • 怎样牢靠地创建模子
  • 怎样准确片面而妥当地评价模子
  • 怎样客观地比力模子
  • 怎样汇总、剖析征象,构成结论并提出看法




构建模子前的预备


许多人在接到一个项目大概研讨需求的时分,会迫切火燎的写代码、训练模子、评价模子,仿佛一天就要把一切的事儿都给干完。但实在九游会应该慢上去,起首要花工夫思索这个项目标目的,剖析它的需求,而且踏下心来细细检察要输出模子的数据,想想这些数占有没有什么纪律?潜规矩?大概限定?


别的,九游会还得花点心思理解一下这个范畴的研讨停顿,其他事情曾经做过哪些实验,后果怎样。假如不做这些后期的预备,间接下去就写代码,终极很大概会失掉一些反复的结论,训练出一套无法满意预期的模子,还会失进他人曾经陷出来的坑里。如许糜费工夫不说,还无法宣布本人的论文。



1.多花工夫理解一动手中的数据
九游会做研讨的目标便是宣布论文。假如搜集的数据质量很高,噪声没有分外分明;收罗的设置装备摆设和办法也非常牢靠,那么发论文就容易多了。

举例来说,假如从网上下载的数据集,肯定确保其泉源的牢靠性;假如是一篇论文中开源的,肯定要仔细去读这篇论文,确保它不是宣布在野鸡集会/野鸡期刊上的文章,而是一些比力靠谱的泉源。

别的,九游会要反省文章中有没有提到过数据集的范围性。万万不要以为一个数据集被许多篇论文援用过,它的质量就很好。偶然候人们大概仅仅是由于这个数据集的获取本钱低,下载速率快,大概不必给作者发送讨取邮件,而去用一些质量稍差的数据。现实上,许多在学术界被普遍利用的数据集也存在很大范围性。详细的叙述可以去看[Paullada等人,2020]的讨论。

假如用质量很差的数据集训练模子,训练出的模子功能大约率也很差,九游会称其为“Garbage in Garbage out,渣滓进渣滓出”。因而,在项目开端的时分,九游会要确保数据的可用性,包管它是故意义的。对此,发起去做一些探究性的数据剖析,至于怎样发明并处置原始数据集的缺失项和数据点纷歧致的题目,可以看看[Cox2017]的事情。

万万别犯懒,在训练模子之前对数据举行处置的本钱,是整个呆板学习流程中最低的,也是最容易的。至多,九游会不必转头再跟导师大概论文评委掰扯为什么利用了质量欠好的数据集。



2.别偷看测试集的数据

察看原始数据的质量和形式是呆板学习历程的好习气,终究晓得基本才晓得怎样搭建下层修建嘛。当九游会察看数据时,很大概从中“悟到一些什么”,而且将它们酿成先验知识固化在九游会的脑海中。这些形式和知识会引导九游会举行准确的建模和数据处置。


但,在这个历程中,要留意万万不要作出一些“不行查验的假定”,这些不行查验的假定怎样被放进模子中,大概会将仅呈现在测试会合的信息偷偷泄漏给模子。在这里,“不行侧视”这一点很紧张。九游会可以依据数据做出一些假定,但这些假定应该都是从训练会合失掉的,相对不克不及从测试会合偷窥。

为了包管这一点,在最后的探究性剖析阶段,九游会应该制止对测试集举行察看和剖析,不然很大概会盲目或不盲目的做出一些假定,以一种无法测试的办法限定模子的通用性。关于这一点我在下文中也屡次提到的题目,由于一旦测试集的信息走漏到训练过程,呆板学习模子的泛化才能将会遭遇劫难性的吹。 



3.确保数据量是充足的

假如没有充足的数据,就不行能训练出一个泛化才能强的模子。从庞大且掺有噪声的数据中抽丝剥茧总结纪律可不是一件容易事儿,这项义务极具应战,这种干系在创建模子之前大概隐蔽的极深。这种联系关系的深浅完全取决于数据会合的无效信息和噪声的比例,也便是所谓的信噪比。

假如信噪比力高,也便是无效信息的比例较高的话,模子只必要较少的数据就能学到这种联系关系性;但假如数据集的信噪比很低,噪声太大,就必要用分外多的数据才干教会模子。但实践状况是,数据获取的本钱太昂贵了,九游会通常无法失掉更多的数据,这个题目广泛存在于呆板学习的各个范畴。此时便可以利用交织验证来更高效天时用有限的数据。



固然,九游会还可以利用数据加强技能(可见[Wong et al., 2016, Shorten and Khoshgoftaar, 2019])来增长数据量,这种技能关于提拔小数据集上的呆板学习功能是相称无效的,尤其是在数据集种别不屈衡时,也便是某些子类的数据量有限的状况下。种别不屈衡通常是指某些种别的样本量会比其他种别少,相干研讨可见Haixiang等人[2017]的处置办法。

假如数据量也非常有限,还要控制好呆板学习模子的庞大度,别引入太多的参数。好比像深度学习网络,许多大模子的参数目大概会悄悄松松凌驾小数据会合的样本量。总之,无论是经过哪种办理办法,最紧张的是尽早发明数据量的题目,并提出一个符合的方案缓解它。  



4.和范畴专家好好聊聊


范畴专家的履历都是非常名贵,他们可以帮九游会理解这个范畴中必要办理的题目,协助九游会选择符合的特性集以及呆板学习模子,协助九游会把模子介绍给最必要和最合适的人等等。


假如在创建模子的时,没有征求过范畴专家的意见,很大概会招致项目无法聚焦到痛点题目上,大概不克不及以最符合最精粹的姿态办理题目。一个罕见的例子便是,在伶俐安康范畴大概智能财政体系范畴,九游会必要用黑盒算法来协助大夫举行诊断大概财政决议计划,由于范畴的特别性,九游会必需要理解这些算法是怎样得出结论的,由于这干系到性命和款项。



在这两个场景中,范畴专家便是非常紧张。他们会帮九游会在项目开端之初就了解数据,指出大概具有相干性和展望性的特性。在项目完毕时,还能帮九游会在相干的范畴期刊上宣布论文,让九游会无机会打仗到研讨中的最大概的用户们。



5.仔细看看范畴的开展近况



九游会很难发明一些新研讨课题或偏向,更多的时分都是在古人挖的坑中注水(追随研讨)。以是得花工夫理解一下古人做过的研讨,学习他们的研讨方案和思绪,以及利用的办法论黑白常须要的。

学术便是一个圈,和他人在一个坑里注水再正常不外,这不是一件好事儿,由于学术的前进通常是一个个迭代的历程,每一个研讨的前进都能为先人带来许多启示和引导。固然,偶然候九游会想到一个新的idea,欣喜若狂,开端要大干一场的时分,忽然发明曾经有人做过了相似的研讨,难免懊丧扫兴,但也有大概他们的研讨没有精美绝伦[jīng měi jué lún],还留下一些其他偏向的毛病。此时,这些曾经有的研讨就能成为九游会研讨的来由和念头。

而假如九游会疏忽古人的研讨,有大概会不对许多有代价的信息。好比,有人大概曾经实验过你的想法,而且验证了这个idea不靠谱,还给出了分外详确的叙述和讨论,那实在这篇论文是为你节流了好几年的工夫,不必在此糜费工夫和精神。又大概有些事情曾经将你的想法的一局部大概所有做过了,也别悲观,你完全可以在他们的底子上持续高兴。

因而,在开端事情之前,肯定要去做一个文献的调研和汇总,最好能输入一篇综述并构成看法。假如做综述太晚,大概意味着在写论文时,要力争上游[lì zhēng shàng yóu]、诲人不倦[huì rén bú juàn]地表明为什么要用跟古人一样的办法来搭建如今这套体系,明白人家曾经做过了,还要本人重新做的缘故原由是什么。



6.想想你的模子要怎样实践跑起来


九游会为什么要创建一个呆板学习模子?这是一个魂魄诘问,它的回答会间接影响到模子开辟的历程。很多学术事情仅仅是做研讨,而不是真的要将它用于产业界实践摆设运转。这无可厚非,由于创建和剖析模子的历程自己就可以对题目提供十分有效的洞察力。

但是,关于许多学术研讨来说,他们的终极目的是发生一个可以在实际天下中摆设和运转的呆板学习模子。假如是这种状况,九游会就必要尽早去思索摆设的题目。比方,假如九游会想要将模子摆设在一个盘算和存储资源都非常有限的情况中(传感器节点大概呆板人硬件),受制于运转的平台资源,模子的庞大度大概不克不及太大。又好比,当九游会的使用场景对运转工夫有着严厉的限定,必要在几毫秒内完成数据盘算的话,选择模子和验证的历程时要重点思索这一点。

另一个思索要素是,怎样将模子和所摆设的底层软件体系无机而高效地构造起来。这个历程通常没有想象中的那么复杂(见[Sculley等人,2015])。但一些新型的办法曾经在实验办理这些难,好比ML Ops[Tamburri, 2020]。


怎样牢靠地创建模子


写代码构建呆板学习模子是呆板学习开辟历程中最让人开心的一局部。当九游会安置完复杂易用的文档和功效完全的呆板学习包(大概叫框架)后,会很容易搭建出一个模子,然后悄悄松松的将数据喂出来,看看出来的是个什么妖妖怪怪。偶然候训练出来的结果欠好,从而招致模子一片蹩脚。这种题目通常还很难定位和反推,找不到题目呈现在哪个关键。

因而,九游会必要用一种有构造、有纪律、可溯源的方法来创建模子,这既能帮九游会确定怎样准确利用原始数据,也能帮九游会理清模子构建时分的种种选择。 



1.万万别让测试集数据走漏训练历程中去


在呆板学习开辟的生命周期中,权衡模子功能是一项非常紧张的义务。对模子而言,客观正确的评价模子的泛化水平事关严重。但在实践的研讨和开辟中,一个罕见的题目是测试聚会会议走漏到模子的设置装备摆设、训练大概选择历程中。当这种状况产生的时分,测试数据集就不克不及用于客观地权衡模子的才能。这也是许多事情中的模子看似刁悍,但一旦用在真实天下中就趴窝的罕见缘故原由。有许多办法会招致测试集数据走漏,此中有一些披着一张人畜有害的面具,极具利诱性。




比方,在数据预备时期,利用整个数据集的均均值和方差对原始数据举行缩放大概归一化。但实践上九游会应该只能用训练集的均值和方差对数据举行预处置,测试会合的数据是不克不及到场均值方差的盘算的。其他罕见的信息走漏状况是在分别数据之前就举行了特性选择,以及利用相反的测试数据集来评价多个模子的通用型。



为了制止产生这些题目,九游会应该在项目伊始就分别出一个独立的数据子集,并在项目完毕的时分只用这个独立的数据子集来评价一个单一模子的通用型。更细致的讨论可以参考[Cawley and Talbot, 2010]和[Kaufman et al., 2012]的叙述。



2. 实验用一系列差别的模子


一样平常来说,没有任何的模子是“万金油”,也便是没有哪个模子能同时在速率、模子巨细、精度、准确率、召回率等方面都做到最好。肯定另有个模子能在某一方面或某几个方面凌驾它。这一点在“没有收费的午餐”定律中可以失掉很好的表现。这个定理标明,在思索一切大概的目标和优缺陷时,没有任何一种呆板学习办法可以片面优于其他办法[Wolpert, 2002]。 

因而,九游会在设计和训练呆板学习模子的时分,次要目的是去找到谁人对以后特定题目最无效最可用的呆板学习模子。这个历程中大概会有一些先验的知识可以提供引导,但大少数状况下都只能在暗中中探索。侥幸的是,九游会如今曾经有了许多初级言语的东西包。




好比Python(Scikit-learn[Varoquaux等人,2015])、R言语(如caret[Kuhn,2015])、Julia(如MLJ[Blaom等人,2020])等,它们可以很轻松的对模子举行参数的搜刮、超参的调解和比力,从而低本钱地天生多个模子。



以是何乐而不为呢?多实验一些模子,找出哪个最无效。在“没有收费的午餐”定律中,紧张的是怎样制止“NIH综合症(not invented here syndrome)”,它是指人们不肯意利用、购置大概承受某种产品、研讨效果大概知识,不是出于技能大概执法等要素,而只是由于它源自其他地方,可以了解成一种狂妄和成见。放在本人的体系中,便是制止由于自卑和狂妄,招致疏忽那些不是本人所提的改良点上带来的改良。这大概会招致九游会疏忽对某个特定题目的最佳模子。



3.别用分歧适的模子


由于获取一些呆板学习东西过于利便了,九游会在做一些实行大概构建模子的本钱分外的低,而疏忽了模子面前的盘算机制和使用配景能否符合。因而,九游会很大概会将一些分歧适的模子使用到数据集上。好比将本具有种别性子的标签(好比1代表男,2代表女)看成具无数值寄义的标签(好比1代表1米,2代表2米)给到模子中,大概错将工夫序列数据输出到差别时候输出上没有依赖干系的模子当中。这一点在写论文的时分应该尤其留意,由于选择了不适当的模子会让评委觉得很不专业,在实际上也很难讲通。 

别的,九游会应该制止利用一些不用要的庞大模子。假如数占有限,同时商业也没有分外的贫苦,其相干干系也很好了解和表达,可以选择不利用深度学习。最初,别用“这个模子布局是新的”作为选择的来由,由于老的、成熟的模子长期弥坚,它们履历了风雨洗礼,其鲁棒性和可用性通常要比新模子更靠谱。 


4. 肯定要优化模子的超参数


超参数指影响的是模子设置装备摆设的预设参数。很多模子都有超参数,好比支持向量机中的核函数、随机丛林中的树,以及神经网络的架构。大局部超参数都市明显影响模子功能,而且没有“一刀切”的办理办法。也便是说,它们必要合适的特定命据集,以最大限制天时用模子。 

随机搜刮和网格搜刮是现在常用的超参数优化战略,这两种战略固然编写复杂,但很难扩展到少量超参数或训练本钱很高的模子中。因而,九游会还必要探究更智能的搜刮最佳设置装备摆设的东西,相干研讨可参考[Yang and Shami,2020]。别的,除了数据发掘管道的其他局部外,九游会还可以利用AutoML技能优化模子及其超参数的选择,相干综述可拜见[He,2021]等人的事情。



5. 优化超参数和特性选择时要警惕 


2018年Cai等人的观察曾经发明,特性选择是模子训练的一个罕见阶段。一样平常而言,实行超参数优化和特性选择的要害,在于要将其视为模子训练的一局部,而不是在模子训练之前对其举行操纵。但现实上,九游会常常便是在模子训练开端之前对整个数据集举行特性选择,而这将会招致测试集的信息提早走漏给训练历程。

抱负状况下,假如要优化模子利用的超参数或特性,应利用与训练模子完全相反的数据。完成这一点的常用技能是嵌套交织验证(也称为双交织验证),它触及到在主交织验证循环内作为分外循环举行超参数优化和特性选择。相干研讨可拜见[Cawley and Talbot,2010]。



怎样公道地评价模子


为了推进研讨范畴的前进,大概推导出牢靠的结论,许多研讨员大概会对ML模子做出不公正的评价,如许做无疑会使学术前进变得“污浊”。因而,九游会应该细心思索怎样在实行中利用数据,怎样丈量模子的真实功能,以及怎样以故意义且信息丰厚的方法陈诉模子的真实功能。

1. 务必利用得当的测试集


九游会通常利用测试集来丈量ML模子的泛化性。由于即使一个庞大的模子可以完全学习训练数据,也纷歧定能捕捉任何可泛化的知识。因而,测试模子在训练集上的体现怎样简直毫偶然义。确保测试数据集的公道性十分紧张,这要求它应该掩盖更普遍的目的人群,且不克不及与训练数据集重合。

举个例子,假如训练集和测试会合同时有一张气候明朗的图片,这种相反气候条件的数据,意味着测试集不是独立的,而且因没有捕捉更普遍的气候条件,而不具有代表性。当九游会利用单个设置装备摆设搜集训练和测试数据时,常常会呈现相似的状况。即便模子过分学习了一个设置装备摆设的特征,很大概也不会泛化到其他设置装备摆设上,而且在测试集上举行评价时也无法检测到。


2. 务必利用验证集

一连训练多个模子并不稀有,研讨职员常常利用取得的模子功能知识来引导下一个模子的设置装备摆设。在实行这项操纵时,留意肯定不要利用测试数据集,而要利用独自的验证数据集。验证集包括的样本,并不间接用于训练,而是用于引导训练。假如接纳测试集来权衡模子功能,它将成为训练历程的一个隐式局部,而且不克不及作为模子通用性的独立器量——模子将渐渐过分拟合测试集(见[Cawley and Talbot,2010])。

别的,创立一个独立验证集的利益是可以随时中止训练。在训练单个模子的时,利用验证集丈量模子的每次迭代历程,假如验证分数开端降落,标明模子开端过分拟合训练数据,九游会可以实时中止训练。


3. 重复评价模子

很多ML模子是不波动的。假如对模子举行屡次训练,大概对训练数据举行巨大变动,很大概招致模子功能的明显变革。因而,对模子的单一评价是不行靠的,大概会低估或高估模子的真实功能。罕见的办理思绪是,利用差别训练数据集的子集对模子举行屡次训练。 

交织验证法(CV)利用最为普遍,而且推出了许多变种(见[Arlot等人,2010])。尺度CV训练要反复十次以上,假如在此底子上,将整个CV历程按差别的种别举行数据分别举行可以明显增长训练的严谨性,尤其是在数据种别很少的状况下,它可以确保每个类在每次折叠中都有充实的表现。 

别的,除了评价的多个均匀值和尺度偏向外,也发起保存单个分数的记载,以便之后利用统计测试来比力模子。



4.保存一些数据,用于评价模子的实例


评价一样平常模子的功能(如神经网络办理题目的才能)和特定模子实例的功能(如经过一次反向传达发生的特定神经网络)之间有一个紧张的区别。常用的交织验证的办法,通常更实用于前者,而不实用于后者。好比,十次交织验证会发生10个模子实例,假定选择测试折叠分数最高的实例作为理论中利用的模子。在这种状况下,要怎样陈诉模子的功能?

有人大概以为测试分数是权衡模子功能的牢靠目标,但现实上并非云云。起首,单次折叠中的数据量绝对较小。其次,得分最高的实例很大概是测试次数最复杂的实例,也便是说,它包括的评价数据并不具有代表性。因而,估量模子实例的通用性的牢靠且独一的办法是利用另一个测试集。因而,最好独自创立一个数据集,专门为终极选定的模子实例举行无偏估量。



5.不屈衡的数据集不要利用“正确率”


研讨职员应该留意利用哪些器量来评价ML模子。关于分类模子,最常用的器量是正确率(accuracy),即模子准确分类的数据会合样本的比例。假如分类是均衡的,即每个类在数据会合有类似数目的样本,那么这种办法是可行的。但假如数据集是不屈衡的,那么正确率大概会成为一个误导目标。

比方一个数据会合,90%的样本代表统一个类,10%代表另一个类。一个总是输入第一个类的二元分类器,无论输出的是什么,它的正确率都将到达90%,如许的数据是没故意义的。在这种状况下,最好利用Cohen的kappa系数(κ)或Matthews相干系数(MCC)等目标,这两种目标对样本范围的不屈衡绝对不敏感。关于更多处置不屈衡数据的办法请拜见Haixiang等人[2017]。




公正比力模子



比力模子是学术研讨的底子。假如举行了不公正的比力,那么其他研讨职员大概随后就会被误导。因而,肯定要确保在相反的情况中评价差别的模子,探究多个角度,并准确利用统计查验。





1.数字越大,结果越好?


在某些学术论文中,通常会如许写:曩昔的研讨正确率是94%,九游会论文中的模子正确率到达了95%,因而九游会是SOTA。但,有许多证据都能证明,“堆数字”的模子并不是好模子。比方,假如模子的训练集和测试集来自统一数据的差别局部,那么模子的“数字体现好”的缘故原由不问可知[bú wèn kě zhī]。

另一个不当之处在于:论文在比力模子的时分,对所比力的模子,每每没有设置相反的超参数优化。比方,一个利用默许设置,一个利用优化参数。

因而,为了公正起见,作为研讨者的你,至多应该将“比拟模子”的参数举行相反的优化,然落伍行屡次评价,从而确定模子之间功能差别能否明显。



2. 比力模子的时分,怎样利用统计查验



一样平常而言,统计测试(statistical test)是比力模子差别的绝好东西。有两类,一类用于比力复杂的呆板学习模子,比方配对卡方查验(McNemar’s test)可以比力两个分类器;另一类实用于大少数状况,比方评价某种数据范例是用神经网络照旧决议计划树举行处置的时分,交织验证、反复采样等等是比力合适的办法。

别的,比力模子发生的后果切合何种概率散布,T散布查验是常用的方法,实践上Mann-Whitney's U查验愈加实用,由于它抓紧了数据散布的假定。

更多办法拜见:
[Raschka, 2020]
https://arxiv.org/abs/1811.12808
[Carrasco et al., 2020].
https://linkinghub.elsevier.com/retrieve/pii/S2210650219302639
 


3. 怎样对待多重比力?


当接纳统计办法比力两个以上的模子时分,事变有点庞大。由于,接纳屡次配比查验(multiple pairwise tests)会发生和屡次利用测试集相似的缺陷:招致对明显性过分悲观。由于,在对两个模子举行统计查验的时分,相信度通常设定为95%,这意味着每20次查验,会有一次呈现“利诱”后果。

假如是单一的比力,这种不确定性大概可以承受。但假如是多个模子,屡次比力,那么统计查验的不确定性会累积。 

上述征象也被称为:多重效应(multiplicity effect)会招致招致所谓的‘p-hacking’(通常增长样本容量)和‘data dredging’做法,夸大搜刮小的p值而不是统计迷信推理。

为理解决这个题目,可以接纳多重查验的校正。最罕见的办法是Bonferroni校正,可以依据正在举行的测试的数目来低落明显性阈值。

别的,另有更多的校正办法,见:
[Streiner,2015]
https://doi.org/10.3945/ajcn.115.113548.


4. 审慎看待基准测试



在某些范畴,用基准数据集评价呆板学习模子黑白常广泛的做法。其面前的思索是:假如每团体都用相反的数据举行训练和测试模子,那么模子功能的比力就会愈加通明。 

但,假如测试集的获取不受限定,那么就会有人把它作为训练集,从而招致高估模子。假如限定每团体只能利用一次测试集,但总体算上去呆板学习社区利用了屡次测试集,如许某些题目仍旧没措施制止。

实践上,在统一测试集上评价多个模子,体现最好的模子大概恰好是过拟合的,因而无法得出SOTA的结论。 

在做研讨的时分,应该警惕解读基准数据集上的测试后果,不要以为功能的小幅度进步是明显的。

统计查验更多讨论拜见:
[Paullada et al., 2020]
https://www.sciencedirect.com/science/article/abs/pii/S2210650219302639?via%3Dihub
 


5.请思索组合模子 



呆板学习偶然候并不是选择题,更多的是组合题。差别的模子互相联合每每能发生宏大的功能提拔。经过组合,可以用一个模子补偿另一个模子的缺点。这种组合在学术上有个名词叫做:集成学习(ensemble learning)。 

集成学习(ensemble learning)既可以从现有的训练过的模子中构成,也可以将底子模子作为一局部举行训练,其目标是为了创立一个多样化的模子选择。

集成学习在思索怎样联合差别的底子模子时,可以接纳复杂办法,如投票;也可以接纳庞大办法,用呆板学习模子聚合集成模子的输入。这种庞大办法通常被称为堆叠(stacking)。 

聚集学习的办法拜见:
[Dong et al., 2020]
https://doi.org/10.1007/s11704-019-8208-z


怎样形貌事情结论


学术研讨的目标不是自我夸耀,而是为知识做边沿奉献。因而必要对事情做完备的形貌,包罗哪些事情无效,哪些事情有效。呆板学习通常是关于衡量,在某些方面良好,每每意味着其他方面不达标,完美无缺[wán měi wú quē]的模子非常稀有。 



1.通明、通明、照旧通明! 


起首,事情要尽大概的通明,给他人“站在你肩膀上”的时机。用普通易懂的方法分享模子黑白常好的方法,比方你能用一个剧本完成论文中一切实行,那么在宣布论文时分,请分享这个剧本,这可以让其别人轻松复现,同时也能增长你的决心。 

这也会促使你愈加警惕的做研讨,写出愈加洁净的代码,细心的记载实行。值得一提的是,可反复性在呆板学习社区被提到的次数越来越多,以是不通明的事情大概在将来无法宣布。

怎样进步呆板学习研讨的可反复性:
[Pineau et al., 2020]
https://arxiv.org/abs/2003.12206
 


2. 用多种方法表现结论



在评价和比力模子的时分,利用多个数据集举行测试是一种严谨的办法。这有助于克制单个数据集的缺陷,并有助于模子的完备性形貌。

别的,接纳多个目标陈诉模子在数据集上体现,也能从差别的角度阐明模子的功能。比方,假如决议用正确率权衡模子,那么假如加上对“种别失衡不太敏感”的目标则是极好的。假如利用局部目标,如精度、召回率、敏感度或特异度,也要包罗一个能更片面地反应模子错误率的目标。

别的,明晰、明白的目标也对表明模子有利益,比方假如陈诉AUC,请指明这是ROC曲线照旧PR曲线下的地区。

目标讨论请见[Blagec et al., 2020]
https://arxiv.org/abs/2008.02577


3. 数据支持论据


为了制止其他研讨员迷途知返[mí tú zhī fǎn],以是请不要提出有效的结论。一个罕见的错误是:论文报告面前没有训练和测试数据支持。一个模子在某个数据集上体现良好,并不料味着在其他数据集上也体现精良。

以是,能从实行研讨中推测出的工具总是有限的。一个紧张缘故原由是抽样偏向,即数据对真实天下并没有充足的代表性。别的,数据与数据之间大概存在重叠,非独立性的数据也有大概让模子发生偏向。 

因而,不要太过渲染你的发明,并认识到其范围性。

呆板学习社区数据集观察:
[Paullada et al., 2020]
https://arxiv.org/abs/2012.05345


4.审慎利用统计查验



统计查验并不完善,守旧的办法偏向于低估;自在(liberal)的办法偏向于高估。以是一个实际正后果的测试并不总代表故意义,悲观的测试后果也并不代表偶然义。

除了统计学意义之外,另一个必要思索的题目是两个模子之间的差别能否真正紧张。假如你有充足的样本,即便实践的功能差别微乎其微[wēi hū qí wēi],也可以找到明显的差别。以是,为了更好地阐明某件事变能否紧张,可以丈量效应巨细。罕见的办法比方Cohen's d统计、Kolmogorov-Smirnov等等。 

p值的讨论拜见[Betensky, 2019]:
https://www.tandfonline.com/doi/full/10.1080/00031305.2018.1529624

5.洞察模子
训练过的模子包括许多有效的信息。但很多研讨者只说模子的功能目标,并没有对模子实践学到的工具给出看法。请记着,研讨的目标不是为了取得比他人高一点的正确率,而是为了发生知识和了解。假如你能做到这一点,你就能在更好的刊物上宣布论文。 

因而,请细心察看模子,并实验理解模子的输入。关于绝对复杂的模子,如决议计划树,提供模子的可视化也是无益的,而且大少数库都支持这一功效。关于庞大的模子,如深度神经网络,思索利用可表明的人工智能(XAI)技能来提取知识,固然不太大概弄明白模子究竟在做什么,但总有些有效的看法。 

数据驱动、知识感知的可表明人工智能研讨综述见[Li et al. [2020]]
https://ieeexplore.ieee.org/document/9050829


总结:开担心态


这份文档并没有席卷一切方面,有些发起另有未确定的结论。但文章中枚举的一些错误事例,至多九游会可以探究,这也是研讨的实质。

呆板学习的实际总是滞后于理论,九游会明天以为准确的事变,在今天看来大概是错误的。以是,请你以开放的心态看待呆板学习:擅长Fellow最新开展,谦善承受你不懂的知识。 
 
原文链接:


https://arxiv.org/pdf/2108.02497v1.pdf


###