无障碍 关怀版

机器学习的本质是什么?

原标题:机器学习的本质是什么?

新智元2019新年寄语

2018年人工智能成为重塑世界格局的关键。谷歌BERT模型刷新多项自然语言处理纪录,DeepMind则用星际争霸II对局再次引爆机器智能无限可能。阿里与华为分别推出AI芯片,作为底层支撑的计算体系结构也将迈入黄金十年发展期。

新智元2018年实现全球超过50万核心产业用户互联。2019新春,中国人工智能将迎来全新的竞争挑战与生态建设契机,新智元邀你与全球人工智能学术、产业精英一起,以开放的胸怀和坚毅的决心,成就AI新世界!

——新智元创始人兼CEO 杨静

来源:kdnuggets

作者:Matthew Mayo 编辑: 肖琴

【新智元导读】何谓“机器学习”,学界尚未有统一的定义。本文摘取Tom Mitchell、Christopher M. Bishop、去年出版的《深度学习》和侧重实战的《数据挖掘》,总结了四种机器学习主流定义。更好地研究“机器学习”,并继续扩展和完善它的定义,也有助于我们理解机器学习的本质。

你或许已经读过许多关于机器学习的深度和和半深度的文章,并探讨了机器学习与众多其他主题的关系。在讨论如此复杂的概念时,回到最初的一些共同参考资料总是一个好主意;问题是,对于机器学习这样的主题,存在无数这样的参考资料。

所以我想,为什么不研究一下这些参考点呢?

这是一篇不那么严肃的帖子,旨在探讨机器学习的本质。

话不多说,作为一个看似属于语义学的练习,让我们来探索一下关于机器学习的定义。

Tom Mitchell:根据优化过程抽象定义机器学习

第一个定义,是我个人最喜欢的,来自著名的计算机科学家、机器学习研究者,卡内基梅隆大学的 Tom Mitchell 教授。

对于某类任务 T 和性能度量 P,如果一个计算机程序在 T 上以 P 衡量的性能随着经验 E 而自我完善,那么我们称这个计算机程序在从经验 E 中学习。[1]

对于某类任务 T 和性能度量 P,如果一个计算机程序在 T 上以 P 衡量的性能随着经验 E 而自我完善,那么我们称这个计算机程序在从经验 E 中学习。[1]

Mitchell 的这个定义在机器学习领域是众所周知的,并且经受了时间的考验。这句话首次出现在他 1997 年出版的 Machine Learning一书中。

这句话对我个人产生了很大的影响,多年来我多次提到它,并在硕士论文中引用了这个定义。在 Goodfellow, Bengio & Courville 最近出版的权威著作《深度学习》(Deep Learning) 的第 5 章中,这段引文也占据了突出位置,成为该书对学习算法的解释的出发点。

下图是 Mitchell 定义的图示:

图 1:The Mitchell Paradigm

“花书”《深度学习》:论计算在机器学习中的重要性

说到 Goodfellow、Bengio 和 Courville,就不得不提他们合著的《深度学习,这本书对机器学习是这样定义的:

机器学习本质上属于应用统计学,更多地关注如何用计算机统计地估计复杂函数,不太关注为这些函数提供置信区间。[2]

机器学习本质上属于应用统计学,更多地关注如何用计算机统计地估计复杂函数,不太关注为这些函数提供置信区间。[2]

Mitchell 对机器学习的定义在应用中不再适用;它侧重于优化过程的具体组成部分,这些组成部分通常与机器学习有关,但它没有规定应该如何在实践中接近它。

《深度学习》中对机器学习的定义在本质上要规范得多,它指出计算能力得到了利用 (实际上强调了对计算能力的使用),而传统的统计概念置信区间则不再强调。

实战数据挖掘:“学习”必须是有意地去学习

在我看来,另一个特别值得注意的关于机器学习的定义来自 Witten, Frank & Hall 所著的《数据挖掘:实用机器学习工具与技术》,这是我第一本完整阅读了的关于这个主题的书。

《数据挖掘》这本书很少涉及数学,但有很多实用性的解释。对于刚进入机器学习领域的人,“数据挖掘” 很长一段时间是我的首选推荐。

作者对机器学习最初定义有点零散,他们试图在机器学习和数据挖掘的背景中将学习、性能和知识这些概念编织在一起。但其中一些语句值得注意:

我们感兴趣的是在新的情况下得到性能的改进,或至少有性能改进的潜力。

当系统以一种使它们在未来表现更好的方式改变自己的行为时,它们就会学习。

学习意味着思考和目标。学习必须是有意地去学习。

经验表明,在机器学习和数据挖掘的许多应用中,所获得的显式知识结构、结构描述,至少与在新实例中表现良好的能力同等重要。人们经常使用数据挖掘来获取知识,而不仅仅是用来预测。

我们感兴趣的是在新的情况下得到性能的改进,或至少有性能改进的潜力。

当系统以一种使它们在未来表现更好的方式改变自己的行为时,它们就会学习。

学习意味着思考和目标。学习必须是有意地去学习。

经验表明,在机器学习和数据挖掘的许多应用中,所获得的显式知识结构、结构描述,至少与在新实例中表现良好的能力同等重要。人们经常使用数据挖掘来获取知识,而不仅仅是用来预测。

“数据挖掘”这个术语被用作机器学习的补充术语。上面引用的语句出自这本书的第三版,出版于 2011 年,当时数据挖掘这个词比现在更有吸引力;即使不说是引用自数据挖掘的书,上面所写的内容对机器学习本身也适用。

Witten, Frank & Hall 为机器学习的定义提供了一个不同的角度:Mitchell 专注于优化过程的特定组成部分,Goodfellow, Bengio & Courville 倾向于一种更规范的定义,并强调计算能力的相对重要性,这个定义则尝试侧重 “learning” 的哪些方面在机器学习过程中是类似和重要的。

上面引用的语句还提供了一个重要的点,兼具实用性和哲学性,即最后一段,指出获得知识和使用这些知识的能力都是机器学习的重要方面。

Christopher Bishop:从算法的角度定义

最后,让我们来看 Christopher Bishop 在《模式识别和机器学习》一书中对机器学习的定义。值得注意的是,Bishop 没有开门见山地定义这个术语,但是很好地隐式地提供了以算法为中心的机器学习的定义 (在一个数字分类任务中讨论到):

机器学习算法的结果表示为一个函数 y (x),它以一个新的数字的图像 x 作为为输入,产生向量 y,与 target vector 的形式相同。

机器学习算法的结果表示为一个函数 y (x),它以一个新的数字的图像 x 作为为输入,产生向量 y,与 target vector 的形式相同。

函数 y (x) 的精确形式是在训练阶段 (training phase) 确定的,也称为学习阶段 (learning phase),以训练数据为基础。

一旦模型被训练出来,就可以用来判断新的数字图像 (新样本) 对应的标签,这些新样本的集合被称为测试集

正确分类与训练集不同的新样本的能力叫做泛化(generalization)。在实际应用中,输入向量的可变性使得训练数据只能包含所有可能输入向量的很小一部分,因此泛化是模式识别的一个中心目标。[4]

函数 y (x) 的精确形式是在训练阶段 (training phase) 确定的,也称为学习阶段 (learning phase),以训练数据为基础。

一旦模型被训练出来,就可以用来判断新的数字图像 (新样本) 对应的标签,这些新样本的集合被称为测试集

正确分类与训练集不同的新样本的能力叫做泛化(generalization)。在实际应用中,输入向量的可变性使得训练数据只能包含所有可能输入向量的很小一部分,因此泛化是模式识别的一个中心目标。[4]

首先,除了我们讨论的机器学习是有监督学习,而不是无监督学习或强化学习 (或其他形式的机器学习) 外,上面的引用对 “模式识别” 没有更多的解释。

其次,也是更重要的一点,这是唯一对机器学习所需步骤逐步处理的定义,无论这些步骤在这个例子中可能多么简短。

同样有趣的是,随后的页面,以及 Bishop 的书一半的篇幅概述了许多额外的机器学习概念,并将它们很好地结合在一起,提供了具有可读性的介绍,而不至于陷入数学的困境 (书中的其余部分解释了数学)。

这样,我们已经有四种方法来定义机器学习:一种是根据它的优化过程,抽象地定义它机器学习;第二种更有规范性,并指出计算在机器学习中的重要性;第三定义侧重于 “学习” 的哪些方面在机器学习过程中是类似的和重要的;最后一个定义从算法的角度概述了机器学习

这些定义都不是不正确,但都不完整。探讨先驱者和受人尊敬的研究人员所认为的 “机器学习”,将扩展我们自己对机器学习的定义。

参考资料:

[1]Machine Learning, Tom Mitchell, McGraw Hill, 1997.

[2]Deep Learning, Ian Goodfellow, Yoshua Bengio & Aaron Courville, MIT Press, 2016.

[3] Data Mining: Practical Machine Learning Tools and Techniques(3rd ed.), Ian Witten, Eibe Frank & Mark Hall, Morgan Kaufmann, 2011.

[4] Pattern Recognition and Machine Learning, Christopher M. Bishop, Springer, 2006.

加入社群

新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信 aiera2015_2 入群;通过审核后我们将邀请进群,加入社群后请修改群备注(姓名-公司-职位;专业群审核较严,敬请谅解)

加入新智元社群,成就AI新世界! 返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
推荐阅读

玻璃钢生产厂家宜宾玻璃钢医疗外壳定做清远玻璃钢天花吊顶制造宿迁玻璃钢花盆九江玻璃钢天花吊顶哪家好舟山玻璃钢卡通雕塑制作金华玻璃钢餐桌椅批发资阳玻璃钢餐桌椅公司运城玻璃钢医疗外壳定做普洱玻璃钢装饰工程定制合肥玻璃钢天花吊顶价格鸡西玻璃钢动物雕塑公司苏州玻璃钢装饰工程厂长春玻璃钢卡通雕塑定做云浮玻璃钢座椅吕梁商场美陈定做吉安玻璃钢卡通雕塑制造惠州不锈钢花盆多少钱黄石玻璃钢垃圾桶价格商丘玻璃钢机械外壳定做十堰玻璃钢坐凳制作常州玻璃钢动物雕塑制作清远玻璃钢花池制作泸州玻璃钢种植池赤峰不锈钢家具生产厂家辽源玻璃钢花钵批发宝鸡玻璃钢花坛天津不锈钢家具批发宿州玻璃钢景观雕塑厂开封玻璃钢天花吊顶制作烟台不锈钢家具公司香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化