什么是机器学习:一次权威定义之旅
什么是机器学习:一次权威定义之旅
2016-01-07 16:41:20 来源:36大数据
抢沙发
2016-01-07 16:41:20 来源:36大数据
摘要:你可能对机器学习感兴趣或者稍稍了解。如果有一天你和朋友或同事聊起机器学习,那么一些人可能会问你“机器学习是什么”。那么,此文的目标就是告诉你一些可参考的定义,以及一个现成的、容易记起的趣味定义。
关键词:
机器
复杂问题
作为一名程序员,你最终将会遇到很多类型的顽固抵制逻辑的、程序的解决方案的问题。我的意思是,对于很多类问题,坐下来写出解决问题所需要的所有条件语句是既不可行也不划算的。
我听到你的程序员大脑在大喊,“亵渎”。
这是真的,以每天的鉴别垃圾邮件问题为例,每当介绍机器学习时,它是一直被使用的例子。当一封邮件到来时,你将怎样写一个程序来过滤垃圾邮件,决定是将它放在垃圾箱还是收件箱中?
你将可能开始收集一些实例并深入研究它们,你将寻找垃圾邮件和非垃圾邮件所特有的模式,你还将会考虑抽象出那些模式以便你的启发式学习将来能够应用 到新案例之中。你将会忽视那些永远不会被看到的古怪邮件,你将能够轻松的提高准确率并为边界情况制定特殊的程序。你将反复多次的浏览邮件并抽象出新模式来 改善做出的决策。
在那里有一个机器学习算法,所有这些事情都由程序员而不是电脑来完成。这种手动导出的硬编码系统将具有同程序员一样的、从数据中提取规则并将其实现的能力。
这能够做到,但是它将花费太多的资源,而且会是一个持续的噩梦。
机器学习
在上面的例子中,我确信你下定决心寻求自动化的那一部分程序员大脑,能够看到自动化和优化从例子中提取模式这一过程的机会。机器学习方法就是这样一个自动化过程。
在垃圾/非垃圾邮件的例子中,经验E就是我们所收集的邮件,任务T是一个决策问题(也称为分类),它需要标记每一封邮件是否为垃圾邮件,并将其放入 到正确的文件夹中。我们的性能度量将是一些类似于准确率之类的、介于0%-100%之间的一个百分比(正确决策数除以总的决策数再乘以100)。
准备这样一个决策程序的过程通常被称为训练,收集到的实例称为训练集,程序即为一个模型,一个把非垃圾邮件从垃圾邮件的分离出来的问题的模型。作为 程序员,我们喜欢这个术语,一个模型具有特定的状态并且需要被保持,训练是一个执行一次的过程,也可能会根据需要重新运行,分类是待完成的任务。这些对我 们来说都是有意义的。
我们能够看到上面定义中所用到的术语并不是很适合于程序员。从技术上来说,我们写的所有的程序都是一个自动化操作,因此,机器学习是自动化学习的这一说明是没有意义的。
一个现成的小笑话
那么,让我们来看看我们是否可以使用这些片段,构建一个机器学习的程序员定义。
机器学习是一个源于数据的模型的训练过程,最终归纳出一个面向一种性能度量的决策。
“训练一个模型”代表训练实例,“模型”表示通过经验学习获得的状态,“归纳出一个决策”代表基于输入做出决策的能力,并且需要一个用于未来决策的、不可见的预期输入。最后,“面向一种性能度量”是指准备好的模型的针对性需要和定向特性。
我不是诗人,你能想出一个更准确、更简洁的机器学习的程序员定义吗?请留下你的评论。
资源
在帖子中我已经给出了相应的链接,另外,如果你想要进一步深入阅读,我还在下面列出了一些有用的资源。
书籍
下面是我们从中得出定义的四本书籍:
Mitchell,《Machine Learning(中文版:计算机科学丛书:机器学习 )》
Hastie, Tibshirani and Friedman,《The Elements of Statistical Learning: Data Mining, Inference, and Prediction》
Bishop,《 Pattern Recognition and Machine Learning 》
Marsland,《Machine Learning: An Algorithmic Perspective》
还有,Drew Conway与John Myles White合作的一本非常实用和有趣的书,Machine Learning for Hackers (中文版:机器学习:实用案例解析 )
原文:What is Machine Learning: A Tour of Authoritative Definitions and a Handy One-Liner You Can Use
第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。