深解读:什么是数据科学?如何把数据变成产品?
深解读:什么是数据科学?如何把数据变成产品?
2016-05-18 17:15:59 来源:36大数据
抢沙发
2016-05-18 17:15:59 来源:36大数据
摘要:一个数据应用从数据里获取价值,同时创造更多的数据作为产出。它不只是带有数据的一个应用,它就是一个数据产品。而数据科学则是能创建这样的数据产品。
关键词:
大数据
有很多机器学习的库可供使用:Python的PyBrain,Elefant,Java的Weka和Hadoop里的Mahout。谷歌最近刚刚发布他们的预测性分析的API,通过RESTful接口为大众提供了谷歌的机器学习算法的能力。对于计算机视觉,OpenCV则是事实上的标准。
Mechanical Turk也是工具库里的一个重要部分。机器学习几乎总是需要一个“训练集”,即已知结果的数据,供开发和调优应用。Turk就是一个很好的方法来获得训练集。一旦你得到了数据集(可能就是从推特里收集的很多公共图片),你可以用很少的花费来进行人工分类,比如分到不同的列表里,在脸上或者车上画个圈,或者任何你感兴趣的结果。花费几分钱来分类几千条记录是个不错的选择。即使是相对大的工作,也只花费不到几百美元。
尽管我没有强调传统的统计分析,但构建统计模型在任何数据分析里都很重要。据麦克.德里斯科尔(Mike Driscoll),统计是“数据科学的语法”。让数据能一致性的讲故事是很重要的。我们都听说了这个笑话,吃泡菜会死人,因为每个死的人都吃过泡菜。如果你理解关联的意思,你就不会去理会这个笑话。更进一步,很容易可以看到为《R技术手册》做广告使得这本书的销量的转化率比其他书多2%。但需要用统计的结果来判断这个差别是不是够显着,或只是一个随机的波动。数据科学不仅仅只是关于数据的保存,或猜测数据可能的意义,它是关于假定检验和确保来自数据的结论是可信的和可靠的。从传统的商业智能到理解谷歌的拍卖机制,统计在几乎所有的任务里都扮演重要的角色。统计已经成为了一个基本技能。它不是被来自机器学习里的新技术所替代,它是他们的补充。
尽管有很多的商业化统计软件包,但开源的R语言,包括他的丰富的包库CRAN,是非常重要的一个工具。虽然对学计算机的人而言,R是一种奇怪的诡异的语言,但它几乎是提供了一站式的统计工具包。它包括了非常好的图形处理工具,CRAN里包括了非常多的数据解析器,以及针对分布式计算的新的扩展包。如果有一个工具能提供端到端的统计解决方案,R就是。
第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。