聚焦爬虫原理及其在互联网金融领域应用前景浅析
聚焦爬虫原理及其在互联网金融领域应用前景浅析
2016-01-22 13:04:34 来源:36大数据
抢沙发
2016-01-22 13:04:34 来源:36大数据
摘要:爬虫已经成为数据的一个重要来源,作为社会主义接班人的数据分析师们,怎么能不关注数说君推荐的这篇爬虫好文章?
关键词:
互联网
1.3 架构
深聚焦爬虫的一般结构如下图:
六个主要的组成部分【控制中心】【下载模块】【抽取模块】【清洗模块】【消重模块】【资源模块】
控制模块:控制模块由程序出入口、下载调度策略、抽取调度策略、清洗调度策略和URL消重调度策略组成。程序出入口是程序开始、初始化和结束地方。下载调度策略根据当前需要下载的网页,分配IP,COOKIE等下载资源,并根据页面下载器的反馈(失败或成功),决定程序下一步的走向。抽取调度策略根据当前已经下载的页面队列情况,来决定调用抽取模块对某一部分页面进行抽取以及调用抽取模块中的哪一种抽取模式。清洗调度策略根据抽取的文本和URL队列情况,决定其被清洗的优先度,从而有序的清洗数据。URL消重策略根据URL队列情况决定何时调用URL消重器,避免内存中存储过多的URL。
下载模块:根据控制中心传过来的URL,IP,COOKIE等下载资源下载页面,并将下载结果返回给控制中心。
抽取模块:接受控制中心下发的页面源代码和抽取指标,根据抽取指标对源代码进行抽取,并将抽取结果返回控制中心。
清洗模块分为文本清洗和URL清洗,文本清洗根据预设的主题以及相对应的主题相关度算法,决定是舍弃文本,还是将文本保存入库。URL清洗是根据URL分析结果,预测当前URL所链接的页面是否与主题相关,若相关则将URL返回控制中心,反之丢弃此URL。
URL消重模块:针对有些主题突出的页面被许多页面链接,从而导致大量重复下载此页面造成资源浪费和数据质量低下的情况,调用消重模块将重复的URL丢弃,将不重复的URL返回到下载资源模块的URL队列中。
资源模块:保存有下载所需要的所有资源,包括代理IP,COOKIE,URL等信息。
2聚焦爬虫的发展
大数据时代,对数据的多样性和针对性要求越来越高。随之爬虫的架构方式也更加灵活多变。比较常见的开源爬虫框架有Crawler4j、WebMagic、WebCollector、scrapy等。另一方面,针对爬虫的抓取,被抓取网站也制定了相应的防爬虫措施。常见的防爬虫方式有如下几种:
一、针对频繁访问网站的IP设定访问限制。这是最常见的一种放爬虫方式,具体体现是,在一个单位时间内,同一个IP的请求数量达到了网站设计的阀值,这个IP就被限制访问。面对这种情况,可以制定适当的IP访问策略。
二、使用js和ajax技术的动态页面。这样的网页源代码中并没有包含所需的数据,数据包裹存在于二次请求的返回文档中。针对这样的页面,可以分析请求过程,提取二次请求的URL,进而得到想要的数据。
三、其他情况:随着互联网的不断发展,出现了各种各样的防爬虫方式。这就需要人们根据实际情况,针对性的解决问题。比如使用模拟浏览器(htmlunit,selenium)技术等。
总之,没有一成不变的互联网,就没有一成不变的爬虫,拥抱变化,才能让爬虫爬的更远。
3爬虫在互联网金融领域的应用
聚焦爬虫作为数据的主要来源之一,下面就说说聚焦爬虫的应用场景,以我所就职的普惠金融信息服务(上海)有限公司(后面简称普惠)为例。
普惠金融是一家致力于让每一位普通人都享有更公平、更高效、更透明的金融信息服务的金融服务公司。公司的主要业务是微小型贷款。线上有爱钱进和借啊APP,线下各大城市有实体店。现如今的小额贷款公司基本上都是无抵押贷款,这对公司的风险控制提出了很高的要求。如何判定一个人是否有能力并且有意愿还款、如何将那些骗贷的没有信用的人拒之门外成了小额贷款公司生存的首要任务。响应大数据的时代潮流,普惠公司领导人提出了由数据驱动业务发展的先进理念,普惠大数据中心应运而生。
数据驱动,就是得到前来普惠贷款的客户的指定数据,根据这些数据以及相应的一套算法策略,给客户定义一个标签。借贷部门根据客户的标签决定是否贷款给该客户以及贷多少给该客户。通过这种定义标签的方式,普惠大数据中心有效阻止大部分骗贷的发生,从而规避风险。
第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。