首页 > IT业界 > 正文

招聘平台如何有效反爬虫?

2019-07-29 17:09:36  来源:互联网

摘要:大数据时代,越来越多的个人信息处于“裸奔”状态
关键词: 招聘

    大数据时代,越来越多的个人信息处于“裸奔”状态,隐私数据泄露已成常态,尤其在每年的招聘季,部分招聘平台简历信息频繁遭遇泄露,形成个人信息被窃的高危期。

    近日,据《法制日报》调查,有一些简历大数据公司利用爬虫“偷”简历、推送垃圾广告等;今年1月,界面新闻也曾报道超过2亿求职者简历信息被泄露。

    不法分子或竞争对手,通过非法手段获取求职人员的家庭住址、手机号码、邮箱、婚育状况、教育背景等信息,再根据市场的不同需求,倒卖相关信息。例如,很多人会莫名收到婚恋网站、教育机构、房产中介机构等的电话、邮件信息,这让包括应聘者在内的所有人不得不担心个人信息安全问题,但普通人却对这种行为束手无策。

    而这些所谓的简历大数据公司或第三方平台是如何轻易地“偷”走成千上万份简历的呢?

    信息泄露的多数情况是由于不法分子通过大量低频爬虫,非法收集数据,而这种爬虫的访问频率甚至低至每小时几次,平台难以识别异常。另外则很大程度上来自竞争对手动用大量IP池,快速爬取平台简历信息。

    一般而言,成功爬出简历上的详细信息,需要三个步骤:

    1、确定目标平台,设置好爬虫参数以及解析模式后,爬虫会自动寻找并收集目标页面。

    2、爬虫对目标页面进行解析,抽取有意义的信息。

    3、将信息保存到本地数据库,用于数据变现。

    更为细思极恐的是,数据公司向不法分子或竞争对手直接提供爬虫工具,有的爬虫工具可以追踪到每份简历修改了哪些地方,比如哪个版本修改了教育经历,哪个版本修改了工作经历,以及哪个版本修改了电话号码、住址等。

    目前由于使用爬虫技术爬取简历的操作一直处于法律灰色地带,所以不法分子更加肆无忌惮,这也是多数招聘公司和个人感到无能为力的地方。

    当前很多工具反爬效果不佳,解决方案又因定制成本高,接入复杂,过度依赖规则、情报中心等而导致误报率高,无法识别真正的安全问题及未知威胁,多数企业依然承受着平台数据被“爬”的痛苦。

    在上述背景下,白山云科技(下称“白山”)旗下的云安全产品——ATD(深度威胁识别)打破了传统安全产品局限性。

    ATD产品通过实时流式大数据分析技术,基于无监督学习,利用动态行为建模、多源低频威胁识别等大数据和人工智能技术,帮助平台精准识别爬虫、CC攻击、撞库、暴力破解、薅羊毛等各种攻击。

\

ATD实时数据展示

\

ATD统计数据展示

    同时,ATD的大数据离线UEBA(用户行为分析),能让平台完全摆脱由于人工配置而导致的安全威胁容易遗漏、系统定制成本高、可维护性差的问题。在人工智能技术的基础上,ATD内集成了SOAR(安全编排自动化响应)平台,帮助企业实现任意的威胁处理逻辑。

    此外,不少企业苦于接入第三方产品后,内部信息安全性无法保证,直接拒绝了使用除公司内部以外的安全产品,但ATD特有的旁路部署功能,无需嵌入业务内部系统,更无需企业修改代码、配置等,就能有效发挥作用。

    国内某著名招聘公司对安全问题高度重视,主动防范爬虫风险。

    该招聘平台接入ATD产品后,ATD帮助其精准识别了非法爬虫和撞库问题,每天识别恶意爬取行为超过1亿次,撞库IP超过1万个。借助地理信息,成功识别竞争对手来源,同时帮助该平台排除了低频爬虫隐患,每月帮助企业避免数据损失超过500万。

\

ATD数据分析架构图

    由于ATD特殊的软件架构,其除了适用于招聘平台外,在游戏、航空、金融、医疗、电商、家电、教育、出版业等领域相关场景下同样得到了广泛应用。

    了解ATD更多应用场景,请点击连接:https://www.baishan.com/tech/atd/


第三十六届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhanglinying

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。