数美科技CTO梁堃：灰产肆虐，单一反欺诈模型和策略还远远不够

2018-02-09 13:51:04 来源：互联网抢沙发

2018-02-09 13:51:04 来源：互联网

摘要：数美科技联合创始人&CTO梁堃曾在受邀参加DataFun Talk活动演讲中提到：互联网上最猖獗的两类灰色产业，一是通过参与平台上的各种奖励性质的业务活动来直接获得利益。
关键词：数美科技反欺诈大数据

　　从2014年正式提出互联网+的概念到现在落地实施，短短时间内互联网已渗透到人们衣食住行等日常生活的方方面面，这给正常的互联网用户带来了现代生活的方便快捷，但同时也为互联网上的欺诈和作弊行为留下“大量”繁衍的空间。

　　从产品生命周期的角度来看，一款互联网产品从渠道推广到用户注册、登录再到用户业务活动，每一个环节都可能成为互联网灰产实施欺诈和作弊行为以谋求非法利益的“舞台”。有数据显示，过千万流量推广预算中的60%都会被不良渠道商和羊毛党等互联网灰产收入囊中。

　　互联网欺诈形成完整产业链

　　数美科技联合创始人&CTO梁堃曾在受邀参加DataFun Talk活动演讲中提到：互联网上最猖獗的两类灰色产业，一是通过参与平台上的各种奖励性质的业务活动来直接获得利益，也称薅羊毛；二是导流广告。无论互联网灰产想要通过薅羊毛还是导流广告来获取可观的利益都需要进行“批量操作”。实现批量操作需要满足的三大条件都已经发展出了大批的“供应商”：

　　大量手机号——卡商；

　　散布在全国的IP——VPN提供商；

　　篡改、批量控制等软件——软件提供商。

　　灰产已然形成了专业分工的商业化“作案”流程。有数据显示，中国参与互联网灰产人数已经达到数十万，产业规模占GDP比例高达0.63%，超过4千亿元。

　　注：数美科技联合创始人&CTO梁堃受邀出席“DataFun Talk”之算法架构系列活动——AI在反欺诈中的应用实践，并做了《人工智能在反欺诈中的实践——构建立体防御体系》主题演讲。

　　反欺诈面临的挑战及对应的解决方案

　　面对技能越发专业、规模逐渐庞大、流程趋近自动化的互联网灰产，企业即使具备一定技术实力，甚至不惜投入大量的人力、财力于反欺诈的研发上，但在对抗互联网灰产方面依旧存在悬殊的差距。数美科技联合创始人&CTO梁堃解释道：“由于一般情况下企业之间对抗互联网灰产所得数据不互享，造成企业缺乏全局的风险数据支撑。此情况为灰产违规获利活动留下可操作空间。例如卡商利用这个漏洞简单地进行手机号目录结构分类，并将同一个手机号应用于不同的企业，就可以获利。而在不同企业平台上进行过欺诈行为的手机号惯犯对于刚面对该手机号的企业来说，却是完全陌生的。”

　　而在解决网络欺诈问题时，内容反欺诈和行为反欺诈最为经典：

　　互联网反欺诈经典问题一：内容反欺诈

　　互联网平台上最大的问题是以头像、昵称、私信、评论等为载体场景多变的导流广告内容，其中不乏涉及色情、赌博等违法行业的广告。在解决内容层面的欺诈作弊行为时，数美科技专业的反欺诈团队运用了深度学习算法、经典机器学习算法等多种技术手段，解决内容反欺诈中面临的语义分析、变体及干扰。

　　单一模型或算法无法识别所有垃圾内容，数美科技在内容反欺诈方面运用的是深度学习算法lstm理解记忆相对较长的语境，同时结合经典机器学习算法SVM去捕获当前段落内容中存在的垃圾短语，共同拦截垃圾内容。

　　内容反欺诈的难点之一是当互联网灰产发现其垃圾内容被拦截后，会以变体内容的形式传播以达道绕过反欺诈策略的目的。数美科技采用的Char&WordEmbedding则靠相似度去识别这种变体，同时对于在变体中加入的干扰手段则采用CRF序列标注先将干扰手段剔除，再对文本内容进行切词等处理方式识别垃圾内容。

　　在用机器学习解决反欺诈问题时，深度神经网络、GBDT、SVM及随机森林等机器学习算法都可归结为统计学习，对其解决的问题有“分布统计相对稳定”的假设。而作弊时的行为是被刻意改变的，在统计学上分布情况是不够稳定的，对此，数美科技运用非监督的异常检测(Anomalydetection)算法，从统计学习稳定性的维度去识别这些异常点。该方法同样适用于语音和视频。

　　互联网反欺诈经典问题二：行为反欺诈

　　互联网行为反欺诈中，渠道推广时的虚假注册、大量盗号以及互联网产品或平台在进行营销活动时薅羊毛行为由来已久，针对传统的反欺诈策略互联网灰产技术也在不断实现突破。例如：渠道推广时的留存率验证、手机验证码等都通过“与时俱进”的技术提升而绕过传统的反欺诈策略。但行为欺诈存在“资源有限性”的核心问题。比如需要大量设备。

　　数美科技全栈防御体系根据虚拟机存在的漏洞，在虚拟机架构和CPU架构不一致时，通过检测CPU架构的方法来识别虚拟机。而针对Hook模式的设备篡改手段，可通过扫描地址空间的特征来识别；针对刷机的篡改手段，则通过统计手机型号下硬件信息组合出现的小概率事件来识别。

　　梁堃补充道，数美科技全栈防御体系在识别篡改设备时运用到的技术包括：

　　1、基于软件特征、硬件特征、行为特征的监督学习GBM模型；

　　2、硬件信息相同与行为的异常点检测；

　　3、设备的集体行为挖掘的设备农场识别；

　　4、包含对资源复用设备有效识别和账号异常识别的关联分析和结对分析。

　　反欺诈不能期望于单一的模型或策略

　　数美全栈防御体系立体式结合布控体系、数据体系和策略体系，推出四大产品系：基于关系网络的下一代智能欺诈账号识别引擎——天网、基于画像的新一代智能内容过滤引擎——天净、一站式金融风控解决方案——天信、基于海量数据的风险指数服务——天象，全方位解决互联网内容欺诈和行为欺诈两大问题。

　　数美全栈防御体系之布控体系对用户启动、注册、登录、业务等行为实施检测，通过层层行为打分机制为用户标识风险属性，在多个环节后确定虚拟机等用户并对其实施拦截，既保证正常用户畅通的产品体验，又能过滤掉每一个欺诈行为。

　　数美全栈防御体系之数据体系通过将多行业、多场景、多行为之间的风险特征数据共享，并基于数美构建的核心行为画像数据优势，达到全局风险数据支撑以实现多行业联防联控，共同高效对抗互联网灰产的内容欺诈和行为欺诈。

　　数美全栈防御体系之策略体系通过20多组风险引擎、数万基础特征、数百万高级特征、数十万组高级策略集合的多层、多维度策略，以基础风险引擎的历史画像和实时画像等行为画像判断原始风险，以高级风险引擎分析不同业务场景，对欺诈行为做全局把控。

　　数美科技的团队核心成员来自百度、阿里、腾讯、360、小米等知名互联网企业，在人工智能反欺诈领域有着丰富的实践经验。作为领先的人工智能反欺诈服务提供商，数美科技以“数据智能，美好生活”为使命和愿景，依托人工智能，专注反欺诈，通过构筑数美全栈防御体系，帮助企业客户在不影响正常用户产品体验的同时做到快速、准确地识别欺诈用户、欺诈行为、违规内容并对其进行实时拦截，解决多场景欺诈问题。目前，数美科技已为中信银行、今日头条、小米、爱奇艺、小红书、58同城、国美金融、熊猫TV、一点资讯、游族、蜻蜓FM等1000余家知名企业提供了可信赖的反欺诈服务。

第三十六届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：fanwei

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。