原数据三分钟教你识别互联网平台真实点击和播放量数据

2019-12-17 16:38:38 来源：互联网抢沙发

2019-12-17 16:38:38 来源：互联网

摘要：互联网平台大部分是由互联网公司创立的，供第三方商家和服务商给终端用户提供(生活、娱乐、学习等)服务或者商品(消费品、生产资料等)销售的网络平台。
关键词：数据分析

　　互联网平台大部分是由互联网公司创立的，供第三方商家和服务商给终端用户提供(生活、娱乐、学习等)服务或者商品(消费品、生产资料等)销售的网络平台。其市场组成者主要包括互联网公司、第三方商家或者服务供应商(卖家)、以及终端用户(买家)。其中，点击量、播放量和用户数是反映平台潜力用户群规模和评估互联网平台商业价值的重要指标。

　　一方面，为了吸引投资者投资扩大平台规模和发展，各平台特别是新兴平台有强烈的利益驱动数据造假，虚增点击和播放量，来吸引投资者注意从而增加投资。另一方面，由于运营数据的不公开，以及自动点击、自动注册、自动播放等工具的低成本运用，使得造假成本很低，需要借助原数据等第三方尽调审查团队才能有效识别，而专业的尽调团队却很少，因此互联网行业内造假行为比比皆是，“野草烧不尽，春风吹又生”。

　　点击量的计算以用户进入该网站为基础，进入一次网站算一次点击量。播放量以进入网站后点击播放视频为基础，点击一次为播放一次。按照此种计算逻辑，同一IP地址在不同时间点进入同一网站或者点击同一视频播放都可以被重复计算，因而给数据“注水”带来很大空间。

　　业内比较有名的视频网站造假案例是2015年9月原WE队员微笑在斗鱼TV直播的时候，显示同时观看人数达13亿，这意味着在同一时间全国男女老少同时放下手中任何事情一起上线观看该主播。再比如2018年“马蜂窝”事件，由独立调查者发现马蜂窝2100万条用户评论有1800万条是从其他网站通过爬虫搬运的，占马蜂总评论数85%。而且，这些评论都是在工作日和工作时间写的，下班后或者周末反而消失了，点评数断崖式下跌。

　　这两个案例集中反映了互联网平台数据造假的基本方式：运用自动化工具或者程序产生大量的点击和播放量，虚增数据。

　　如何识别互联网平台点击播放数据造假行为?原数据团队作为独立的第三方数据尽职调查和互联网数据真实性审查的机构，认为解决问题的主要逻辑即为“对症下药”，基于造假数据和真实数据的主要区别，识别造假数据。主要方法包括：常识识别、数据分析基础上的行为识别、和通过技术手段识别。

　　1、常识识别：2019年中国网民规模为8.54亿，手机网民规模为8.47亿，smart phone手机持有人7亿左右。因此，如果视频在同一时间播放量动辄上亿，数据极有可能造假。

　　2、数据分析基础上的行为识别。造假数据反映的行为模式和真实数据是不同的，因为造假数据极有可能来源于自动点击或者自动播放工具，而真实数据来自于真实用户行为。其主要区别体现在流量数据峰值和底部的时间段、持续时间和偏好。如果流量数据的峰值主要在工作时间或者半夜、持续时间短而且出现跳崖式急跌等，则该类点击很有可能是机器所为，非真实用户。

　　3、技术识别是最直接有效的手段。除了取得平台的运营数据和日志以外，“埋点“也可以作为取得原始数据的重要手段。埋点，即通过将采集数据的代码，加载在前端(如网站、APP、小程序等)和后端(数据库服务器)上。收集到原始数据以后，可以通过IP地址分析、终端类型分析、播放时间长度分析等识别造假数据。

　　通过以埋点采集到的数据，以点击时间、关闭时间、播放开始时间、播放结束时间、终端设备类型、IP地址地区、Wifi或者流量播放、注册用户、付费用户、购买产品、用户性别(若有)、用户年龄(若有)、是否重复购买、重复购买的产品等等数据从被调查公司数据库中提取，导入系统进行分析。

　　分析使用的主要算法是通过卷积神经网络算法(Conventional Neural Network)对已有用户行为进行识别和分析，提取稳定特征，并根据新的用户行为数据比对提取出来的稳定特征对是否数据造假进行预测。卷积神经网络是深度学习算法的一种，是近年来广泛运用的模式识别和用户画像等领域的一种高效识别算法。

　　其主要字段如下：

　　图一：主要输入字段

　　分析代码如下：

　　图二：算法逻辑

　　通过运行算法，以业内成熟平台数据和被调查公司数据比对，得到预测图形如下。可以看到，在进行播放数据预测时，预测数据和实际数据之间差距明显，存在数据造假可能。

　　图三：卷积神经网络预测播放量

　　在对单个用户行为是否造假进行分析时，选择单个用户的各项特征为自变量，以“是否播放”为因变量，得到预测图形如下。从图形中可以看到被调查平台实际值大部分都是“播放”，而通过成熟平台训练后的模型预测只有部分为“播放”，预测和实际值差距明显，存在数据舞弊可能。

　　图四：卷积神经网络预测是否播放造假

　　最后，再对被调查平台的各项字段进行详细分析，如点击集中时段、播放集中时段、终端类型、wifi或者流量播放等，对造假数据进行定量评估。

　　数据造假行为冲击的不仅是同行业良性竞争，也会对于市场资源的有效分配造成恶劣影响，从而影响整个行业的生态和市场参与者的信心，导致“劣币驱逐良币”的市场失灵现象。原数据(odatadd.com)作为专业网络数据尽职调查和真实性审查的团队，致力于识别互联网世界的造假行为，帮助投资者和股东鉴别与跟踪互联网平台的真实运营情况，减少投资风险。原数据作为独立的第三方尽调机构，希望通过自己的专业服务，为互联网行业减少造假行为、维护良好生态贡献自己的心力。

第三十六届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：liukai

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。