首页 > 大数据 > 正文

大数据痛点

2016-03-22 16:51:13  来源:36大数据

摘要:在政府和市场的双重催动下,那些原本封存在服务器里的陈年数据,成为一座座蕴藏丰富的“金矿”。然而,能真正做深度挖掘的企业并不多,这一领域正在等待着“杀手级”应用的出现。
关键词: 大数据
公共数据围墙
 
  政府部门不会轻易放开掌握的数据。
 
  一位中外合资农业公司的市场总监就曾碰过钉子。他数次联系国家气象局,希望拿到一些农业大省历年的气象数据和实时的观测数据。通过数据分析,这家公司可以筛选出最适合当地的种子,进一步开发出手机APP,即时给农民推送农时建议。
 
  全国政协委员、通威集团董事局主席刘汉元在今年“两会”的提案中提到,建设农业大数据平台,可以提前预测农业产量,使农业的生产更具计划性。类似的农业大数据服务,美国孟山都公司旗下的Climate Corporation早已推出。
 
  然而,政府机构由于自身定位和责任机制,缺乏放开公共数据的动力。国家气象局就婉拒了上述农业公司市场总监的数据合作请求。
 
  气象数据具有垄断因素,气象局如果不肯提供原始裸数据,商业机构是无计可施的。
 
  商业类气象服务的推广则需要国家气象部门授权。
 
  从知识产权保护角度看,只有原始裸数据,商业机构可以无偿抓取利用。如果被抓取的数据是经气象局二次加工的,那么这些数据就具有知识产权,因为这时的数据里面增加了人的智力、劳动成本,所以气象局向商业机构收费属于合理行为。
 
  公开报道显示,天气服务类软件墨迹天气上线之初,是从网上抓取的天气数据,后来气象局找上门来要求付费,开价一年几十万元。这对初创的墨迹天气来说,也是一笔大开销,只好另想办法。
 
  一位业内知情研究员介绍称,气象局有官员曾在一次论坛上表示,向抓取天气数据的软件公司收费,是政府定价行为,属于有偿服务。
 
  即便用于研究,数据也并不易获取。作为中国科学技术协会副主席,同时在清华大学、北京航空航天大学兼任教授,张勤有丰富的与公共部门项目合作的经验,他在一次学术会议上抱怨道,“搞大数据的人,却时常感到没有数据可用。”
 
  张勤与北京一家医院合作,运用数据分析眩晕疾病的一些规律。合作医院从多年积累的病例数据库中随机筛选出60多个案例。在统计学上看,这点数据量不够消除“噪音”——数据干扰因素,很难发现有价值的规律,可合作医院拒绝提供更多的案例。
 
  张勤的遭遇,也是中国不少研究者和产业界的感受,公共数据资源太封闭。2015年4月,国际着名期刊《自然》刊文称,中国的研究者现在连获取普通信息都越来越困难,比如,机动车保有量的数据。原因是,大多数的公共领域数据都攥在官方机构手里,其中有些机构正在加强它们的垄断地位,这使信息更难以获取。
 
  同样出于利益考量,一些政府部门担心,随着数据的开放,本部门履职的行动自由会受到束缚,原来不透明的部门行为被公开后,可能招致舆论批评甚至诉讼,因而没有意愿主动开放数据。
 
  上海市市委书记韩正曾表示,当前政府掌握着相对齐全的数据,却一直存在着纵向和横向分割的问题,并没有真正打通和共享。
 
  政府机构拥有公共数据无法适度开放,并不能使信息增值。挖掘政府大数据价值最好的办法是,适度允许私营部门和社会公众访问。例如,香港公共数据开放网站“资料一线通”的口号就是“公共资料,增值利用”。
 
  天津市信息中心工程师刘叶婷分析,由于在国家层面尚未构建起完善的公共数据开放战略,因此难以形成从中央到地方的多级公共数据开放体系。
 
  一些地方政府和部门希望把握本地区、本部门的公共数据,进行商业开发,做成辖区内“统一”数据系统。这样的系统开发,可能在建成后涌现出一个地方性的,或者部门性的信息垄断机构。
 
  抛开主观意愿,官方机构能不能拿出高质量的数据资源,也是一个问题。
 
  北京大学中国卫生经济研究中心主任刘国恩与美国斯坦福大学合作,聚焦于中国医院的管理水平,研究中要用到医院地址、电话号码、有多少床位,以及每年的死亡人数等数据。他以为这些医院的基本信息,地方政府和卫生计生部门手里肯定有,但两年时间里,大概只凑齐了六成数据。
 
  复旦大学数字与移动治理实验室的研究表明,开放政府数据,首先应在地方层面探索。目前地方政府的数据开放量较低。
 
  科大讯飞2013年与安徽省芜湖市合作开展社会管理服务项目。拿到地方政府提供的数据资源,科大讯飞的工作人员把数据清洗、比对后发现,很多数据合在一起后对不上,甚至存在矛盾。比如,对比民政部门的死亡数据与公安部门的户籍数据发现,存在几千人都去世了,还在发退休金的案例。
 
  陈涛曾感慨,如果不是芜湖市政府党委书记与市长坚持,“不交数据、就交帽子”,科大讯飞也很难拿到各部门掌握的数据资源。在与地方政府的合作中他还发现,政府对数据的采样频度是比较低的,算不上严格意义的大数据。
 
  工业和信息化部电子信息产业与信息化研究所所长李苑建议,政府的很多数据没有集中管理,还处于信息孤岛状态,这些都是开放数据需要解决的问题。
 
  搭平台立规则
 
  一方面政府部门对所掌握的大数据开发利用,最缺乏的是技术与发掘数据价值的能力,另一方面政府部门自身有越来越强烈的大数据应用需求。因此,如何放开和利用公共数据,需明确规则。
 
  中关村大数据产业联盟副秘书长陈新河注意到大数据应用会议上的有趣变化,2014年,大家谈的都是精准营销,2015年谈的多是传统行业,现在聚焦于政府、金融和医疗等领域,“政府,是一个最大的应用软件支付方”。
 
  比如,很多大城市的政府职能部门,都面临着如何让城市变得更加智慧这一庞大的课题。
 
  某地虚报了工业产值,但用电量和能耗却没有达到相应的规模。这种异常很容易被大数据系统识别出来。发现异常后,相关部门展开复核,可以更有针对性地防止、打击数据造假。
 
  政府对大数据、云计算的需求增长,于是,与企业“点对点”的战略合作协议增多。高德能够拿到交通部门的数据,是基于与交通部的合作框架,而这种合作又依赖于高德积累了十几年的导航技术与智能交通的探索,这与政府现在或者未来的政策相契合,能给双方带来互惠互利的正反馈。
 
  “用移动互联网的创新思维,搭载大数据技术去改变政府的服务,流动的是数据,人不用再跑来跑去。”陈涛说。科大讯飞在人工智能方面的口碑,为其赢得安徽芜湖项目的订单。芜湖在全国率先以数据交换、共享方式,整合全市政务资源,户籍、人社、司法、卫计等部门,将统计数据交给市政府,科大讯飞开发软件,清洗这些数据后,统计汇总成一个个市民从出生到现在的所有证件、公开信息。
 
  谈判、合作、协商、协议,这种政府开发大数据的方式,只适合针对个别企业的合作。能拿到公共大数据的企业,一类是技术在业内独具一格,或出身于事业单位、政府部门,另一类就是BAT这样的互联网巨头。
 
  虽然这看上去似乎对其他企业不公平,但公共数据先行向这两类企业试水放行,有其合理之处:一方面这些公司的技术能力或者资源更强,另一方面在大数据隐私保护方面也更可控。董振宁告诉《财经》记者,“(与政府)合作有严格的规范制约,什么该做、什么不该做,双方都有约定。”
 
  作为研究者,刘国恩去找地方统计局、医保局的领导,对方好不容易拿出数据后,都会小心翼翼地再三嘱咐千万不要把数据拿出去。刘国恩也害怕自己一不小心触碰红线。他呼吁,一定尽快把法律的红线划清楚,“哪怕划了以后,比以前的空间显得更窄一点,也要让业内知道这是红线”。
 
  开放公共数据,也面临着泄密风险,这使政府部门也不得不谨小慎微。哪些数据可以公开,哪些数据需要脱敏,如何整合各个地方的数据,地方官员对这些未必清楚。
 
  从这个角度,张勤明白合作医院的苦衷,“他们不愿意把数据拿出来,这涉及到隐私和知识产权两方面”。最简单的问题,病历属于电子数据,到底属于谁?法学界还存有很多争议。
 
  因为病历的着作权属于医生,医生的着作权又属于医院的职务行为,所以病历属于职务作品,而其中的数据还涉及患者个人隐私,因此,商业机构如果想对医疗数据进行使用开发,就需事先征得医院、患者等多方面的授权同意。
 
  科技部早已意识到对科学数据共享的立法和政策,并已立项多个研究课题,北京大学法学院教授张平多年来一直承担其中的课题,她向《财经》记者介绍,政府公共部门在披露公共数据、科学数据等信息数据时,应该注意避免披露涉及国家安全问题,或涉及个人隐私信息和商业秘密方面的数据,否则会有法律的风险。
 
  因为用户隐私信息、商业秘密等都属于私权范围,业内常遵循“谁拥有谁控制”原则。
 
  比如,美国就有“E-government Act”,俗称阳光法、《信息自由法》《隐私权法》等,对政府掌握的信息公开的范围有严格的规定。
 
  同时在操作上,欧美国家的合同协议机制也相对完备。比如,去欧美国家大学实验室做研究员,刚进去时就会被要求签厚厚一摞合同协议,对所有涉及隐私数据等方面的使用和管理,都会提前约定好,一次性签完合约。刘军介绍,在美国,研究者和企业想拿到医疗数据,“要填好多表,过很多关”。
 
  开发使用数据,较好的办法是通过合同协议机制来约定,规避敏感数据泄露风险,还可以采用数据脱敏技术,即通过技术手段对个人数据信息去识别化。其中姓名、性别、身高、身份证号码等都是需要重点进行脱敏处理的数据,尤其在医疗、金融、电信等领域,都包含大量这类数据信息。
 
  但数据的知识产权问题,还需要法律界的研究。政府与企业合作数据开发项目,政府除了要处理可能涉及的个人隐私信息数据的泄露问题外,还应处理好怎样对开发后的数据定价的问题,因为这包括如何补偿开发企业的投入成本等。另外,如何避免数据被过度商业性开发利用也值得深思。
 
  “毕竟很多公共数据都是用纳税人的钱采集的,政府不应该以此作为赚钱工具。”一位法律界人士对《财经》记者表示。
 
  在科学数据方面,欧美国家建立了汇交、共享的开放平台和机制,同时还有科学数据的共享法律。中国还没有统一的数据中心,没有专门的管理法律,更没有建立起完备的合同协议机制,这就给个人隐私数据的后续使用、管理留下了隐患。
 
  美国联邦政府在开放公共数据过程中,采取了阶段性逐步开放策略,根据数据被需求度、涉密度等多个因素的考虑,将数据划分为立即开放、短期内开放、计划开放、暂时无法开放四个类别。
 
  业内专家分析称,每个国家在开放公共数据时,都受国家安全和国家利益驱动,会优先考虑所开放的数据是否会对国家政治、经济安全造成负面影响,美国也不例外。基于此,美国会将过去20年的公共数据开放,但如果涉及高精尖技术的数据,就不会开放。
 
  北京理工大学网络法研究所研究员孟兆平认为,中国政府开放公共数据应基于开放式的数据平台,可供各种需求者使用。首先要搭建起数据中心的基本模型,再考虑如何创新与企业合作开发数据的模式,使数据平台能“自我供血”维持运营。
 
  2015年9月,国务院印发的《促进大数据发展行动纲要》称,政府数据统一开放平台将在2018年底前建成,率先在气象、环境、信用、交通、医疗、卫生等20余项重要领域,实现公共数据资源合理适度向社会开放。
 
  “各部委真正去执行纲要内容,最快也要到今年两会以后,纲要具体变为立法立规则还需要一定时间。”孟兆平说。
 
  这不是一个容易完成的任务。科技部曾做过科学数据汇交的工作,仍无法做到将所有数据整理到统一的数据库中。现实中,很多数据都散落在承担不同项目的科研人员手里,只能按专业分类,分散在不同的数据中心和职能部门中。张平称,实际上对于有些公共数据,政府也无法全面掌握。
 
  张平建议,国家应当通过投资和立法,加强对医院、大学以及国家投资的科研项目产生的数据进行管理。
 
  另外,政府还应采取不歧视政策,鼓励全社会(包括私人部门)以工本费(不超过数据复制和传递过程中产生的费用)的价格使用数据。
 
  迫于2018年数据开放的压力,国家气象局直属企业华风气象传媒集团有限责任公司(下称华风)开始寻找战略合作者,希望借此来增强自身的数据分析能力,保持在气象数据应用方面的领先地位。
 
  华风的对手已经隐现。2016年1月20日,阿里云宣布与国家气象局达成合作,向公众开放气象服务数据,并共同深挖气象大数据的商业价值。
 
  此举让华风的一位项目负责人颇感意外,此次开放了国内县级以上站点实况,包含温度、湿度、风、气压、降水量、天气现象等,都是核心数据。
 
  开放公共数据,意味着数据资源在政府、社会间实现自由流动,这是政府行为的一项重大变革,涉及部门越多、范围越大,数据开放难度也就越大。

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。