数据质量和安全是发展人工智能的第一需求

2018-09-17 09:27:06 来源：数邦客抢沙发

2018-09-17 09:27:06 来源：数邦客

摘要：近些年来，随着大数据在各个行业领域应用的不断深入，数据作为基础性战略资源的地位日益凸显，数据标准化、数据确权、数据质量、数据安全、隐私保护、数据流通管控、数据共享开放这些问题越来越受到国家、行业、企业各个层面的高度关注。
关键词：人工智能数据质量

　　数据治理：大数据产业生态系统中的新热点

　　先说数据治理，近些年来，随着大数据在各个行业领域应用的不断深入，数据作为基础性战略资源的地位日益凸显，数据标准化、数据确权、数据质量、数据安全、隐私保护、数据流通管控、数据共享开放这些问题越来越受到国家、行业、企业各个层面的高度关注，更多的人开始意识到，大数据：

　　一方面给现有信息技术体系带来了大挑战，需要更多的研发投入和创新；

　　另一方面，也需要营造更有利于大数据产业健康有序发展的良好环境，这样一来，数据治理的概念就越来越多受到了关注，成为目前大数据产业生态系统中的新热点。

　　上世纪80年代，随着数据随机存储和数据库技术应用，产业界首次提出了数据管理的概念，这就是数据治理最早的起源。

　　2009年，国际数据管理协会（ DAMA）发布了数据管理知识体系DMBOK1.0，提出DAMA数据管理理论框架模型，成为了目前行业最权威的数据管理理论模型，DAMA 数据管理模型包括10个活动职能，分别是数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理和数据质量管理。

　　2015 年，DAMA 新发布的DBMOK2.0知识领域中又将该模型扩展为11个活动职能（见下图）。在2012年，另一个行业组织数据管控协会（DGI，The Data Governance Institute）提出了DGI数据管控框架模型。2014年，软件工程研究所（SEI）基于软件能力成熟度集成模型（CMMI），提出数据能力成熟度模型（DMM）。

　　2015年，一个主要面向金融保险行业数据管理的公益性组织企业数据管理协会（EDM Council），提出数据管理能力评价模型（DCAM），另外还有像Gartner提出的企业信息能力成熟度模型（the EIM Maturity Model）、IBM企业数据管理能力成熟度模型以及一些咨询公司如毕马威、普华永道等发布的细分行业数据管理体系架构等。

　　在我国：

　　2015年，工信部电子技术标准化研究院制定《数据治理白皮书》国际标准研究报告。

　　2017年，工信部信息通信研究院发布《数据资产管理白皮书》。

　　2018年4月，国家大数据标准化工作组发布了国家标准《数据管理能力成熟度评估模型GB/T 36073-2018》（简称《DCMM模型》）。

　　2018年5月，银保监会印发《银行业金融机构数据治理指引的通知》。

　　近年来，国内各行业大型企业也纷纷发起企业内部数据治理项目，制定数据治理规范，成立专业的数据管理实体团队来开展企业数据治理工作。

　　上面提到的这些种种数据管理模型，奠定了此后诸多行业化、定制化数据管理模型的基础，各个企业纷纷在这些已有理论模型基础上扩展、裁剪、引申、演化，可谓百花齐放。

　　企业开展数据管理类的工作，除了使用“数据治理”这个词，业界也经常使用 “数据管理”、“数据管控”、“数据资产管理”等说法。总之，这几个词语，概念略有差异，内涵基本一致，大家做的事，基本都跳不出DAMA数据管理模型的范围。

　　人工智能：大型科技企业争夺未来的主战场

　　提到人工智能，近年来可谓炙手可热，产业界资本的积极布局，国家政府层面的大力宣传，还有一些像自动驾驶、机器人、智能客服、语音识别等方面实际应用的涌现，使得人工智能方面的人才身价倍增，很多大型科技企业也紧随趋势，成立了AI研究院、人工智能研发中心等实体组织。百度李彦宏宣称：“百度公司将不再是互联网公司，而是一家人工智能公司”。通信业巨头中国移动也高度重视人工智能，于2017年发布了“九天”人工智能平台，正努力将人工智能技术应用在网络、市场、服务、安全、管理和衍生业务等多个领域。就如一句段子所说：现在混在科技圈的，如果不说自己搞人工智能，都不好意思跟人打招呼。

　　人工智能已经成为了大型科技企业争夺未来的主战场，虽然尚不清楚，借助了更大的数据量（大数据）、更快的计算力（GPU）、更强的算法技术（深度学习等），过去数年间这个一度沉寂的领域，这一波的爆发能持续多久的时间，但技术发展一般都呈现波浪状，大数据的一波未平，人工智能一波又起，随着人工智能和社会各行业各领域不断融合和创新，相信在这新一轮的科技革命和产业变革进程中，人工智能技术将扮演更加重要的角色。

　　人工智能的研究范畴包括自然语言处理，知识表现，智能搜索，机器学习，知识获取，组合调度问题，感知问题，模式识别，神经网络等等，它的目标是希望计算机拥有像人一样的智力能力，可以替代人类实现识别、认知、分类和决策等多种功能。

　　人工智能更是历史悠久

　　1959年，计算机科学之父图灵发表了一篇划时代的论文《计算机器与智能》，文中提出了人工智能领域着名的图灵测试：如果电脑能在5分钟内回答由人类测试者提出的一系列问题，且其超过30%的回答让测试者误认为是人类所答，则电脑就通过测试并可下结论为机器具有智能。

　　1956年，达特茅斯会议推动了全球第一次人工智能浪潮的出现，当时乐观的气氛弥漫着整个学界，在算法方面出现了很多世界级的发明，其中包括一种叫做增强学习的雏形（即贝尔曼公式），增强学习就是谷歌AlphaGo算法核心思想内容。现在常听到的深度学习模型，其雏形叫做感知器，也是在那几年间发明的。第一次人工智能冬天出现在1974年到1980年，人们发现逻辑证明器、感知器、增强学习等等只能做很简单、非常专业且使用场景很窄的任务，稍微超出范围就无法应对。在80年代出现了人工智能数学模型方面的重大发明，其中包括着名的多层神经网络（1986）和BP反向传播算法（1986）等，也出现了能与人类下象棋的高度智能机器（1989）。于是，大家又开始觉得人工智能可能还有戏。

　　然而，1987年到1993年现代PC的出现，让人工智能的寒冬再次降临。当时苹果、IBM开始推广第一代台式机，计算机开始走入个人家庭，其费用远远低于专家系统所使用的Symbolics和Lisp等机器。相比于现代PC，专家系统被认为古老陈旧而非常难以维护。于是，政府经费开始下降，寒冬又一次来临。人们开始思考人工智能到底往何处走，到底要实现什么样的人工智能。之后，出现了新的数学工具、新的理论和摩尔定律。人工智能也在确定自己的方向，其中一个选择就是要做实用性、功能性的人工智能，这导致了一个新的人工智能路径。由于对于人工智能任务的明确和简化，带来了新的繁荣。标志性事件就是1997年IBM深蓝战胜国际象棋大师。

　　2011年，“深蓝”的同门师弟“沃森”在美国老牌智力问答节目《危险边缘》中挑战两位人类冠军，又使人工智能更上了一层台阶。

　　2016年3月15日，谷歌研发的AlphaGo挑战围棋九段高手李世石，最后AlphaGo以4:1击败李世石，完爆人类，由此将人工智能推向了高潮。人们开始意识到机器智能已经在很多领域超越人类，甚至有人担心，未来机器人会控制人类，人工智能的发展已经到了前所未有的高度。（内容摘自网文《人工智能过去60年沉浮史》）

　　数据治理和人工智能，看似不相关的两个词，他们两者放一起，会发生什么故事呢。

　　确保数据质量和安全是发展人工智能的第一需求

　　如今，企业对于全面数据治理的需求从未如此强烈。监管机构希望企业能更加清晰地了解数据，对它进行有效的管控；企业管理层希望理清数据资产，降低数据应用的复杂性，对企业进行更高效的管理；企业员工也开始认识到数据的重要性，更多地采用数据驱动的方式来开展工作。数据治理正迅速发展成一种企业核心策略，只有做好数据治理，让数据更加准确完整，并且安全合规，才能释放出数据的无限潜能，挖掘出更多有价值的数据应用。

　　而人工智能技术在应用和实践中，确保数据质量和数据安全是最基础的底层保障。由于人工智能的落地应用效果会受到数据质量和安全的影响，更多的企业开始反思并转而去推动数据质量和安全的提升，提供数据质量和安全评测工具，建立好的数据环境，再进行人工智能应用的同步研发。

　　大数据是人工智能技术研发、训练的关键，是人工智能长期发展的重要保障。只有当人工智能系统能够获取更为准确、及时、一致的高质量数据，才能提供更有效、有用、精准性高的智能化服务。根据埃森哲在2018年4月的一份调研发现，中国制造企业在运用人工智能技术时面临一系列挑战。其中，52%的受访中国企业将数据质量列为突出挑战，数据安全与网络安全紧随其后（47%）。在2017年4月的一次研讨会上，围绕人工智能话题，华为任正非提出：“高质量的数据是人工智能的前提和基础”。当前，不管是人工智能技术的研发，还是人工智能应用领域的发展，“数据质量”都是一个不可或缺、位于重中之重的要素。

　　人工智能发展的另一个重点保障就是数据安全，人工智能系统的基础是大数据，要对外提供服务，就会涉及数据的安全保护，在这个过程中，一系列的数据安全防护手段是必不可少的，如数据脱敏管理，对敏感信息的风险评估、使用监控，对数据的泄露检测，数据库保密检查等。人工智能需要海量的数据，人工智能技术的进步取决于各种来源数据的可用性，如何确保这些数据的安全性与保证用户数据的隐私性是数据质量之外又一个重要问题。同时，通过对业务数据应用语义计算、数据挖掘、机器学习、知识图谱、认知计算等人工智能技术，也可以促进企业数据安全保障体系完善。

　　因此，数据安全和人工智能两种技术起到了相互促进、相互完善的作用。
第三十五届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：zhangxuefeng

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。