首页 > 大数据 > 正文

浅谈大数据和人工智能

2017-09-12 11:01:14  来源:中国大数据

摘要:自去年AlphaGo战胜李世石以来,AI的热度一致居高不下,将近期了解知识简单梳理,供大家学习和讨论。
关键词: 人工智能 数据
  自去年AlphaGo战胜李世石以来,AI的热度一致居高不下,将近期了解知识简单梳理,供大家学习和讨论。
 
  什么是大数据?大数据时代,数据不再仅仅指数字或数字构成的,数据的范畴要大的多。包括:互联网上的任何内容,比如文字、图片以及视频;书籍中的文字内容;医院里包括医学影像在内的所有医学档案资料;公司里的设计图纸、设计文档等;科学研究中的各种观测数据以及历史研究成果;甚至我们人类活动本身,也可被看成一种特殊的数据,比如我们在微信朋友圈等社交网络的行为,浏览网络的记录,我们每天的出行轨迹、活动范围等。从以上数据来源的纷繁复杂性,大数据的“大”的特征是不言而喻的,但大数据的特征不仅仅是体量大,还需要具备多维度以及完备性的特点,才足以刻画出一个立体的事物。
 
  什么是人工智能?学术界将人工智能分为传统人工智能方法和现代人工智能方法。那么传统人工智能方法是怎样的呢?其实简单地讲,传统人工智能的思路是,首先了解人类是如何产生智能的,然后让机器按照人的思路去做。这是对人工智能直觉认识,早期科学家也在这个方向上进行了很长时间的研究,到20世纪60年代末实在发展不下去了。
 
  20世纪70年代,人类开始尝试机器智能的另外一条发展道路,即采用数据驱动和超级计算的方法。该方法首先被康内尔大学的教授贾里尼克用于研究语音识别,在贾里尼克之前,各个大学和研究所得专家们在这个问题上已经花了近20年的时间,主流的研究方法有两个特点:一是让计算机尽可能地模拟人的发音特点和听觉特征,二是利用人工智能的方法理解人所讲的完整语句。对于第一项研究,又被称为特征提取,大家提取特征的方式不一,好坏也不一。对于第二项研究,大家都采用了传统人工智能方法,基于语法规则和语义规则。但贾里尼克不是语言学专家,而是一位通信专家,在他看来,语音识别其实就是一个通信问题。
 
\
 
  图1 通信过程
 
  典型的通信过程如图1所示。对端是信息源,将所要表达的观点组织成语言然后表达出来,实际上是信息编码的过程。信息源发出的语音通过声道、空气等媒介传播到本端,本端对所接收的信息进行解读,理解对端意思的过程就是信息解码的过程。既然是通信问题,就采用解决通信问题的方法,为此贾里尼克用两个数学模型分别表示信源和信道,找到数学模型后,下一步就是采用统计的方法用大数据训练模型的参数,这就是“机器学习”的过程。在这个过程中,需要有大量的数据和足够的计算能力。

\
 
  图2 数据使用的基本流程
 
  数据使用的基本流程如图2所示。首先获取大量有效数据,然后对数据进行分析,总结事物的某种规律,将该规律固化成模型也就是知识,后续遇到类似的问题,将其作为该系统的输入,即可预测结果。如果在系统非常复杂的时候,我们无法直接获得我们所需要的信息,我们可以将相关联的信息量化,并且找到二者之间的相关关系,对这种相关关系建立数学模型,间接地得到我们所需的信息。也就是说,对于有确定关系的问题,我们可以通过分析得到固有的模型进行描述。但是大千世界,并不是所有的事物都是有确定模型可描述的,对于这类不确定性问题,通过分析数据间的相关性,以数据驱动的方法进行研究。详细的分析见《大数据时代,我们应该有怎样的思维方式》一文。
 
  数据驱动方法在20世纪70年代得以起步,在八九十年代得到缓慢稳定的发展。进入21世纪之后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的人工智能优势越来越明显,当前正在从量变到质变的飞跃中。

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:lixiaojiao

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。