2016年10月30日,清华大数据技术·前沿系列讲座——“数据驱动下的智能交通建模”在清华大学FIT楼多功能厅成功举办,本期讲座邀请到普度大学SatishV.Ukkusuri教授。Ukkusuri博士2005年8月-2009年8月在伦斯勒理工学院土木与环境工程系任职,2009年至2014年是普度大学副教授,2014年6月至今作为普度大学教授,领导着一个跨学科的交通建模和分析实验室,专注于为交通系统复杂网络问题找到解决方案来改善其性能,提高交通系统的弹性以及可持续性。Ukkusuri博士也是公认的美国国家甚至国际领域的交通网络建模和灾害管理专家。
过去四五年间交通领域发生了很多令人兴奋的事情,Google发展了无人驾驶车、Uber革新了传统出租车行业,这是交通行业的黄金时期,传统交通行业在新技术刺激下在时刻发生着变化。Ukkusuri教授所在的研究小组关注于大数据与交通行业的融合,这种融合会在多大程度上使得交通系统研究更为有效以及怎样建模才能更好地理解交通系统,需要通过建模找到使得城市交通系统更有活力、更可持续发展、更有利于城市居民出行的解决方案。本期讲座将关注于交通大数据和智能交通领域数据科学以及数据驱动下的交通建模方法,同时介绍一些研究实践案例。
数据革新下的交通模型
建模需要数据,可用于交通建模的数据来源很多。传统的数据来源主要是路上安装的各类检测器,如地埋式感应线圈、超声波和激光检测器、视频等。这些数据的主要缺陷是覆盖量小以致数据不能很好地反映路网全面的真实情况,这使得传统建模方法多为modeltodata,这是在考虑到当时的数据现实状况之下的无奈之举。
而过去十年间,收集和存储数据的技术不断革新,其中最重要的是智能手机的出现以及智能传感器的大量应用,据估计,到2019年智能机的拥有量将达到19亿,而且配备无处不在的基于位置的登记服务。实时传感设备已经成为廉价和无处不在的设备。这样的改变不仅仅只是增加了交通数据的来源,更重要的是数据量陡增,数据形式更加丰富,这些也在悄无声息地改变着居民的出行行为,相应的交通建模方法也发生了重大变化:datatomodel,让数据本身提供建模方向,从过去那种无奈之举之中解脱出来,随之也带来了新的问题,比如对大数据这个概念的理解。
智能机、智能传感器等的大量应用使得我们可以从中挖掘出很多实时信息,大数据自然是必然的趋势,然而对于“大数据”这个概念的理解还有偏颇。虽然很多学者和学术组织都对大数据这一概念提出过自己的见解或定义,业界对这一概念的认识有公共的部分,但至今还没有公认的定义。Ukkusuri教授在业界对大数据概念公共认识的基础上进一步提出:首先,大数据并不一定是“新”数据,它也可能是传统数据;其次,大数据并不等于好数据,大数据中夹杂着噪声,应用大数据之前需要谨慎地处理;最后,大数据并不一定比“小”数据更优,更可靠,缘由同上。在这需要给大数据一个概念:(1)数据量大(2)数据天然有噪声(3)数据随时间变化;因此处理大数据是一项必须要做且复杂的工程。
既然大数据的处理很难,为什么还要使用大数据?
大数据相对于传统数据来说更具有代表性。Ukkusuri教授在过去几年中在交通建模时所用的数据大都来源于智能机数据、出租车轨迹数据,据统计显示,1670万名美国手机用户使用“登记”服务,其中,1270万,相当于76.3%的用户使用智能手机设备。3.8万?配备GPS设备的出租车在纽约街头穿行。
在有了大数据之后,就要进行大数据建模以对实际问题有更深入的认识。要进行大数据建模,首先,当然要有大数据,这涉及到数据收集;其次,在有了大数据的基础上,就要选择如何处理这些大数据,要用何种建模方法;最后,要选择合适的建模方法,可以做可视化、机器学习、仿真、图像处理等。其中,常见的机器学习算法有分类(classification)、回归(regression)、聚类(clustering)、规则抽取(ruleextraction)等。模型众多,如何从中选择合适的模型?Ukkusuri教授提出6rules去判断模型是否合适。
大数据与交通领域融合项目案例
1、地理定位数据与应用出租车旅行数据做链路行程时间估计
地理定位数据(geo-locationdata)一般是一段时间内的包含地理位置和时间的大样本数据,收集成本低。其特点是事件发生的具体时间点没有详细描述;考虑到隐私问题没有社会经济相关信息;在一些情况中,可能会缺失一些事件,如社交媒介的check-in数据。
应用:给出大规模出租车旅行数据,估算城市链路行程时间。要估算链路行程时间要解决以下三个子问题:数据映射到网络、路径推理以及基于OD估计链路行程时间。整体解决方案如下图所示:
模型如下图所示:
算法如下图:
2、社交媒体数据分析与城市活动模式分类
社交媒体数据形式多样,在Hasan,S.,Zhan,X.,&Ukkusuri,S.V.(2013,August)。Understandingurbanhumanactivityandmobilitypatternsusinglarge-scalelocation-baseddatafromonlinesocialmedia.InProceedingsofthe2ndACMSIGKDDinternationalworkshoponurbancomputing(p.6)。ACM.文章中使用纽约的check-in数据来对城市模式进行分类。
在这篇文章中使用的check-in数据如下图所示:
3、应用e-hailing数据对出租车市场建模
Uber、滴滴等打车软件的出现对传统出租车市场影响很大,在给消费者带来切身利益的同时,要考虑在这些打车软件出现后如何对出租车市场建模以提出相适应的政策以便规范出租车市场。Ukkusuri教授建立了两个模型:传统出租车服务模型(traditionaltaxiservice,TTS)、基于app的第三方出租车服务平台模型(app-basedthird-partytaxiservice,ATTS),三方博弈模型(如下图所示),以及多重领导者-追随者模型(multiple-leader-followergame)来解决这一问题。
4、社交媒体数据分析与紧急疏散
在Ukkusuri,S.V.,Zhan,X.,Sadri,A.M.,&Ye,Q.(2014)。ExploringCrisisInformaticsUsingSocialMediaData:AStudyon2013Oklahoma2Tornado3.TransportationResearchRecord,44(45),46.文章中应用社交媒体数据来应对紧急事件发生后人员疏散问题。
5、社交媒体数据分析与土地应用
在文章Zhan,X.,Ukkusuri,S.V.,&Zhu,F.(2014)。InferringUrbanLandUseUsingLarge-ScaleSocialMediaCheck-inData.NetworksandSpatialEconomics,14(3-4),647-667.中应用社交媒体数据分析土地的合理应用。
大数据潜力无穷,要想在交通大数据领域有所成就,需要在优化、统计、机器学习、复杂网络方面有深入学习,同时还需要提高编程(c++、Python)能力和加强国际合作。
在演讲后的问答环节,Ukkusuri教授回答了同学们关切的问题。整场活动干货满满,嘉宾精彩的分享使参与活动的学生和业界人士反响很热烈。本次活动由清华大学数据科学院和恒隆房地产研究中心主办,清华大数据产业联合会协办。
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:houlimin
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。