2009-11-11 20:35:55 来源:CIO时代论坛
中国图书馆界的年度盛会,2009中国图书馆学会年会11月3日在绿城南宁隆重开幕。本届年会恰逢中国图书馆学会成立三十周年暨年会召开十周年,全国图书馆人齐聚南宁,共商图书馆发展大计。年会的主题是“中国图书馆事业:科学·法治·合作”,大会主旨报告、主分会场围绕主题展开充分的交流与研讨。学会顾问、学术委员会主任、北京大学资深教授吴慰慈的主旨报告《中国图书馆学的发展与新一代图书馆学人的使命》,对30年学术进行回顾与前瞻,16个分会场也围绕“科学”、“法治”与“合作”的命题陆续展开。
在会议上,北京托尔思信息技术股份有限公司的李健萍做了关于中国政府公开信息整合服务平台的技术实现的发言:
作为平台的技术提供商,TRS很高兴有这个机会在这里与大家共同交流和讨论。
之前国家图书馆的陈馆长和梁老师已经介绍了平台的主要情况,我这里主要是从技术实现角度出发,跟大家一起探讨和交流平台的技术实现的经验,平台建设中的关键技术难点和解决办法,以及合作共建的联盟化的建设方式探讨。
1.平台技术实现
从前面领导的介绍中,我们知道“中国政府信息公开整合服务平台”是国内首个政府信息垂直搜索引擎,为什么这么说?我们可以从平台的架构图来说,平台在数据层采集并整合了各级政府网站政府公开信息,建立了权威全面的政府公开信息、政府公报、政府机构等专题资源库,在上面的表现层,面对广大用户,构建一个方便、快捷的政府公开信息整合服务门户,对于广大用户,只需要在一个窗口、一个检索界面就可以一站式地发现并获取全方位的政府公开信息资源及相关服务。目前在国内还没有任何一个这样的其他平台,因此我们说该平台是国内首个政府信息垂直搜索引擎。
在数据层和表现层之间,平台在应用层做了大量的技术工作,来保障用户透明的享用资源和服务。首先是网络信息的采集技术,主要针对各级政府公开信息的信息源,包括采集的策略、采集的任务和管理;数据的入库、排重、过滤等等。信息采集完成后,会通过数据加工工具,完成信息资源处理这一过程。其中包括信息的抽取、元数据标引、自动分类、自动摘要等;然后是信息的整合、信息的检索,通过检索引擎提供简单、高级检索服务;通过信息发布服务,为公众提供一站式服务,最终我们会形成中国政府公开信息整合服务门户。
系统后台主要的软件平台支撑,是TRS主流的搜索引擎、文本挖掘、信息发布服务等主要产品。基于这些软件建设了实际可运行的平台,首先通过网络信息雷达,实现对互联网上各级政府公开信息的采集;通过文本挖掘系统,实现对信息的智能处理,加工完成后通过关系型数据库对信息进行存储;然后通过全文数据库对所有的信息进行整合,进行全文索引。另外,在这个平台里,考虑到对互联网公众服务的运行效率,系统采用了多机集群的模式,最上层通过内容分发服务提供检索发布。通过以上软件建设了最终的政府公开信息整合服务门户系统。
2.平台核心建设难点
目前平台已经建设完成,并已经与广大用户见面了,在几个月的运行当中,访问量不断在大幅增加,但是这并不是说该平台的建设没有任何难度。
平台建设过程中的核心难点是:目前各级政府公开出来的信息由于是通过网站来提供服务的,内容的样式、格式是不一致的。尤其是元数据项和分类不统一,多数政府单位没有按照统一的分类体系标准和元数据标准对政府信息进行有效的梳理和组织。还有很大一部分公开出来的信息,元数据标引的不够完整,或缺失的比较多,这是目前通过各级政府网站公开出来信息的基本现状。
因为平台需要对公开信息进行有效的整合,在加工阶段需要基于统一的标准对信息进行有效的梳理,由于这种不规范的现状,平台需要对各级政府的公开信息站点和服务采取一对一或分别定制采集的策略,尤其是元数据的定位和分析抽取策略。
针对这种情况,在技术层面我们利用TRS垂直搜索引擎技术+文本挖掘技术,再结合知识工程师的分析模型配置,将这些公开信息通过模版或策略库的形式配置出来,最终实现对这些异构信息准确的处理和定位搜索。目前,平台已经可以全自动完成对政府公开信息、政府公报的采集、排重、分类、标引、入库、索引、发布和对外服务整个过程。为了追求服务信息的质量和准确性,对这些数据质量的校验和调整也会有一些人工的介入。
通过两个例子我们可以了解系统对政府信息自动编目的实现方式,对于网站上的一条公开信息“中华人民共和国耕地占用税暂行条例实施细则”,通过系统自动编目会将这条信息自动分类到“财政、金融、审计\税务”等主题分类下,并自动抽取并标引出文号、发布机构、标题、主题词、相关信息、生效日期、发布日期等元数据 。再来看一个例子,“司法部关于修改《香港特别行政区和澳门特别行政区律师事务所与内地律师事务所联营管理办法》的决定”,系统会将这条信息自动分类到“港澳台侨工作\港澳工作、公安、安全、司法”等主题分类下,同时分类到“澳门特别行政区、香港特别行政区”的地区分类下,同时自动抽取相关元数据并标引。
现今,平台已经整合并可以提供服务的政府公开信息有31万条,并在逐渐增加。政府公报有35种,4万多条,时间跨度可以追溯到十多年前的数据。
经过了刚才的技术实现介绍,我们再来看平台的前台界面,就能更好的了解,每个功能背后的技术实现。从首页上能看到整合的三大资源库及其检索入口,下面提供了对政府信息基于主题的分类的导航,并通过机构导航的方式,把国务院各部门,各地方政府,地市公开信息定位出来。公众通过这个平台可以访问到各级政府公开的信息。
对于广东省人民政府网站上的一条公开信息,通过平台的采集和数据加工,采用平台统一的模板发布出来,平台还支持带有pdf等附件数据的采集和展示,包括识别pdf公报数据的期号等信息。
在整个平台里,搜索引擎是用户使用最多,最有效获取信息的渠道。平台提供简单检索,也提供高级检索。类似与GOOGLE、BAIDU搜索引擎关键字组合的方式,使用户可以方便的对公开信息进行全文检索,没有学习的门槛。同时,平台相对于GOOGLE、BAIDU还具有正文和元数据组合的搜索优势,可以非常精确的定位政府的公开信息。比如我们通过文号、标题、分类等组合的方式,或根据时间段查询到所需的公开信息。此外了为了方便用户,平台提供了用户直接调用GOOGLE、BAIDU、YAHOO等搜索引擎的入口,特别是在平台里提供了基于GOOGLE定制的搜索引擎,还提供了RSS订阅的方式,用户可以对感兴趣的专题进行订阅,当数据有更新时,用户可以第一时间获取到最新的相关信息。
3.平台未来发展
可以说,平台的建设非常成功,确实为广大用户在了解政府公开信息方面提供了许多方便,但同时,我们也看到平台也具有更好的前途和发展空间。
国家图书馆希望与地方包括省级馆、市级馆实行分层实施,共建共享。国家图书馆收集中央政府、各部委、省政府信息,省级馆收集省政府、各厅局、市政府信息,市馆收集市政府,区政府的信息。将来可以形成一个联盟体系,我们叫“全国图书馆政府公开信息服务联盟”,为用户提供一站式查询,使图书馆界形成整体的联合体。另外,在我们看来分层服务的内容主要有两种,一种是信息本身的获取和浏览,另一种是一般检索发现提供的增值服务,这是服务本身的附加值。同时,将各级政府的公开信息整合以后,基于不同的主题,提供服务;基于这些整合信息,可以开展许多增值性的服务,包括统计和分析报告等等。
这种建设模式并不是空谈,TRS具备这种共建模式的技术储备,也有丰富的项目经验来支撑。
通过实践证明,这种模式是可行的,而且整合后的信息在相关技术手段的支撑下,可以发挥更大的价值。在实践过程中,我们深刻的体会到目前各级政府对公开信息的组织和发布,需要遵循统一的标准规范来进行,这不仅有利于公开信息的交换和整合、长期保存和开发利用,像国图等机构对信息的长期的保存,及后续的开发利用;也有利于基于统计的规范标准,有利于最终用户获得统一的查询、获取的访问体验。作为技术支持厂商,TRS相信也非常愿意利用自主创新的核心技术和产品,使平台获得的进一步提高和发展,为我国政府信息资源的开发利用奉献一份力量。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。
