首页 > 人工智能 > 正文

企业信息搜索平台的规划与建设

2008-02-19 16:32:15  来源:软件世界

摘要:一个完善的企业搜索平台,能够帮助业务用户快速查找文档和数据,能够集成不同系统的安全模型,能够为其他业务平台提供嵌入式的搜索服务,其最终目的是提高企业整体的办公效率,使
关键词: 规划

    在信息化飞速发展的今天,无论是企业内部还是外部都存在着多种信息源。互联网上的信息量巨大,而企业内部存在的知识文档数量也正呈爆炸性趋势增长。据统计,企业员工平均每人每年会产生500兆字节的文档,而全球每年新产生的电子邮件也达到四十万TB。在这种状况下,越来越多的企业员工在办公的时候有了一种痛,就是如何在企业内更快、更准确的搜寻自己需要的信息。

    目前,在大规模的调查统计中显示,企业的数字化信息有百分之八十保存在员工自己的硬盘或共享服务器上的个人文件夹中。由于缺乏有效的获取信息手段,相当多企业员工为了寻找到所需要的信息会直接求助于其他员工。在这种情况下,当员工离职时企业会丧失他所拥有的绝大部分知识资源。而同时,信息工作者平均花费15%-30%的工作时间在查找信息上,也造成了企业资源的极大浪费。

    一位投行的工作人员,为了找出该投行内部文档服务器上关于某行业的调查报告,使用操作系统默认的搜索功能在文档服务器上搜寻了三个多小时,得到了一千多个文件名包含行业名称的结果。但是,很不幸的是一次误操作将那个搜索窗口关闭了。她只好再次花三个小时将整个文档服务器重新搜索了一遍。

    这种例子并不鲜见。几乎每个企业员工都面临过相似的问题。新员工进入企业时无法找到已有的知识库,老员工离职时文档的位置会被人遗忘,直接形成了知识资产的流失。另一方面,很多公司推出了桌面搜索程序,但这些程序应用在企业中通常存在着不同程度的安全隐患,可能会造成信息泄露问题。在这种趋势下,构建企业内部的可控、可管理的搜索平台正成为越来越多企业关注的话题。

  需求的特点及解决手段

    企业搜索具有其自身的特点。在中国很多人提起搜索,第一个想到的往往是百度和Google。在互联网搜索方面,这两家搜索引擎占有了绝大部分市场。我接触过的不少IT主管在谈起搜索平台的时候第一个要求就是“你能不能帮我们建一个企业内的百度或者Google?”

    笔者很欣慰能看到越来越多的企业提出了这样的需求,这意味着中国企业信息化正逐渐走向成熟。但同时需要注意的是,企业内搜索引擎和互联网搜索引擎截然不同。无论从搜索的侧重点、相关性和排序方式、查全查准率的要求,还是从安全、管理等角度出发,两者都没有什么共同点。

    当IT部门在企业内部搭建这样的搜索引擎平台时,切忌将它考虑成互联网搜索一样的需求,一定要切实调研企业内业务部门的实际需求和信息环境,有针对性地进行设计和实施,这样才能让企业搜索平台真正为业务部门服务,帮助企业员工更快、更好的查找、使用、分享信息,而不是毫无用处的花瓶,甚至成为企业内的严重安全隐患。

    企业内文档类型多样

    互联网搜索所关注的主要是网页。因此,各大互联网搜索引擎的主要索引对象都是html文件。但在企业内部搜索时需求完全不同,通常Word文档、Excel表格是员工最侧重搜索的范围。在调查中显示,绝大部分员工在企业内开始一个搜索的最初目的是为了找到可重用的知识文档,其次才是门户网站等企业内部站点。另外,在不同的行业内有大量特殊格式文档的存在,比如PDF文档、制造行业和设计行业常使用的CAD(DWG,DWF等)文档、流程设计需要用到的Visio文档等,都有全文搜索的需求。

    作为一个企业级的搜索平台,就需要有能够索引多种格式的能力,而且要能够扩充其他格式的支持。例如Microsoft Office SharePoint Server 2007(简称MOSS)和Microsoft Search Server 2008(MSS)里就是通过扩展iFilter对近200种常用文档实现了全文索引能力。

    企业内存在多种内容源

    企业搜索和互联网搜索的另一个不同点就是内容源不同。在互联网上,人们搜索的目标主要都是不同网站,而企业内部存在的远远不止是门户网站。在大中型企业中,常见的内容源还有文件共享服务器、SharePoint文档协作站点、Lotus Notes数据库、Exchange公用文件夹、SQL Server/Oracle/DB2/MySQL等数据库系统等,而部分大型企业还应用了诸如Filenet、Documentum、NetApp之类的专业存储解决方案。那么如何对这么多种不同的内容源搜索就成了一个非常重要的问题。完善的企业搜索平台应当具备能够连接这些系统的能力。

    搜索的安全需求不同

    和互联网完全不同的一点是互联网搜索没有安全的概念,所有的信息都是公开可见的。而企业内的多种内容源拥有着不同的安全控制。

    比如某个存储员工工资信息的文件共享上应用了共享权限,只有财务部某科室的员工能够查阅,而其他员工都不能看到。当普通员工进行搜索时,相关的信息就不应该出现在搜索结果内,而财务部员工搜索时就应该能看到。

    这就是搜索的安全过滤需求。如果企业内建立了类似于Active Directory的目录管理架构的话,员工在不同系统上的权限就应当可以被企业搜索引擎提取出来,进行这种搜索安全过滤。针对不同的内容源,企业搜索引擎也同时要具有扩展能力,可以继承业务系统的安全模型,实现定制化的安全过滤。

   


第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。