基于知识管理的数字档案馆中的数据挖掘

2009-04-01 08:52:00 来源：档案学通讯抢沙发

2009-04-01 08:52:00 来源：档案学通讯

摘要：知识经济时代已经来临，对数字档案馆实施知识管理已是时代的要求，是档案馆自身发展的必然，而数据挖掘作为信息技术飞速发展的衍生物，随着计算机技术、网络技术以及现代通信技术
关键词：知识管理数据挖

数字档案馆，作为传统实体档案馆在信息时代的新型组织形式，是实体档案馆在信息时代不断创新和发展的必然，是迎接知识经济时代挑战，拓展传统实体档案馆功能，满足用户需求，提供个性化、多样化服务的关键，也是提高社会档案意识的新契机。那么，如何从数字档案馆浩如烟海的大量数字化资源中提炼、挖掘出有价值的，对数字档案馆进行知识积累、知识创新有着数据支撑作用的有效信息，这是未来数字档案馆建设所面临的重要课题。数据挖掘技术正是解决这一难题的有效途径，数据挖掘是当今计算机领域的热点，其成果也广泛应用于图书情报领域，笔者受这些研究的启发，力图就数据挖掘技术在基于知识管理的数字档案馆中的应用进行探讨。

1.数据挖掘定义与分类

1.1数据挖掘的定义

数据挖掘是一门很广义的交叉学科，脱胎于计算机，虽然已应用到诸多领域，图书、情报界的实践也已经充分验证其价值，但在档案界，数据挖掘仍然被当成深奥的技术和理论，很多档案工作者对个这概念还是云雾迷蒙，比较模糊。那么什么是数据挖掘呢？数据挖掘（Data Ming），就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程①。这个过程的目的是为了发现隐藏在大量数据泥沙中的 “知识金矿”，因此，将数据挖掘定义为“数据中的知识挖掘”更为恰当②。所以，数据挖掘也被人称为知识挖掘、知识抽取等。

1.2数据挖掘的分类

数据挖掘可以根据挖掘任务的不同，把数据挖掘方法分为概念描述、关联分析、分类分析、聚类分析、偏差检测等多种类型，具体如下：

1.2.1概念描述（Concept description）

就是通过分析和比较，将某类相互关联的数据进行汇总，归纳出此类对象的相关特征，对关于此类的大量信息进行描述，这些描述是抽象的，有意义的。它的类型有两种：特征性描述和区别性描述。1）特征性描述适用于描述某类对象的共同之处，例如，某档案馆的档案数据库中存在大量的用户基本信息，其中涉及：姓名、年龄、工作、利用喜好等信息，如果对历史研究者进行描述，很有可能得出以下结果：以高校教师、学生为主，以编修各种志书、撰写史学研究文章为目的。2）区别性描述，用于描述两个或多个类对象之间的差异，例如，对企业用户和历史研究者特征进行比较，也许能得出以下规则：主要利用生产管理和科研管理方面的档案信息，以取得一定经济效益和社会效益为目的。

1.2.2关联分析（Association analysis）

就是描述数据库中数据项之间存在的相关特性，即挖掘出隐藏在数据项之间的相互关系，具体来说，若其中两项数据或多项数据存在着某种关联，其中一项数据就能依据其它数据进行预测。关联分析能发现用户利用不同档案信息之间的关联，分析预测用户利用模式。

1.2.3分类分析（Classification analysis）

就是将数据库中的数据有序的聚合在一起，有助于人们对事物的全面把握③。分类分析可分为结构化数据分类分析，如关系数据库中的数据，和非结构化数据分类分析，如文本数据。分类分析的具体过程为：用一组特征不同的类别为一个数据集合中的数据进行分类，然后找出描述这些数据的模型，并根据这个模型将数据划分到不同的类别中，利用这个模型可以预测未知的数据。分类分析可以通过已有用户档案数据库中的数据，揭示用户特征和用户利用行为之间的关系，并按照影响用户行为的程度对这些数据进行分类，用来预测未来的用户行为。

1.2.4聚类分析（Clustering analysis）

就是将数据库中的数据划分为不同数据类的过程，它与分类分析不同，前者是在预先不考虑已知分类模型的情况下，把数据放入不同的分类中，聚类的目的是根据最大化类内的相似性，最小化类间的相似性这一原则合理的划分数据集合④，简单来说就是使类内的差别最小化，类间的差别最大化，这样就可以把类似的数据组织在一起并导出某种规则。

1.2.5偏差检测（Deviation detection）

就是通过发现数据库中的异常情况对偏差的数据进行分析的过程，重点是发现数据中的异常变化，数据库中的数据变异可能是人为错误引起的，更有可能是数据更新等自然变化的结果。偏差检测的意义在于可以有效排除大量不相关的数据。例如，某档案馆在形成某种编研成果之前，先在用户信息数据库中进行检索，并与档案馆数据库中的已有资源结合，再用数据挖掘技术将不想关的用户利用模型排除，把剩下的作为重点，制定有针对性的编研策略。

2.基于知识管理的数字档案馆中的数据挖掘

前面已经介绍了数据挖掘的概念及模式，那么基于知识管理的数字档案馆的数据挖掘应该是怎样的呢？笔者认为首先应对数字档案馆资源、知识管理和数据挖掘的关系定位。数字档案馆的知识资源要被组织和发现，这是数字档案馆实现现代化科学管理，提供快捷、优质服务的基础。对数字档案馆实施知识管理是应对知识经济时代挑战，最大化数字档案馆知识资源潜力，最终实现数字档案馆知识创新的必然要求。没有实施知识管理的数字档案馆无法满足未来发展的需要，缺乏管理对象的知识也成了无源之水。数据挖掘是组织和发现数字档案馆中知识资源的有效途径，为数字档案馆实施知识管理创造了条件，是两者得以无缝链接的承上启下阶段。这里的数据挖掘不能看成是纯粹的信息处理技术，它是对信息处理技术集群进行协调和管理的方法和策略。基于知识管理的数字档案馆中的数据挖掘是以网络和数字化资源为基础，立足于多种信息技术的协调和配合，以实施挖掘算法和挖掘模型为手段，以组织和发现数字档案馆中已存在的知识资源，为实施知识管理提供管理对象为目的，让数字档案馆有效利用知识，实现知识创新的过程。

3.基于知识管理的数字档案馆中的主要挖掘对象

3.1数字档案馆中的固化资源

这是存在于数字档案馆中的显性知识，即记录于一定物质载体上的知识⑤，包括：已数字化的馆藏资源、现行电子文件、检索工具、编研成果，与数字档案馆工作相关的各种法律法规、规章制度、行业标准等，围绕数字档案馆建设所产生的研究成果、技术资料及有助于数字档案馆发展的其它相关知识。

3.2数字档案馆中的智力资源

这是存在于数字档案馆中的隐性知识，是存在于档案馆行政管理人员、政策法规研究人员、信息技术人员、对外协调人员等头脑中所储备的大量非编码智力资源，包括：各种管理方法、计算机处理技术、处理问题的能力等。由于人是知识管理的核心，是知识管理中最活跃的最主动的因素⑥，所以对这部分知识的挖掘也是数字档案馆知识挖掘的重点。

3.3用户利用行为信息

用户的利用行为信息包括两方面，利用信息和反馈信息。利用信息是用户为了解决现实问题，满足学术、科研、生产等需求，在实施具体利用行为时所产生的信息，包括：访问内容、访问频率、访问时间等，它们反映出用户对数字化资源的个性化、多样化需求及利用规律。反馈信息是在档案利用这一连续活动中，档案利用者发现的问题和情况、提出的要求、意见、评价和效益等⑦。对这些数据的挖掘，可用于对用户未来利用趋势的分析预测，以及提出在此基础上的管理决策，为提高数字档案馆的服务水平提供依据。

第三十八届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。