您当前所在位置:

利用数据挖掘技术 做好档案编研选题之探析

2013-01-10

  【编者按】:档案学就是探索档案、档案工作和档案事业的发展规律,研究档案信息资源的管理、开发的理论、原则与方法的学科。精品学习网档案学栏目为您提供档案学范文参考,以及档案学写作指导和格式排版要求,解决您在写作中的难题。

利用数据挖掘技术 做好档案编研选题之探析

随着计算机技术和信息技术的发展,信息产生的渠道越来越多,信息更新的频率日益加快,在“数据过剩”和“信息爆炸”的同时,人们正被信息淹没,却饥渴于有用信息的提取。面对浩渺无际的数据海洋,人们迫切需要一种能够从海量的数据中提取有价值知识和信息的技术,基于人工智能的数据挖掘技术便应运而生,并被广泛应用。

一、数据挖掘技术

1、数据挖掘

所谓数据挖掘(Data Mining,简称DM),是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。数据挖掘是数据库知识发现(KnowledgeDicoveryinDtabases,简称KDD)中的重要技术,它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持,很多人又将其称为数据淘金。

数据挖掘是面向数值数据的挖掘,其功能主要有:(1)自动预测趋势和行为。数据挖掘自动在大型数据中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。(2)关联分析。数据关联是数据库中存在的一类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网。(3)聚类。数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。(4)概念描述。概念描述就是对某对象的内涵进行描述,并概括这类对象的有关特征,分为特征性描述和区别性描述。(5)偏差检测。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。

2、Web挖掘

Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是从Web文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对Web资源进行挖掘的一个新兴的研究领域。Web挖掘的处理流程为查找资源、信息选择和预处理、模式发现、模式分析。

Web挖掘可以分为三类0:(1)Web内容挖掘。Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web内容挖掘有两种策略:一种是直接挖掘文件的内容,另一种是在其他工具搜索的基础上进行改进。(2)Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识。由于文档之间的互连Web能够提供除文档内容之外的有用信息,利用这些信息,可以对页面进行排序发现重要页面。(3)Web使用记录的挖掘。Web使用挖掘就是对用户访问Web时在服务器留下的访问记录进行挖掘,其主要目标是从Web的访问记录中抽取感兴趣的模式。Web中每个服务器保留了访问日志,记录关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为从而改进站点的结构,或为用户提供个性化的服务。

二、数据挖掘技术在档案编研选题中的应用

选题是依据编纂的材料基础和用户的利用需求来确定编纂题目的工作。在数据挖掘技术出现之前,档案编研部门要了解社会用户对档案文献信息的现实的与潜在的需求,只有通过用户抽样调查或者借阅数据的抽样统计来进行,既费时费力,也分析的不够全面具体。有了数据挖掘技术以后,可以利用档案馆的信息管理系统中的用户借阅数据进行分析统计,可以利用用户经常访问的网页进行分析、挖掘,了解到用户的兴趣爱好、研究方向,预测用户需求,从而确定档案编研的选题。

1、用户利用档案的数据挖掘

档案用户需求调研是档案编研选题成功与否的关键因素之一。它是指通过一定的方式与方法,在深入调查、掌握档案用户利用需求情况的基础上,揭示各类用户的需求特点与规律的一项业务活动。一般而言,档案馆在日常的档案利用服务中所积累的利用统计数据,可比较准确地揭示某一时期社会档案信息需求的动向。

档案利用统计的具体指标主要包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等。数据挖掘自动在档案馆的信息数据库中寻找用户利用档案的所有数据,对搜集到的数据进行聚类,利用聚类结果对不同的用户赋以不同的类标记,然后利用分类功能,对用户特征进行建模,挖掘出不同类的用户的不同特征。档案编研部门可以针对不同用户提供个性化服务,按需确定不同类型的编研题目。只有这样,档案编研选题才能贴近社会、贴近公众,编研产品才会被广大用户所认可和欢迎,档案编研的效果与价值才能真正的以用户利用的效益方式体现出来。

2、用户访问记录的Web使用挖掘

由于网络速度和计算机软硬件处理能力的大大提高,使得服务器可以在档案用户访问网站的同时记录用户访问信息。具体做法是:在档案馆网页设计时,对各链接对象进行设置,当用户访问该链接对象时,系统自动将用户的信息和访问对象的信息实时传递到服务器端的用户访问记录文件中,然后结合历史数据和客户实时访问的信息进行数据挖掘,采用分析网页关键字、下载记录、检索词、用户对网页利用时间和频度等方式获取用户需求信息。

用户使用记录挖掘主要是对服务器日志、Cookie、用户注册数据、电子邮件查询响应数据及Web购买数据的挖掘。目前,使用记录挖掘可分为两大类:访问模式的追踪和个性化使用记录的追踪。其中个性化的使用记录追踪倾向于分析个别用户的偏好,其目的是根据不同用户的访问模式,提供相应的定制服务。档案编研部门通过对用户访问记录的挖掘,在数字对象和用户、对象分类和主题之间进行模式匹配,采用不同挖掘技术如基于业务聚类、使用聚类和联合规则来自动提取信息,通过数据分析,了解和掌握档案用户需求的特点,预测其未来趋向,结合社会热点选定档案编研题目。

3、建立档案编研选题的用户模型

(1)问题定义

问题定义是数据挖掘中的第一步,也是最重要的的一步,即对挖掘的目标作一个清楚的定义。具体来说,就是通过分析档案馆服务器的日志数据、用户检索结果等,来挖掘出档案用户的使用模式和兴趣模式,从而使档案编研部门可以利用这些搜集到的信息有针对性地、有目的性地组织选题,进行编研工作,推出用户满意的编研成果。这样即可以有效地克服出版发行者的盲目性,改变目前存在的某种程度的供需失调的状况,真正根据用户的需求来出版档案文献编纂成果,从而避免了因为不了解社会的实际需要而造成的过量出版和需求短缺。

(2)建立挖掘数据库