挖掘数据库是一个储存待挖掘数据的数据库。档案馆的服务器日志数据和档案用户的注册信息等,都是挖掘数据库的数据源。在数据写人挖掘数据库前,要先对数据源的数据进行筛选和整合,包括修改错误的记录、删除不相关的记录等;通过处理后的数据就成为挖掘的数据了。同时,数据库的数据需要不断地进行新增、修改和删除,以求得到更好的数据效果。
(3)分析数据
在挖掘数据库建立之后,就要对数据库中的数据进行分析处理:首先根据档案用户ID划分数据,找到每个用户的访问记录集;然后将该用户的访问记录集以一个固定的时间间隔进行分割,找到该用户的每一次访问记录集(我们称这个每一次访问记录集为一个“访问事务”);最后,将所有的访问事务按时间排序,构成进行挖掘的事务集。每一个访问事务相当于访问者对站点的一条访问路径。另外,还需把网页中的文本、图片及其他文件转换成数据挖掘算法的可用形式。
(4)建立模型
建立模型之前需要进行数据准备工作,包括选择预测变量、记录,创建新变量和转换变量。选择适当的变量和记录能大大提高模型的建立效率。在多数情况下,我们还需创建一些新的预测变量(比如一些比值),以增加预测模型的准确性;根据选择的算法和工具需对变量进行转换。在数据挖掘中采用比较多的算法主要有神经网络和决策数算法。
下一篇:《档案法》中的法律责任探析