您当前所在位置:首页 > 论文 > 医药学论文 > 其它医药学论文

6000字特种医学论文:获取技术

编辑:sx_yangk

2015-12-09

古典文学中常见论文这个词,当代,论文常用来指进行各个学术领域的研究和描述学术研究成果的文章,简称为论文。以下就是由编为您提供的6000字特种医学论文

1基于半监督顺序回归模型的爬虫算法

在资源搜索方面,将搜索目标设定为通常无法订购但军事特种医院特点鲜明的特色资源。通常,这些网络资源都是以深网的方式存储,并且无法直接获取。为此,笔者研究了面向深网的信息提取技术,研究并实现了一种面向军事特种医院资源的基于半监督顺序回归模型的快速爬虫算法。此算法主要包括以下3个步骤:首先,根据军事特种医院网站资源的特点,利用半监督顺序回归的方法构造深网页面分类器,定义所需的主题相关的网页分为N个不同的层次。此时层次的数量级根据所给定网站资源特点设定。一般情况下,N≤4。其次,构造深网链接信息抽取器,抽取对应N层次的有效链接。在提取这些链接信息时,采用多线程的方法完成。最后,把深网页面分类器的分类作为指导,形成特征库,利用让爬虫自动提取满足要求的链接特征,快速实时地找到各层有效链接。对于爬行过程而言,笔者具体采用如下方法:在开始爬行前,把预先定义的符合特种医院资源信息的种子放入最低层的链接队列中,链接信息提取器从深网页面中抽取满足特点规则的链接信息,包括链接的网址、页面标题,链接的锚属性等信息,并同时交付链接特征学习器。在链接特征学习器中,笔者将采用深度机器学习方法,将这些特征进行归类、分析。然后,按照上述方法,将所有N层队列中的链接进行爬行。对于同一层次的链接,根据预先定义的规则让距离网站主页近的链接先爬行。这样,既可以爬行到最佳的链接,又保证让所有的链接都被爬行到。系统运行结果表明笔者提出的爬行策略能够提取深网中有效链接的基本特征,并过滤掉无关链接,提高了爬虫的速度和准确度。

2面向实体层Web的信息索引技术

采用高效的爬虫技术从DeepWeb上抽取出的军事特种医院特点鲜明的特色资源之后,将其存储在本地数据库中。对于索引而言,由于军事特种医院信息的特色,其索引对象可表示为Web实体(WebEntity)。Web实体通常具有各种属性,并由属性进行描述。如海军信息、潜水艇实体,具有长、宽、重量、下水深度等属性,可以将军事特种医院信息划归为多种不同实体。显然,进行实体搜索,索引的对象为实体而非页面,其索引域为实体的各个属性。用户进行检索时,搜索器根据搜索关键字来查询实体索引域,然后进行综合排序。基于此,笔者提出了一种基于迭代和组合的信息抽取方法,实现Web实体的信息抽取及其索引建立。整个基于迭代和组合的信息抽取和索引方法实现框架图。为实现此信息抽取方法,首先生成简单的页面索引。页面层的索引技术,主要采用基于关键字的倒排排序方法,然后再对其按实体关键属性进行分类。其次,采用学习和深度搜索的方法抽取基本实体属性信息。在该过程,首先利用基于反馈的条件随机域模型来抽取实体的属性信息,之后通过快速排序及其深度搜索方法穷尽搜索包含某些特定实例的所有页面集。采用基于反馈的条件随机域模型的基本思想是先从已有的实体集中构造训练数据集,采用预先定义的规则对训练数据集中的页面进行有条件的标注,然后进行模型训练。在训练中,笔者采用基于反馈的方式进行,即通过已有的训练结果对训练模型进行反馈,提高训练的速度和效率,最终使得抽取精度较高。最后,在迭代抽取和组合集成过程中,采用方法的基本原理是:对所有的待抽取页面集,进行用户交互定义的页面快速分割,将页面分割成多个不同的部分。然后,根据实体模型,对于还未抽取的相关实体属性,采用上述的抽取方法进行迭代抽取,并将抽取的数据结果集成在一起,最后构成一个完整可信的信息实体。

免责声明

精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。