编辑:
2015-12-09
3面向用户的分布式信息检索平台建设
在此分布式信息检索平台建设中,根据用户的需求,采用上述相关关键技术,设计了一个面向用户的分布式信息检索平台。本平台的后端服务器采用主从分布式架构。本检索平台由3个主要部分构成,分别为:总体控制服务器、半监督顺序回归爬虫服务器和迭代与组合实体索引检索服务器。其中,总体控制服务器主要负责整个爬虫系统的整体控制管理、各个服务器之间消息的发送、传递以及任务的分配等等;半监督顺序回归爬虫服务器主要负责爬行深网,下载军事特种医院信息网页,并抽取网页中包含的各种实体信息;索引检索服务器主要负责接收采集到的特种医院军事等实体信息,并以建立索引,为用户提信息搜索等服务。此外,为了保证系统运行的可靠性,总体控制服务器和迭代与组合实体索引检索服务器均采用了双机热备份的方式,以维护服务器和对应的备用服务器之间数据的同步。本系统中的控制服务器是采用按用户指定的静态任务分配模式来进行网页采集,所以控制服务器和它的备用服务器之间的通信量不会太大,之间的数据同步压力并不大,从而可以解决主从式分布爬虫系统中控制服务器的效率瓶颈问题。
总结
综上所述,采用基于顺序回归模型的爬虫方法,跟踪搜集获取深网中不定期发布的各类难以获取的专业文献信息,准确度和时效性均高于利用人工进行数据筛选的方式;采用基于迭代和组合的信息抽取和索引方法,结合面向军事特种医学学科的网络实体信息分类技术,可以实现专业文献分类架构及其专业分类简表的构建,获取数据的基本属性识别率达到85%以上。结合上述关键技术,可有效提高构建基于深网信息的军事特种医学全文数据信息检索平台的速度。
编辑老师为大家整理了6000字特种医学论文,希望对大家有所帮助。更多详情请点击医药学论文。
标签:其它医药学论文
精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。