您当前所在位置:首页 > 论文 > 英语论文 > 英美文学论文

浅谈语篇结构标注研究的综述论文

编辑:

2013-12-10

4.标注标准和方法的制定

为了建立高质量的前后一致的标注标准和方法,Carlson(2001)等研究者采用人工标注的方法。他们所选用的标注者都是有过标注经历的、从事语篇分析和新闻报道的专业人员。在正式标注之前,他们都接受专门的语篇结构标注培训,培训包括3个阶段。

在第一阶段,向标注者介绍修辞结构理论和语篇分析工具。在培训的第二阶段,标注者开始探索语篇结构的特征。在培训的最后一个阶段,标注小组谋求在构建语篇总结构图时保持一致,尽量减少分歧。

最终,标注小组研制出两个基本策略用于文献分析并建立相关的语篇结构图。策略之一是对文本的直接分析,可以在页边空白处标出记号,也可以将文献切分成一定的语段并标出记号,根据这些标注建立语篇结构图。以这种方式建立树型结构图,标注者必须预测到随后的语篇结构。然而,其后语段的修辞关系,尤其是较大的语段,可能不是太明显,这就是为什么这一标注策略更适用于短篇文献的标注。

另一策略是将文本分析与建立语篇结构两项任务同时进行,很可能是成块地标注而不是循序渐进地一步一步地增加。以这种策略进行标注,标注者一次可以切分很多语篇单位,并为每个自然句建立结构图,然后将相邻的自然句连接起来,构成较大的语段结构树。最终的语篇结构树是通过连接语篇结构中主要语块而建成的。

5.标注质量的检验

标注质量的控制是通过标注者对标注结果的反复修改和局部随机的自动交叉核实来实现的。为了确保标注语料库的质量,研究小组采取了很多措施,这些措施主要涉及到两个方面,即检验语篇结构树的效度和保持标注者内部的一致性。

5.1 效度检验

效度检验从两个方面进行,即句法和语义。句法检验确保每棵树只有一个根结,并将树与文献进行对比以防句子或语段被遗漏。语义检验主要是关系到核心语段的指派、修辞关系的选择以及语篇结构树的层次。为了保证检验质量,研究小组研制出语篇分析器以及图形扫描仪。所谓图形扫描仪,就是指,在图形环境下,自左而右渐进地为各个篇章单元给出一种最有可能的修辞关系和篇章结构地位。分析器和图形扫描仪经常可以确认出人工检验无法觉察的错误,都可以成功地作用于所有语篇结构树。

5.2 标注一致性

在整个语料库的建设过程中,研究者一直设法保证标注者之间内部的一致性。首先,他们研制出一种算法,该算法可以计算出语篇层级结构的Kappa数据。(Kappa算法曾被广泛地运用于语篇实证研究中,该算法可以测算出研究者在作出分类决策、预测可能性方面的一致性。)如果Kappa数据大于0.8,就意味着具有较高的一致性;如果数据值在0.6和0.8之间,就意味着较好的一致性。

6.标注语料库的挖掘

借助于以RST理论为支撑的语篇标注语料库,研究者可以对语篇进行三个层次的分析,即语篇标记词功能的分析、不同类型的语篇结构图的描述和比较、语篇中从句间修辞关系的描述和比较。

6.1 篇章连词的研究

篇章连词功能研究一直是理论语言学和计算机语言学研究的主题,而且网络语料库方便了研究者对关联词语的研究,但利用丰富的标注语料库资源进行分析的研究不多。语篇结构标注语料库可以使研究者在多种语境中对关联词进行元语言分析,使人们能了解到它们在语篇中出现的频数、在句中的位置、所发挥的篇章修辞作用、核心性、辅助性等方面信息。

例如,研究小组总结了since 和 as在语篇中的功能。经研究发现,就这两个词在语篇中出现的频率而言,在语篇中起连接两个基本语篇单位修辞作用的情况只有1/3,因为它们往往在命题层面上发挥作用而不是在语篇层面上。就它们在语篇中发挥的修辞作用而言,as涉及到的关系类型远远地多于since,但两者所引导的语篇单位往往都处于辅助位置而非核心位置。

免责声明

精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。