6.4 应用性研究
语篇结构标注语料库为文献检索、自动剖析、自动文摘、自动翻译等提供相关数据,例如,研究小组所设计的在线文件剪接系统。借助于篇章结构标注语料库,研究者发现并非所有的句子都是基本语篇单位,也不是所有的语篇单位都具有相同的作用,有的属于核心的,有的属于辅助的,有的在实现作者的交际意图时、在体现篇章的互文性时发挥关键作用,有的并没有。以此类推,篇章中的词汇、短语也有核心与辅助之别。篇章结构标注语料库可以帮助创建一个以篇章结构为指导、以词汇短语有界和无界合并为手段的文件剪接系统。同时,篇章结构标注语料库帮助创建了一个以篇章结构为指导、以机械文摘为基本手段、再配合消除冗余、可读性加工的综合自动文摘系统。
7.结论
2001年,由Daniel Marcu博士主持的研究小组以RST理论为支撑创立了语篇标注语料库。研究小组所标注的385篇华尔街报文章皆取自宾州树库,篇幅长度不等,从31个词到2,124个词,总词数达到176,000,平均每篇文章458个词。文章的内容涉及到各种话题,如财政报道、商业新闻、文化点评、编者按、读者来信等。语料库建设的主要成就为:确立了如何将语篇切分为基本语篇单位的理论、扩展了修辞关系集、为RST理论的运用提供了广阔的前景。
参考文献:
[1] [ZK(#]Carlson,L.,Marcu.D.& Okurowski M.Building a Discourse_tagged Corpus in the Framework of Rhetorical Structure Theory.Proceedings of the First Annual Meeting of the North American Chapter of the Association for Computational Linguistics,Seattle,WA,2001:9-17.
Grosz,B.& Sidner,C.Attentions,Intentions,and the Structure of Discourse[J].?Computational Linguistics?,12(3):175-204.Talmy Givon,1983/1986.
Halliday,M.A.K.& R.Hasan.?Cohesion in English?[M].London:Longman,1976.
Mann.W.& S.Thompson.Rhetorical Structure Theory:A Theory of Text Organization.USC Information Science Institute.Technical Report I (SI/ RS-87-190),1987.
Marcu,D.?The Theory and Practice of Discourse Parsing and Summarization?[M].Cambridge,Massachusetts:MIT Press,2000.
下一篇:分析百种神秘感觉悲剧意识