您当前所在位置:

探究中国近现代观念起源研究和数据库方法

2013-01-11

  【编者按】:文学论文一般包括:外国文学、中国古典文学和当代文学、文学理论、文学语言研究、文学批评、文学史以及作家作品研究等几个主要研究领域。精品学习网论文网为您提供文学论文范文参考,以及文学论文写作指导和格式排版要求,解决您在论文写作中的难题。

探究中国近现代观念起源研究和数据库方法

[关键词]观念史;中国近代思想史;数据库;数据挖掘

[摘 要]从1997年开始,我们在若干研究计划支持下,建立了1830年至1930年间的中国近现代思想史研究专业数据库,并曾利用这一数据库,发表了数篇以“共和”、“民主”、“权利”、“个人”、“社会”、“经济”和“科学”等关键词为分析对象的论文,探讨这些重要现代观念在中国的起源和演变以及它们与重大历史事件的关系。数据库方法不仅可以为观念史研究提供更准确的基础,而且,进一步的分析疏理,还可以对以往某些公认的观点做出修正或质疑。中国近现代思想变迁大致可分为如下三阶段:1840年至1900年为中国传统政治思想对西方现代思想选择性吸收时期;1901年至1915年是儒家思想退到家族私领域,而在公共领域全面学习西方的阶段;1915年至1925年为第三阶段,正是在这第三阶段,学习引进西方现代制度带来的问题,引发了知识界对民主、权利、社会等重要观念的重构,形成了中国当代思想。

Studies of the Origin of Modern Chinese Thought

and Database Methodology

Key Words:idea history;modern Chinese thought; database; data-mining

Abstract: The need of creating databases specialized for the studies of modern Chinese intellectual history was highlighted by the research projects we have been conducting since 1997. As a result, two databases have been designed, expanded and improved to cater for the requirements of our studies. At this stage these databases contain texts totaling 60 million words. All the texts were published from 1830 to 1930, a hundred-year span that saw the transition of traditional Chinese thought to its modern form. In this essay, we will give a brief account of our studies of the origin and transformation of modem Chinese concepts like gonghe (republicanism), minzhu(democracy),quanli(rights),geren(individual),shehui(society).By drawing on these studies,we will try to bring to attention the significance of database methodology and keyword analysis in the studies of links between terminologies and significant historical events. Our findings yielded from this new approach challenge certain long-held beliefs. We believe that the transformation of modern Chinese thought can be periodized into three stages.The first stage was from 1840 to 1900. This stage was characterized by the selective ab- sorption of modem Western thought by traditional Chinese political thought. The second stage was from 1901 to 1915. This stage saw the retreat of Confucianism from the private realm of the family, the learning of Western thought and its application to the public realm.The third stage was from 1915 to 1924.In this stage the attempt at learning from the West experienced failures and setbacks.This entailed a reconstruction of certain concepts like democracy, rights, and society. And such a reconstruction gave birth to modern Chinese thought.

一 历史学家的新工具

自从19世纪末观念史成为一门独立学科以来,关键词和语言学、语意分析一直是观念史研究最重要的方法。任何思想和观念的表述、演变和传播都离不开语言和词汇,所以在观念史研究中,特别重视那些表达新思想和观念的词汇在何时何种情况下出现,它们在不同历史时期的意义类型及变化,以及如何传播并成为有其相对固定含意的普遍用语。例如,1958年雷蒙·威廉士(Raymond Williams)考察了“工业”(industry)、“民主”(democracy)、“阶级"(class)、“艺术”(art)和“文化"(culture)等五个关键词在1780至1950年这170年间的意义,借此分析英国现代文化的变迁。[1]又如,1973年史蒂文·卢克斯(Steven Lukes)以“个人主义”(individualism)为专题研究,讨论这个词是如何在19世纪出现,它在英国、德国以及英美世界的不同含意,或些微的差异,由此揭示现代性的核心观念“个人”和个人主义是怎样形成的。[2]

观念史和思想史研究者在做关键词分析中,也有意识地采用了计量统计方法。显而易见,对某一历史时期文献中关键词的的计量分析,能较为客观地反映该关键词所代表的普遍观念的使用和普及程度,从而摆脱研究观念起源和演化囿于思辨而无法实证的困境。但是,计量方法长期以来都面临一个方法论难题,即选取哪些、多少总量的文献作为分析对象,才可以比较有把握地说选用的关键词能够反映该时期的普遍观念变化呢?以往,任何个别研究者都不可能阅读并且牢记该一时期的全部有关文献,研究者往往是选取某一部或几种文献来分析统计。例如,石约翰(John E.Schrecker)在研究西方主权观念如何传人中国时,就是选取《清季外交史料》,并统计该文献中“主权”一词使用频率。他发现,在1875年到1894年间,每100页出现1次;在1895年到1899年,每100页出现2.5次;在1900年到1901年,每100页出现8.8次;在1902年到1910年,每100页出现22次。[3](p253~54)大多数研究者是选取公认的重要学者的著作,来代表某一时期的普遍观念。如上面提到的Steven Lukes在研究个人主义时,是选了洛克(J.Locke)、霍布斯(T.Hobbes)、圣西门(Saint-Simon)、康德(I.Kant)、涂尔干(Duekheim)、西美尔(G.Simmel)、爱莫森(R.W.Em- erson)、J.W.Praper、W.Whitmman、欧文(R Owen)、弥尔(J.S Mill)等十位思想家的著作。而Raymond Wil- liams为了刻画英国现代文化形成和演变的宏观图画,除了选择亚当·斯密(Adam Smith)、魏克里(Weekley)、柏克(Edmuns Birke)、柯贝特、欧恩、穆勒、边沁、柯芝等人的著作来研究“工业”、“民主”等五个关键词外,还参照十九世纪六部著名小说。使用以上方法面对最大的质疑仍然是:这些文献是否能反映该时代人们的普遍观念?例如,《清季外交史料》是官方文献,就不能代表1900年前后官僚体制外士大夫思想的变化。而以代表人物言论作为普遍观念之根据,可能会受到更多质疑。因为所谓代表人物和代表著作,往往是后知之明,实际上只是某种盛行一时史观的反映。随着人们史观的变化,对代表过去时代的重要文献和人物往往需要重新界定,换言之,代表性文献的选取和解读往往因时而异。但是,如果不以代表人物和某一部或某一类文献为根据,就必须将有关的历史资料尽可能收全,但仅凭研究者个人的阅读和记忆,又如何可能完成如此浩瀚的工程呢?

1990年代中期以来,用计算机处理文献特别是“数据挖掘”(Data Mining)这种计算机应用技术的成熟,可能会成为克服观念史研究中上述困难的新工具。所谓“数据挖掘”是计算机处理数据的新方法,它有助于研究者思考如何从数据库中提取数据,并通过分析发现研究对象之间那些很容易被忽略的关系。目前,这一方法已广泛应用于工程和市场最优化、电讯学(telecommunication)、医疗遗传(medical genetics)和古生态学(paleoecology)研究。我们通过几年来的探索发现,鉴于如下两个理由,可以期待“数据挖掘”方法的应用将会对中国现代思想的起源和演变的研究起到特别的效果。

首先,20世纪90年代以来大量重要中文历史著作和期刊的文献有了电子文本,并且在不断迅速扩充,使得建立研究中国近现代思想起源和演变的数据库是可能的。众所周知,中国传统思想观念的现代转型是在西方冲击下发生的,其过程所涉及的时间并不太长,大约集中在1830—1930这一百年间,这一百年间公认的最具影响力的政治思想历史文献,基本上可以用不断扩大的数据库(从数千万字增加到两三亿字)所涵盖;而原则上说,数据库是有可能穷尽所有历史文献的。其次,在中国思想观念由传统向现代转型过程中,绝大多数新器物、新事物、新知识、新观念的传人,往往可以用中文定名和翻译某一个外来新名词来追踪,新观念的形成也十分典型地呈现为新名词的出现和传播。20世纪初章太炎曾这样形容过新名词的威力:“昔人以为神圣不可干者,曰名分。今人以为神圣不可干者,一曰公理,二曰进化,三曰惟物,四曰自然。”[4]这使得关键词研究可以用于分析近现代观念起源和演化的大趋势。

从1997年开始,我们相继推行过几个研究计划,①着手建立“中国近代思想史研究专

————————————————

① 这一系列研究计划如下:1997年香港研究资助(RGC)资助的为期两年的研究计划:“A Quantitative Study of the Formation of Certain Modern Chinese Political Concepts(CUHK4001/97H)”;2000年蒋经国国际学术交流基金会资助的“An Intellectual Historical Study on the Origins and Development of Liberalism in Modem China 1736—1927(RG018-D-99)”;2002年4月中文大学资助的“Data Mining for the Quantitative Database of La Jeunesse:Reasearch of the Interactions between the Changes in Political Concepts and Important Incidents during the New Culture Movement”;2002年9月开始香港研究资助局(RGC)资助的新研究计划“A Quantita-tive Study of China’s Selective Absorption of Modern Western Ideas and the Origins of Certain Key Concepts(1840—1915)(CUHK4006/02H)”。在此,我们对以上资助机构致以谢意。本文写作过程中,承蒙戚立煌先生、吴通福先生、黄庭钰小姐、增田真结子小姐做数据处理、日文文献摘要等多方面的协助,谨致谢忱。

业数据库(1830—1930)”,目前这个数据库已初具规模,并在不断扩充和完善之中。①我们已经通过若干个关键词在这约六千万字数据库中的追踪、意义挖掘来分析用这些关键词表达的若干重要观念如何起源及其演变轨迹。本文通过对我们近年来研究的综述,介绍我们用数据库方法在中国现代观念起源研究中的一些发现以及对中国近现代思想史分期的新看法。我们认为,一种以关键词为核心分析对象的数据库研究方法正在迅速形成,在思想史研究中将占据越来越重要的位置。其方法和以往的思想史方法有如下差别:

第一,观念史研究基本单位不再是以文章为中心而是以句子为中心。我们知道,以往思想史研究中分歧最大的是如何正确解读文本。从中抽象出观念的典型形态(ideal type)。由于对文本解读本身的复杂性,对其表达的某些观念理解可以存在着巨大差别。现在我们研究碰到的基本单位不是文章,而是文章中具有某一个关键词的句子。虽然在很多时候判断某一关键词在这一句话中的意义时,必须去看上下文,但根据句子来判断某一关键词的意义,具有相当大的客观性。而且从句子来区分关键词有几种类型,比从一篇文章来判断其中某一观念形态要准确得多。

第二,当以文章为基本单位时,从中抽取观念的典型形态只能靠一篇或数篇文章,文本不可能对观念是否普遍、该思想是否流行提供直接的检验。现在既然以句子为基本单位,我们可以将数据库中某一历史时期使用该关键词的所有句子寻找出来。在这数以千计甚至是数以万计的句子分析中,关键词意义类型明确,这些意义类型中哪些是普遍的以及如何变化,则完全可以进行统计检验。