精品学习网
所在位置:主页 > 人工智能 > 人工智能是如何帮助人类识别西夏文的?

人工智能是如何帮助人类识别西夏文的?

发布时间:2021-07-15 12:00来源:www.51edu.com作者:畅畅

西夏文是仿照汉字创立的记录党项族语言的文字,又称蕃书或蕃文,至元代又称河西字。

人工智能是如何帮助人类识别西夏文的?

图为卜士礼(Stephen Wootton Bushell)解读的37个西夏文字,图片版权属公有领域。

基于计算机技术识别西夏文,实际上就是OCR。OCR在汉字领域已经有很多研究和产品,而西夏文因为是仿制汉字而成的,所以可以借鉴汉字OCR的经验。当然,相比汉字,西夏文的笔画比较多,但是其实有不少繁体字的笔画也很多。所以其实西夏文OCR的主要困难是西夏文这种死文字关注度比较少,不像汉字OCR一样有广泛的应用(或者说说,这方面的投入能带来巨大的商业回报)。

另外,西夏文虽然是仿制汉字,但仍具有一些不同的特性,利用这些特性,可以基于人工智能技术进行西夏文OCR。

比如,和汉字相比,西夏文独体字很少,大部分都是由2-3个甚至更多构件组成的合体字。既然如此,那么从直觉上,使用网格方法进行OCR,效果应该不错。门光福等的《基于弹性网络的西夏文识别》就采用了这一思路。预处理西夏文之后,根据西夏文的结构构造非均匀的弹性网格,提取像素点在网格的概率分布作为特征,最后基于线性判别分析方法降维提取的特征。在240类9600个西夏文上试验的结果,识别率可以达到87.99%。

再比如,人们常说汉字是方块字,实际上西夏文比汉字要更方块。检索汉字的四角号码编码就是利用了汉字的方块字特性。那更方块的西夏文,当然也可以通过四角“检索”(OCR可以看成一种通过图片检索汉字的方法)。孟一飞等的《基于MeanShift算法的西夏文字笔形识别》就采用了这一思路。首先把四角编码规则“迁移”到西夏文,然后通过识别西夏文的四角构件确定文字的编码,实现对字符的识别。MeanShift是识别单个构件的方法。

  • 热门资讯
  • 最新资讯
  • 手游排行榜
  • 手游新品榜