发布时间:2021-07-15 12:00来源:www.51edu.com作者:畅畅
西夏文是仿照汉字创立的记录党项族语言的文字,又称蕃书或蕃文,至元代又称河西字。
图为卜士礼(Stephen Wootton Bushell)解读的37个西夏文字,图片版权属公有领域。
基于计算机技术识别西夏文,实际上就是OCR。OCR在汉字领域已经有很多研究和产品,而西夏文因为是仿制汉字而成的,所以可以借鉴汉字OCR的经验。当然,相比汉字,西夏文的笔画比较多,但是其实有不少繁体字的笔画也很多。所以其实西夏文OCR的主要困难是西夏文这种死文字关注度比较少,不像汉字OCR一样有广泛的应用(或者说说,这方面的投入能带来巨大的商业回报)。
另外,西夏文虽然是仿制汉字,但仍具有一些不同的特性,利用这些特性,可以基于人工智能技术进行西夏文OCR。
比如,和汉字相比,西夏文独体字很少,大部分都是由2-3个甚至更多构件组成的合体字。既然如此,那么从直觉上,使用网格方法进行OCR,效果应该不错。门光福等的《基于弹性网络的西夏文识别》就采用了这一思路。预处理西夏文之后,根据西夏文的结构构造非均匀的弹性网格,提取像素点在网格的概率分布作为特征,最后基于线性判别分析方法降维提取的特征。在240类9600个西夏文上试验的结果,识别率可以达到87.99%。
再比如,人们常说汉字是方块字,实际上西夏文比汉字要更方块。检索汉字的四角号码编码就是利用了汉字的方块字特性。那更方块的西夏文,当然也可以通过四角“检索”(OCR可以看成一种通过图片检索汉字的方法)。孟一飞等的《基于MeanShift算法的西夏文字笔形识别》就采用了这一思路。首先把四角编码规则“迁移”到西夏文,然后通过识别西夏文的四角构件确定文字的编码,实现对字符的识别。MeanShift是识别单个构件的方法。
流浪法师出装,英雄联盟手游小法师怎么出装
勇者斗恶龙7安卓攻略,勇者斗恶龙7安卓
lol小鱼皮肤哪个手感好,菲兹皮肤手感排行
妄想山海香料蘑菇怎么做,妄想山海臭豆腐配方和制作方法分享
厄运之槌地图走法,魔兽厄运之槌副本入口
另一个伊甸奈岐角色任务,另一个伊甸奈岐技能介绍及强度测评
西部荒野稀有乌尔图斯,外域稀有精英分布图
奶茶制作方法,妄想山海烤全鱼配方和制作方法分享
洛克王国酷拉要刷多少次,洛克王国酷拉在哪
开心消消乐
类型:休闲益智
解压宝盒
类型:休闲益智
迷你世界
类型:休闲益智
恐怖奶奶
类型:休闲益智
老板挪个车2
类型:休闲益智
我的狗狗
类型:休闲益智
贪吃蛇大作战
类型:休闲益智
白块儿达人-节奏钢琴黑白块
类型:休闲益智
解压模拟大师
类型:休闲益智