期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
聚类+连体段判别的维吾尔文档图像单词切分 被引量:1
1
作者 徐学斌 吾尔尼沙·买买提 +2 位作者 阿力木江·艾沙 朱亚俐 库尔班·吾布力 《计算机工程与应用》 CSCD 北大核心 2020年第14期148-155,共8页
目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过K均值聚类算法(K-... 目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过K均值聚类算法(K-means)对文本行中所有连体段之间的间隙进行聚类分析得出最佳的间隙判别阈值,然后对所有连体段进行筛选和粗略识别,并结合对间隙的阈值判别结果来确定单词的精确切分点和获取被拆分书写单词的位置信息。在选取的100张文档图像中测试时,结果表明该方法能有效去除标点符号对切分结果的影响,准确合并被拆分书写的单词,并且平均单词切分准确率保持在99%以上。 展开更多
关键词 维吾尔文 文档图像 单词切分 K-MEANS 连体段判别 单词拆分
在线阅读 下载PDF
连体段特征聚类的维吾尔文文档图像单词切分 被引量:6
2
作者 阿丽亚.巴吐尔 木特力铺.马木提 +2 位作者 努尔毕亚.亚地卡尔 阿力木江.艾沙 库尔班.吾布力 《计算机工程与设计》 北大核心 2018年第3期774-779,共6页
为有效解决文档图像中单词漏切分和过切分问题,分析维吾尔文文档图像的无嵌入式双栏版面特性和文字特点。综合考虑连体段位置信息、密度及高宽特征和相邻连体段重叠性,提出一种文档图像中精确切分完整单词块的方法。将图文混排的版面分... 为有效解决文档图像中单词漏切分和过切分问题,分析维吾尔文文档图像的无嵌入式双栏版面特性和文字特点。综合考虑连体段位置信息、密度及高宽特征和相邻连体段重叠性,提出一种文档图像中精确切分完整单词块的方法。将图文混排的版面分析与重叠域合并相结合,采用两级K-means分类策略,有效避免标点符号的影响,增强完整单词块的被切分能力。实验结果表明,该算法比连通域搜索算法和投影算法具有更高的切分精度,在多文种图像单词切分中具有更高的有效性。 展开更多
关键词 双栏复杂文档图像 版面分析 连体段特征 单词切分 重叠率
在线阅读 下载PDF
改进的K-means算法在维文连体段聚类中的应用 被引量:1
3
作者 张建周 哈力木拉提.买买提 陈晓娇 《计算机工程与应用》 CSCD 2014年第14期135-138,254,共5页
在维吾尔文文字识别中,能否有效地聚类将直接影响识别结果的好坏。为改善聚类效果,针对维吾尔文连体段聚类,提出了一种改进的K-means聚类算法。该算法首先采用等间距法多次选择类中心,然后选择最佳码本和利用有效相似比来动态调整聚类个... 在维吾尔文文字识别中,能否有效地聚类将直接影响识别结果的好坏。为改善聚类效果,针对维吾尔文连体段聚类,提出了一种改进的K-means聚类算法。该算法首先采用等间距法多次选择类中心,然后选择最佳码本和利用有效相似比来动态调整聚类个数K,最后完成了连体段聚类。实验结果表明:与传统K-means算法相比,改进的K-means算法得到了较好聚类效果,聚类正确率达90%以上。 展开更多
关键词 维吾尔文文字识别 连体段 聚类算法 等间距法 有效相似比 正确率
在线阅读 下载PDF
基于笔划组合的维吾尔文联机手写单词连体段分割算法 被引量:2
4
作者 热娜古丽.达古提 地里木拉提.吐尔逊 艾斯卡尔.艾木都拉 《计算机应用与软件》 CSCD 北大核心 2012年第3期26-27,85,共3页
从维吾尔文的特征和书写规则出发对维吾尔文联机手写单词识别技术进行了探索性研究,并提出一种新的思路:不是直接把单词切分成字母,而是先把单词分割成连体段,然后再分割成字母。这样,可以提高字母切分和字母识别的准确率。按照该思路,... 从维吾尔文的特征和书写规则出发对维吾尔文联机手写单词识别技术进行了探索性研究,并提出一种新的思路:不是直接把单词切分成字母,而是先把单词分割成连体段,然后再分割成字母。这样,可以提高字母切分和字母识别的准确率。按照该思路,提出一种连体段分割算法:根据通过研究维吾尔文的特征和书写规则找出来的一些规则把一个个的笔画,组合成连体段。实验证明了该连体段分割思路和算法的可行性。 展开更多
关键词 维吾尔文 联机手写单词识别 连体段分割
在线阅读 下载PDF
基于HMM的联机手写哈萨克文字的识别研究 被引量:2
5
作者 达吾勒·阿布都哈依尔 古丽拉·阿东别克 《计算机工程与应用》 CSCD 2014年第1期145-148,共4页
以基于隐马尔可夫模型和统计语言模型的研究作为基础,着重研究联机手写哈萨克文的切分技术、连体段分类和特征参数的独特提取技术。系统先将提取延迟笔划后的连体段主笔划作为HMM识别器的输入,再根据被识别的主笔划的编号和延迟笔划标... 以基于隐马尔可夫模型和统计语言模型的研究作为基础,着重研究联机手写哈萨克文的切分技术、连体段分类和特征参数的独特提取技术。系统先将提取延迟笔划后的连体段主笔划作为HMM识别器的输入,再根据被识别的主笔划的编号和延迟笔划标记从连体段分类词典中查找,找到对应的连体段识别结果。通过去除连体段延迟笔画的方法可以有效地减少需建立的模型数目,进而提高识别速度和避免由字符切分所带来的问题。 展开更多
关键词 哈萨克文 联机手写 隐马尔可夫模型 连体段 连体段分类 Hidden MARKOV Model(HMM)
在线阅读 下载PDF
一种改进的印刷体维吾尔文投影切分方法 被引量:10
6
作者 万金娥 袁保社 +2 位作者 李晓 谷朝 米尔沙力江.沙吾提 《计算机工程》 CAS CSCD 2013年第4期263-266,271,共5页
针对印刷体维吾尔文文字识别系统中的文字,尤其是连体段字母的切分这一难点问题,提出一种改进的投影切分方法。采用将基线区域像素点置白(像素点索引值置为255),并对其进行垂直投影,取投影值为0的间隙中间位置作为候选切线位置,根据行... 针对印刷体维吾尔文文字识别系统中的文字,尤其是连体段字母的切分这一难点问题,提出一种改进的投影切分方法。采用将基线区域像素点置白(像素点索引值置为255),并对其进行垂直投影,取投影值为0的间隙中间位置作为候选切线位置,根据行高度与空白间隙宽度比的统计数据均值设置阈值,以此消除误切分。实验结果证明,该方法可有效提高连体段切分的正确率。 展开更多
关键词 印刷体维吾尔文 光学字符识别系统 连体段 基线 积分投影 切分
在线阅读 下载PDF
基于空间关系的维吾尔文图像关键词检索
7
作者 徐学斌 阿里木江·阿布迪日依木 +2 位作者 朱亚俐 阿力木江·艾沙 库尔班·吾布力 《计算机工程与设计》 北大核心 2021年第2期497-503,共7页
为提高维吾尔文档图像的检索效率,提出一种基于字符空间关系的关键词检索方法。通过对文档图像进行单词切分,提取切分后单词图像的字符空间位置特征,将提取的特征根据单词的连体段数目存储为多个特征文件,根据输入关键词图像的特征寻找... 为提高维吾尔文档图像的检索效率,提出一种基于字符空间关系的关键词检索方法。通过对文档图像进行单词切分,提取切分后单词图像的字符空间位置特征,将提取的特征根据单词的连体段数目存储为多个特征文件,根据输入关键词图像的特征寻找对应的特征文件进行查询。从115张印刷体维吾尔文档图像切分后的24460张单词集中选取10张有丰富含义的关键词图像在单词库中进行检索实验,平均准确率为96.47%,平均召回率达到了93.74%,平均每张单词的查询耗时为0.25 s,验证了该方法在维吾尔文档图像检索中的有效性。 展开更多
关键词 维吾尔语 单词切分 关键词检索 连体段 空间关系
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部