期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
聚类+连体段判别的维吾尔文档图像单词切分
被引量:
1
1
作者
徐学斌
吾尔尼沙·买买提
+2 位作者
阿力木江·艾沙
朱亚俐
库尔班·吾布力
《计算机工程与应用》
CSCD
北大核心
2020年第14期148-155,共8页
目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过K均值聚类算法(K-...
目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过K均值聚类算法(K-means)对文本行中所有连体段之间的间隙进行聚类分析得出最佳的间隙判别阈值,然后对所有连体段进行筛选和粗略识别,并结合对间隙的阈值判别结果来确定单词的精确切分点和获取被拆分书写单词的位置信息。在选取的100张文档图像中测试时,结果表明该方法能有效去除标点符号对切分结果的影响,准确合并被拆分书写的单词,并且平均单词切分准确率保持在99%以上。
展开更多
关键词
维吾尔文
文档图像
单词
切
分
K-MEANS
连体段判别
单词拆分
在线阅读
下载PDF
职称材料
题名
聚类+连体段判别的维吾尔文档图像单词切分
被引量:
1
1
作者
徐学斌
吾尔尼沙·买买提
阿力木江·艾沙
朱亚俐
库尔班·吾布力
机构
新疆大学信息科学与工程学院
新疆大学图书馆
新疆大学教师工作部
出处
《计算机工程与应用》
CSCD
北大核心
2020年第14期148-155,共8页
基金
国家自然科学基金(No.61563052,No.61862021,No.61363064)。
文摘
目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过K均值聚类算法(K-means)对文本行中所有连体段之间的间隙进行聚类分析得出最佳的间隙判别阈值,然后对所有连体段进行筛选和粗略识别,并结合对间隙的阈值判别结果来确定单词的精确切分点和获取被拆分书写单词的位置信息。在选取的100张文档图像中测试时,结果表明该方法能有效去除标点符号对切分结果的影响,准确合并被拆分书写的单词,并且平均单词切分准确率保持在99%以上。
关键词
维吾尔文
文档图像
单词
切
分
K-MEANS
连体段判别
单词拆分
Keywords
Uyghur script
documents image
word segmentation
K-means
conjoined segment identification
word splitting
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
聚类+连体段判别的维吾尔文档图像单词切分
徐学斌
吾尔尼沙·买买提
阿力木江·艾沙
朱亚俐
库尔班·吾布力
《计算机工程与应用》
CSCD
北大核心
2020
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部