-
题名朝鲜文字信息结构的研究
被引量:1
- 1
-
-
作者
崔荣一
金世珍
-
机构
延边大学工学院计算机科学与技术学科智能信息处理研究室
-
出处
《中文信息学报》
CSCD
北大核心
2011年第5期114-119,共6页
-
基金
国家自然科学基金资助项目(69362001)
-
文摘
该文研究了朝鲜文字空间结构中不同位置上的基本字母对文字结构的分类所提供的信息贡献。首先,提出了文字的结构距离的概念与计算方法,描述了不同结构之间的差异;其次,研究了文字结构的等价类划分方法以及文字结构的概率分布;最后,通过计算结构分类时不同位置上的基本字母的信息增益,刻画了文字中信息的分布结构。对实际朝鲜语文档的实验表明,c1-v2、c1-v1-c3、c1-v2-c3型结构的文字具有显著的高概率特性,v1、v2类型和c3类型字母对结构分类的影响最大。
-
关键词
朝鲜文字
文字结构等价类
结构距离
信息增益
-
Keywords
Korean character
equivalent class of character structures
structure distance
information gain
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名线性化朝鲜文字的歧义性研究
被引量:2
- 2
-
-
作者
蔡京哲
崔荣一
-
机构
延边大学工学院计算机科学与技术学科智能信息处理研究室
-
出处
《中文信息学报》
CSCD
北大核心
2008年第5期121-128,共8页
-
基金
国家自然科学基金资助项目(69362001)
-
文摘
该文研究了线性化朝鲜文字重构过程中存在的固有的歧义性问题,并讨论了歧义性消除方案。首先,研究了描述朝鲜文字结构的形式化方法,给出朝鲜文字组成的基本规则和相应的有限状态自动机;其次,给出文字线性化与重构的数学描述,论证了文字重构时存在歧义性的必要条件和充分条件,并分析了线性化文字序列歧义度的本质和歧义性发生的概率;最后,讨论了文字重构歧义性消除的方案,给出了基于基本字母的在线式朝鲜文字序列输入算法和核心步骤,通过仿真实验验证了该方案的可靠性和有效性。
-
关键词
计算机应用
中文信息处理
朝鲜文字
线性化文字序列
文字重构
文字序列歧义性
-
Keywords
computer application
Chinese information processing
Korean character
linearized character string
characters reconstruction
ambiguity of character string
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于分布式图计算的学术论文推荐算法
被引量:6
- 3
-
-
作者
潘峰
怀丽波
崔荣一
-
机构
延边大学工学院计算机科学与技术学科智能信息处理研究室
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第6期1629-1632,1642,共5页
-
基金
国家语委“十二五”科研规划2015年度科研项目(YB125-178)
-
文摘
针对海量论文数据导致的应用效率低下问题,提出一个基于层次混合模型的推荐算法WSVD++。该模型根据学术论文良好的结构特征,构建一个加权的论文二部图模型。首先对论文进行特征提取,按不同特征的权重构建论文的复合关系图;其次对关系图采用一种改进的PPR算法,计算每篇论文的重要程度,依此来对用户—论文关系进行加权;然后在构建好的加权二部图模型上混合SVD++图算法进行推荐。实验结果表明,改善了推荐算法学术论文的推荐效果,并且基于分布式图计算框架GraphX,扩展性好,适合大数据处理。
-
关键词
混合模型推荐
协同过滤
SVD++
分布式图计算
GraphX
-
Keywords
hybrid model
collaborative filtering
SVD++
distributed graph computation
GraphX
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-