期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于朴素贝叶斯分类器的朝鲜语文本分类的研究 被引量:14
1
作者 周国强 崔荣一 《中文信息学报》 CSCD 北大核心 2011年第4期16-19,共4页
该文基于朴素贝叶斯分类器对朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法对朝鲜语文本进行特征选择,并使用类TF-IDF估算方法计算权重;其次,构造朴素贝叶斯分类器;最后,利用分类器实现对朝鲜语文本的分类。实验表明... 该文基于朴素贝叶斯分类器对朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法对朝鲜语文本进行特征选择,并使用类TF-IDF估算方法计算权重;其次,构造朴素贝叶斯分类器;最后,利用分类器实现对朝鲜语文本的分类。实验表明,该方法在朝鲜语文本分类中具有较好的效果,为朝汉结合文本分类提供了一定的依据。 展开更多
关键词 朝鲜语 朴素贝叶斯 文本分类 TF-IDF
在线阅读 下载PDF
面向跨语言文本分类与标签推荐的带标签双语主题模型的研究 被引量:4
2
作者 田明杰 崔荣一 《计算机应用研究》 CSCD 北大核心 2019年第10期2911-2915,共5页
针对日渐丰富的跨语言的文字信息资源与新闻报道及科技文献中的多标签数据,为了挖掘跨语言间的相关性及数据属性间的关联性,提出了带标签双语主题模型,应用于跨语言文本分类与标签的推荐。首先,假设科技文献中的关键词与摘要部分有着内... 针对日渐丰富的跨语言的文字信息资源与新闻报道及科技文献中的多标签数据,为了挖掘跨语言间的相关性及数据属性间的关联性,提出了带标签双语主题模型,应用于跨语言文本分类与标签的推荐。首先,假设科技文献中的关键词与摘要部分有着内容上的相关性,对关键词进行提取,并进行标签化,进而把标签对应于主题模型中的主题,实例化“潜在”的主题;其次,利用带标签双语主题模型对摘要部分进行了训练迭代;最后,对新加入的文档进行跨语言文本分类及标签的推荐。实验结果表明,跨语言文本分类任务中micro-F1达到94.81%,推荐的标签也能较好地体现出语义上的相关性。 展开更多
关键词 主题模型 标签 跨语言文本分类 标签推荐 潜在主题
在线阅读 下载PDF
基于基频的朝鲜语方言辨识方法的研究 被引量:5
3
作者 刘双君 金小峰 崔荣一 《中文信息学报》 CSCD 北大核心 2017年第2期55-60,70,共7页
该文提出了一种基于基音频率特征的中国朝鲜族语言、韩国朝鲜语和朝鲜朝鲜语方言的自动辨识方法。首先,选择具有良好区分度的基频移位差分系数作为三个方言的特征参数;其次,设计和采用了分层支持向量机分类器,并进一步引入投票法确定最... 该文提出了一种基于基音频率特征的中国朝鲜族语言、韩国朝鲜语和朝鲜朝鲜语方言的自动辨识方法。首先,选择具有良好区分度的基频移位差分系数作为三个方言的特征参数;其次,设计和采用了分层支持向量机分类器,并进一步引入投票法确定最佳的分类结果。实验结果表明该文提取的特征参数具有良好的区分性和较强的稳定性,该文提出的方言辨识方法比传统的移位差分倒谱系数特征方法识别率高,可以有效解决朝鲜朝鲜语、韩国朝鲜语和中国朝鲜族语言的方言辨识问题。 展开更多
关键词 方言辨识 语种辨识 基频特征 移位差分系数 支持向量机
在线阅读 下载PDF
基于主动学习策略的半监督聚类算法研究 被引量:1
4
作者 芦世丹 崔荣一 《计算机应用研究》 CSCD 北大核心 2013年第6期1718-1720,共3页
提出一种选择最富信息数据并予以标记的基于主动学习策略的半监督聚类算法。首先,采用传统K-均值聚类算法对数据集进行粗聚类;其次,根据粗聚类结果计算出每个数据隶属于每个类簇的隶属度,筛选出满足最大与次大隶属度差值小于阈值的候选... 提出一种选择最富信息数据并予以标记的基于主动学习策略的半监督聚类算法。首先,采用传统K-均值聚类算法对数据集进行粗聚类;其次,根据粗聚类结果计算出每个数据隶属于每个类簇的隶属度,筛选出满足最大与次大隶属度差值小于阈值的候选数据,并从中选择差值较小的数据作为最富信息的数据进行标记;最后,将候选数据集合中未标记数据分组到与每类已被标记数据平均距离最小的类簇中。实验表明,提出的主动学习策略能够很好地学习到最富信息数据,基于该学习策略的半监督聚类算法在测试不同数据集时均获得了较高的准确率。 展开更多
关键词 K-均值算法 主动学习策略 半监督学习 聚类
在线阅读 下载PDF
基于音节-形态素融合的朝鲜语命名实体识别研究 被引量:1
5
作者 高君龙 崔荣一 赵亚慧 《中文信息学报》 CSCD 北大核心 2023年第4期28-33,共6页
命名实体识别任务是朝鲜语自然语言处理研究过程中最重要的基础任务之一。针对朝鲜语命名实体识别的边界划定不明确和准确率低等问题,该文提出基于Transformer的音节-形态素融合的朝鲜语命名实体识别模型。首先通过BERT预训练模型分别... 命名实体识别任务是朝鲜语自然语言处理研究过程中最重要的基础任务之一。针对朝鲜语命名实体识别的边界划定不明确和准确率低等问题,该文提出基于Transformer的音节-形态素融合的朝鲜语命名实体识别模型。首先通过BERT预训练模型分别对音节和形态素进行词嵌入;其次使用两种不同的向量融合方法将音节向量和形态素向量相融合,即简单的向量拼接方法和考虑到向量联系与差异的启发式融合方法;最后将融合后的向量作为模型的输入完成命名实体识别任务。实验结果在KLUE公布的朝鲜语命名实体识别数据集中F1值达到了88.78%,相比单一粒度实验提高约3至4个百分点。 展开更多
关键词 朝鲜语 命名实体识别 音节-形态素融合 预训练
在线阅读 下载PDF
基于双向长短时记忆单元和卷积神经网络的多语种文本分类方法 被引量:11
6
作者 孟先艳 崔荣一 +1 位作者 赵亚慧 方明洙 《计算机应用研究》 CSCD 北大核心 2020年第9期2669-2673,共5页
针对日渐丰富的多语种文本数据,为了实现对同一类别体系下不同语种的文本分类,充分发挥多语种文本信息的价值,提出一种结合双向长短时记忆单元和卷积神经网络的多语种文本分类模型BiLSTM-CNN模型。针对每个语种,利用双向长短时记忆神经... 针对日渐丰富的多语种文本数据,为了实现对同一类别体系下不同语种的文本分类,充分发挥多语种文本信息的价值,提出一种结合双向长短时记忆单元和卷积神经网络的多语种文本分类模型BiLSTM-CNN模型。针对每个语种,利用双向长短时记忆神经网络提取文本特征,并引入卷积神经网络进行特征优化,获得各语种更深层次的文本表示,最后将各语种的文本表示级联输入到softmax函数预测类别。在中英朝科技文献平行数据集上进行了实验验证,结果表明,该方法相比于基准方法分类正确率提高了4%,且对任一语种文本均能正确分类,具有良好的扩展性。 展开更多
关键词 多语种文本分类 长短时记忆单元 卷积神经网络
在线阅读 下载PDF
基于引文相关性排序的科技论文检索方法 被引量:3
7
作者 尹盼盼 崔荣一 《计算机工程与设计》 CSCD 北大核心 2011年第12期4223-4226,4250,共5页
为了实现学术主题相关的科技论文检索,提出了一种基于引文相关性排序的科技论文检索方法。自动抽取科技论文的结构信息,获得论文的标题、摘要、关键词和引文;根据引文与标题的相关性,评价引文的重要性,用引文的评价得分修正引文向量特... 为了实现学术主题相关的科技论文检索,提出了一种基于引文相关性排序的科技论文检索方法。自动抽取科技论文的结构信息,获得论文的标题、摘要、关键词和引文;根据引文与标题的相关性,评价引文的重要性,用引文的评价得分修正引文向量特征项的权重,构造引文的词项-文档关联矩阵,并利用奇异值分解方法构造引文的潜在语义空间,计算查询论文与文档库中论文的引文语义相关性;采用信息增益方法确定了引文相关性阈值,将引文相关性超过阈值的科技论文作为检索结果返回。实验结果表明,提出的检索方法的准确率、召回率、综合性能均高于基于概括性信息(标题、摘要、关键词)的检索方法。 展开更多
关键词 潜在语义索引 引文相关性 奇异值分解 信息增益 文本检索
在线阅读 下载PDF
基于LDA和word2vec的英文作文跑题检测 被引量:3
8
作者 曲强 崔荣一 赵亚慧 《计算机应用研究》 CSCD 北大核心 2019年第2期415-419,共5页
针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档进行训练,利用得到的文档主题和词语之间的语义关系,对文档中... 针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档进行训练,利用得到的文档主题和词语之间的语义关系,对文档中各主题及其特征词计算概率加权和,最终通过设定合理阈值筛选出跑题作文。实验中通过改变文档的主题数而得到不同的F值,确定了最佳主题数。实验结果表明,所提出的方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文,并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。 展开更多
关键词 作文跑题检测 向量空间模型 潜在狄利克雷分配 词语间语义关系
在线阅读 下载PDF
右转车流及对向行人影响下的行人过街延误模型 被引量:2
9
作者 陶薇同 崔荣一 金璟璇 《计算机应用研究》 CSCD 北大核心 2019年第9期2661-2664,共4页
通过分析车头时距随交通流量而变化的统计特性,提出了基于车头时距分布的自适应的行人过街冲突延误计算模型。根据低交通流量情况下车头时距服从负指数分布时的行人过街冲突延误,分别推导出中等交通流量及高交通流量情况下的行人过街冲... 通过分析车头时距随交通流量而变化的统计特性,提出了基于车头时距分布的自适应的行人过街冲突延误计算模型。根据低交通流量情况下车头时距服从负指数分布时的行人过街冲突延误,分别推导出中等交通流量及高交通流量情况下的行人过街冲突延误计算模型;结合无干扰条件下的相位延误和对向行人流阻滞延误得到干扰条件下的行人过街总延误计算模型;通过Vissim仿真实验对模型进行了准确性验证,其偏差小于3%。此外,将提出的行人过街延误模型与以机动车到达间距服从负指数分布为假设前提的行人过街延误模型进行误差比较,结果表明所提出的延误模型误差更小。 展开更多
关键词 信号控制 行人过街延误 交通流量 车头时距 负指数分布
在线阅读 下载PDF
面向行为识别的拉普拉斯特征映射算法的改进 被引量:1
10
作者 金成彬 崔荣一 金小峰 《计算机应用研究》 CSCD 北大核心 2014年第12期3613-3616,共4页
提出了一种面向行为识别的拉普拉斯特征映射算法的改进方法。首先,将Kinect提供的关节点数据作为姿态特征,采用Levenstein距离改进流形学习算法中的拉普拉斯特征映射算法,并映射到二维空间得到待识别行为的嵌入空间;其次,结合待识别行... 提出了一种面向行为识别的拉普拉斯特征映射算法的改进方法。首先,将Kinect提供的关节点数据作为姿态特征,采用Levenstein距离改进流形学习算法中的拉普拉斯特征映射算法,并映射到二维空间得到待识别行为的嵌入空间;其次,结合待识别行为的嵌入空间和训练数据建立先验模型;最后,通过重新设计的粒子动态模型和观察模型,采用粒子滤波算法进行行为识别。实验结果表明,该方法可以对重复动作、遮挡,以及动作幅度和速度都有明显差异的行为进行较好的识别,总体识别率达到92.4%。 展开更多
关键词 Kinect骨架 粒子滤波 Levenstein距离 流形学习 拉普拉斯特征映射
在线阅读 下载PDF
基于用户行为分析的文献阅读价值评估方法 被引量:1
11
作者 尹盼盼 崔荣一 《计算机应用研究》 CSCD 北大核心 2012年第4期1285-1288,1331,共5页
综合文献自身客观价值和相对于查询用户的主观价值,提出了基于用户行为分析的文献阅读价值评估方法。首先,分析用户行为并构建下载文献标题的潜在语义空间,计算文献与下载文献的标题语义相关性,计算文献摘要、关键词中出现下载文献标题... 综合文献自身客观价值和相对于查询用户的主观价值,提出了基于用户行为分析的文献阅读价值评估方法。首先,分析用户行为并构建下载文献标题的潜在语义空间,计算文献与下载文献的标题语义相关性,计算文献摘要、关键词中出现下载文献标题词的频次,进而计算其与用户行为的相关性;其次,采用期刊影响因子、论文加权被引频次、时间因子等指标,定量评估文献的自身价值;最后,综合主客观因素定量评估的结果,评估文献的阅读价值。实验表明,提出的文献阅读价值评估方法比基于单一方面因素评估文献阅读价值的传统方法更加合理、有效。 展开更多
关键词 用户行为分析 文献阅读价值 潜在语义索引 文献分析 文献评价
在线阅读 下载PDF
朝汉混排古籍的文字切分方法 被引量:5
12
作者 刘星辰 金小峰 《计算机工程与应用》 CSCD 北大核心 2020年第11期135-141,共7页
为解决朝鲜语古籍数字化中朝汉文种混排字符切分困难的问题,提出一种朝鲜语古籍图像的文字切分算法。针对古籍列与列之间存在不连续间隔线、倾斜或者粘连等问题,提出一种基于连通域投影的列切分方法。利用连通域的删除、合并、拆分等操... 为解决朝鲜语古籍数字化中朝汉文种混排字符切分困难的问题,提出一种朝鲜语古籍图像的文字切分算法。针对古籍列与列之间存在不连续间隔线、倾斜或者粘连等问题,提出一种基于连通域投影的列切分方法。利用连通域的删除、合并、拆分等操作对文字进行切分。使用一种多步切分法完成了具有文字大小不一,横向、纵向混合排版特点图像的字符切分工作。对于粘连字,采用改进的滴水算法进行有效切分。实验结果表明所提出的算法能够很好地完成朝、汉文种混排,文字大小不一,排版情况复杂的朝鲜语古籍图像的文字切分工作。该算法的列切分准确率为97.69%,字切分准确率为87.79%。 展开更多
关键词 古籍数字化 朝鲜语古籍 列切分 字符切分
在线阅读 下载PDF
发音相似的朝鲜语和汉语单元音辨识方法 被引量:1
13
作者 芦世丹 崔荣一 《中文信息学报》 CSCD 北大核心 2013年第2期112-117,共6页
该文主要基于共振峰对六对发音相似的朝汉语单元音的分类方法进行了研究。首先,提取音频文件的前三个共振峰F1、F2、F3;其次,分析六对发音相似的朝汉语单元音的共振峰分布差异,针对不同的分类对象选择不同的共振峰频率特征参数或其组合... 该文主要基于共振峰对六对发音相似的朝汉语单元音的分类方法进行了研究。首先,提取音频文件的前三个共振峰F1、F2、F3;其次,分析六对发音相似的朝汉语单元音的共振峰分布差异,针对不同的分类对象选择不同的共振峰频率特征参数或其组合形式作为分类特征;最后,采用信息增益方法确定分类阈值并对朝汉语单元音进行分类。实验结果表明,朝鲜语单元音和具有相似发音的汉语单元音之间存在可区分性,所采用的方法计算过程简单,获得了良好的分类效果。 展开更多
关键词 朝鲜语单元音 汉语单元音(单韵母) 语种识别 共振峰频率 信息增益
在线阅读 下载PDF
基于有向图的足球视频中球员分类算法 被引量:1
14
作者 孙仕柏 崔荣一 《计算机应用研究》 CSCD 北大核心 2015年第8期2510-2512,共3页
基于传统的直方图球员分类方法由于缺乏描述图像颜色的空间信息而造成分类误差,而且该方法需要先验的模板信息。为此,提出一种基于有向图的足球球员的分类方法。首先,利用HSV模型中主颜色方法提取候选球员,并利用等面积矩形划分策略对... 基于传统的直方图球员分类方法由于缺乏描述图像颜色的空间信息而造成分类误差,而且该方法需要先验的模板信息。为此,提出一种基于有向图的足球球员的分类方法。首先,利用HSV模型中主颜色方法提取候选球员,并利用等面积矩形划分策略对图像进行分块;其次,对子块的HSV颜色空间进行量化,将统计直方图作为颜色特征,然后通过颜色特征计算图像之间的距离,并利用距离矩阵生成对应有向图;最后,通过对有向图的顶点分类实现球员的分类。实验结果表明,提出的方法在没有先验模板信息的条件下,能够有效地解决处在分类边界上的球员分类问题,正确率达到98.23%;与传统方法相比,具有更好的分类效果。 展开更多
关键词 球员分类 主颜色 直方图 距离矩阵 有向图
在线阅读 下载PDF
MapReduce框架下基于正负关联规则的视频人物关系挖掘
15
作者 朱晋 怀丽波 +1 位作者 崔荣一 王齐 《计算机应用研究》 CSCD 北大核心 2020年第8期2333-2337,共5页
针对目前视频人物关系挖掘中关系单一的问题,提出了一种MapReduce框架下基于关联规则的视频人物关系挖掘方法。首先对预处理过的视频图像进行人脸聚类,其次引入了关系方向、关系权重、关系影响三个关系细化的概念,对所得人脸事务数据库... 针对目前视频人物关系挖掘中关系单一的问题,提出了一种MapReduce框架下基于关联规则的视频人物关系挖掘方法。首先对预处理过的视频图像进行人脸聚类,其次引入了关系方向、关系权重、关系影响三个关系细化的概念,对所得人脸事务数据库进行了正负关联规则挖掘,最后比较了挖掘结果关系图同客观关系图在对应图节点度数上的差异。实验表明,该方法可以挖掘出客观人物关系图主要结构,相对于其他人物关系挖掘方法完成了人物关系的细化,对视频内容分析的研究具有较强的参考价值。 展开更多
关键词 视频人物关系 正负关联规则 人物关系细化 视频内容分析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部