期刊文献+
共找到181篇文章
< 1 2 10 >
每页显示 20 50 100
视觉指导的分词和词性标注
1
作者 田海燕 黄赛豪 +1 位作者 张栋 李寿山 《计算机应用》 北大核心 2025年第5期1488-1495,共8页
中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮... 中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮助进行中文WS和POS标注。首先,制定一系列详细的数据标注规范,并基于微博推文中的文本和图像内容,使用WS和POS标签标注了一个多模态数据集VG-Weibo;其次,提出2种具有不同解码机制的多模态信息融合方法:VGTD(Visually Guided Two-stage Decoding model)和VGCD(Visually Guided Collapsed Decoding model)完成联合WS和POS标注的任务。其中:VGTD方法采用交叉注意力机制融合文本和图像信息,并通过两阶段解码策略,先预测可能的词语跨度,再预测相应的标签;VGCD方法也采用交叉注意力机制融合文本和图像信息,并采用了更适当的中文表示以及合并解码策略。在VG-Weibo测试集上的实验结果表明,在WS和POS标注任务上,VGTD方法的F1得分比传统的纯文本方法的两阶段解码模型(TD)分别提升了0.18和0.22个百分点;VGCD方法的F1得分比传统的纯文本方法的合并解码模型(CD)分别提升了0.25和0.55个百分点。可见,VGTD和VGCD方法都能有效利用视觉信息提升WS和POS标注的性能。 展开更多
关键词 分词 词性标注 多模态数据 视觉信息 社交媒体
在线阅读 下载PDF
基于局部Transformer的泰语分词和词性标注联合模型 被引量:1
2
作者 朱叶芬 线岩团 +1 位作者 余正涛 相艳 《智能系统学报》 CSCD 北大核心 2024年第2期401-410,共10页
泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采... 泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采用局部Transformer网络从音节序列中学习分词特征;考虑到词根和词缀等音节与词性的关联,将用于分词的音节特征融入词语序列特征,缓解未知词的词性标注特征缺失问题。在此基础上,模型采用线性分类层预测分词标签,采用线性条件随机场建模词性序列的依赖关系。在泰语数据集LST20上的试验结果表明,模型分词F1、词性标注微平均F1和宏平均F1分别达到96.33%、97.06%和85.98%,相较基线模型分别提升了0.33%、0.44%和0.12%。 展开更多
关键词 泰语分词 词性标注 联合学习 局部Transformer 构词特点 音节特征 线性条件随机场 联合模型
在线阅读 下载PDF
基于词性标注的启发式在线日志解析方法 被引量:3
3
作者 蒋金钊 傅媛媛 徐建 《计算机应用研究》 CSCD 北大核心 2024年第1期217-221,共5页
为了解决现有启发式日志解析方法中日志特征表示区分能力不足导致解析精度低、泛化差的问题,提出了一种启发式在线日志解析方法PosParser。该方法使用来源于触发词概念的功能词序列作为特征表示,包含解决复杂日志易过度解析问题的两阶... 为了解决现有启发式日志解析方法中日志特征表示区分能力不足导致解析精度低、泛化差的问题,提出了一种启发式在线日志解析方法PosParser。该方法使用来源于触发词概念的功能词序列作为特征表示,包含解决复杂日志易过度解析问题的两阶段检测方法和处理变长参数日志的后处理流程。PosParser在16个真实日志数据集上取得了0.952的平均解析准确率,证明了功能词序列具有良好区分性、PosParser有良好的解析效果和鲁棒性。 展开更多
关键词 日志分析 日志解析 触发词提取 词性标注 系统运维
在线阅读 下载PDF
基于无监督模型的低资源词性标注实验对比和分析
4
作者 李扬 周厚全 +1 位作者 李正华 张民 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期221-231,共11页
[目的]研究无监督词性标注模型在低资源语言上的性能表现.[方法]尝试利用无监督词性标注模型,包括高斯隐马尔科夫模型(Gaussian HMM,GHMM)、最大化互信息模型(mutual information maximization, MIM)与条件随机场自编码器(conditional r... [目的]研究无监督词性标注模型在低资源语言上的性能表现.[方法]尝试利用无监督词性标注模型,包括高斯隐马尔科夫模型(Gaussian HMM,GHMM)、最大化互信息模型(mutual information maximization, MIM)与条件随机场自编码器(conditional random filed autoencoder, CRF-AE),展开低资源词性标注实验.基于对前人工作的凝练,在英文宾州树库上设置了少样本和词典标注两种低资源场景.[结果]无监督词性标注模型能够在少样本场景中超越条件随机场模型,但在词典标注场景中却始终逊色于条件随机场模型.[结论]无监督损失更加擅长对高频词进行建模,使得模型在少样本场景下获得更好的性能表现;同时无监督损失倾向于生成更加均匀的词性分布,从而降低模型在词典标注场景下的性能. 展开更多
关键词 词性标注 低资源学习 词典标注 无监督学习
在线阅读 下载PDF
基于分类的汉语语料库词性标注一致性检查 被引量:3
5
作者 张虎 郑家恒 《计算机工程》 CAS CSCD 北大核心 2008年第8期90-92,共3页
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,... 制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。 展开更多
关键词 分类 词性标注 兼类词 词性标注一致性
在线阅读 下载PDF
判别式藏语文本词性标注研究 被引量:9
6
作者 华却才让 刘群 赵海兴 《中文信息学报》 CSCD 北大核心 2014年第2期56-60,共5页
该文在分析了现有藏文词性标注方法的基础上,提出感知机训练模型的判别式藏语词性标注方法,重点研究了符合藏语词法特性的模型训练特征模板、模型训练和词性标注方法。并且在人工标注的测试集上获得了98.26%的词性标注精确率,可以实际... 该文在分析了现有藏文词性标注方法的基础上,提出感知机训练模型的判别式藏语词性标注方法,重点研究了符合藏语词法特性的模型训练特征模板、模型训练和词性标注方法。并且在人工标注的测试集上获得了98.26%的词性标注精确率,可以实际应用到藏语自然语言处理中。 展开更多
关键词 词性标注 感知机模型 特征选择 藏语词性标注
在线阅读 下载PDF
基于条件随机场(CRFs)的中文词性标注方法 被引量:58
7
作者 洪铭材 张阔 +1 位作者 唐杰 李涓子 《计算机科学》 CSCD 北大核心 2006年第10期148-151,155,共5页
本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标... 本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。 展开更多
关键词 词性标注 条件随机场 维特比解码
在线阅读 下载PDF
TIP-LAS:一个开源的藏文分词词性标注系统 被引量:34
8
作者 李亚超 江静 +1 位作者 加羊吉 于洪志 《中文信息学报》 CSCD 北大核心 2015年第6期203-207,共5页
TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注... TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。 展开更多
关键词 藏文 分词 词性标注 条件随机场 最大熵
在线阅读 下载PDF
融合聚类触发对特征的最大熵词性标注模型 被引量:20
9
作者 赵岩 王晓龙 +1 位作者 刘秉权 关毅 《计算机研究与发展》 EI CSCD 北大核心 2006年第2期268-274,共7页
为解决传统HMM词性标注模型不能包含远距离词特征的问题,提出了形如“WA→WB/TB”的触发对来承载远距离词特征信息,并采用平均互信息量度对触发对特征进行选择·在最大熵框架下,将选择后的触发对特征加入到词性标注系统中·利... 为解决传统HMM词性标注模型不能包含远距离词特征的问题,提出了形如“WA→WB/TB”的触发对来承载远距离词特征信息,并采用平均互信息量度对触发对特征进行选择·在最大熵框架下,将选择后的触发对特征加入到词性标注系统中·利用矢量空间模型提供的语义相似度计算功能进行词语聚类,聚类的结果和语义词典融合,建立聚类触发对特征用来解决触发词“WA”的数据稀疏问题·实验结果表明,与HMM相比,融合了聚类触发对特征的最大熵模型标注错误率减少了34%· 展开更多
关键词 词性标注 最大熵模型 矢量空间模型 语义相似度计算 触发对
在线阅读 下载PDF
基于N元模型的维吾尔语词性标注实验研究 被引量:2
10
作者 尼加提·纳吉米 买合木提·买买提 吐尔根·依布拉音 《计算机工程与应用》 CSCD 2012年第25期137-140,173,共5页
词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的... 词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。 展开更多
关键词 词性标注 N元模型 维吾尔语词性标注
在线阅读 下载PDF
基于统计的汉语词性标注方法的分析与改进 被引量:31
11
作者 魏欧 吴健 +1 位作者 孙玉芳 sonata.iscas.ac.cn 《软件学报》 EI CSCD 北大核心 2000年第4期473-480,共8页
从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面 ,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析 .为了充分利用训练语料库 ,提高标注正确率 ,从利用词语相关的语法属性和加... 从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面 ,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析 .为了充分利用训练语料库 ,提高标注正确率 ,从利用词语相关的语法属性和加强对未知词的处理两个方面加以改进 ,提高了标注性能 .封闭测试和开放测试的正确率分别达到 96.5%和 96% . 展开更多
关键词 词性标注 N元语法 汉语词性 自然语言处理
在线阅读 下载PDF
中医诊断古文的词性标注与特征重组 被引量:12
12
作者 王国龙 杜建强 +3 位作者 郝竹林 程春雷 蔡良俊 张鑫 《计算机工程与设计》 北大核心 2015年第3期835-840,F0003,共7页
中医诊断古文存在大量单音词,使用通用切词技术处理,结果是单个的分词结果,不能构成一个完整的诊断词汇。对此,设计一个基于键值对模型的中医诊断词性标记集,提出基于词汇联系的隐马尔可夫模型(HMM),进行词性标注,结合词法分析,采用移... 中医诊断古文存在大量单音词,使用通用切词技术处理,结果是单个的分词结果,不能构成一个完整的诊断词汇。对此,设计一个基于键值对模型的中医诊断词性标记集,提出基于词汇联系的隐马尔可夫模型(HMM),进行词性标注,结合词法分析,采用移进归约算法进行特征重组,生成中医诊断词汇。实验结果表明,改进的HMM的词性标注准确率在训练集和测试集中分别提高了2.58%和1.02%,特征重组结果是完整独立的诊断词汇,方便中医人员进行诊断分析,适合构成向量空间模型的特征。 展开更多
关键词 中医诊断古文 键值对模型 隐马尔可夫模型 词性标注 特征重组
在线阅读 下载PDF
基于词性标注和依存句法的Web金融信息情感计算 被引量:17
13
作者 万常选 江腾蛟 +1 位作者 钟敏娟 边海容 《计算机研究与发展》 EI CSCD 北大核心 2013年第12期2554-2569,共16页
基于词袋模型的文本情感倾向性分析没有考虑句子的句法结构对句子语义的理解,基于依存句法分析的方法试图解决这一问题.目前基于依存句法分析的方法对影响文本情感的依存关系的选择多根据人为观察,带有随意性.根据影响句子情感倾向性的... 基于词袋模型的文本情感倾向性分析没有考虑句子的句法结构对句子语义的理解,基于依存句法分析的方法试图解决这一问题.目前基于依存句法分析的方法对影响文本情感的依存关系的选择多根据人为观察,带有随意性.根据影响句子情感倾向性的原极性、修饰极性和动态极性,1)找出了影响句子情感倾向性的4种词性:形容词、动词、副词和名词;2)从词性和汉语句子成分理解的角度,逐一分析了24种依存关系对句子情感计算的影响,找出了可能影响句子情感倾向性的8种依存关系;3)根据这8种依存关系中可能的词性组合设计了6种情感计算规则,并提出了基于二叉树的情感计算策略,设计了情感计算二叉树的构建算法和基于情感计算二叉树的情感计算算法;4)在Web金融信息上进行了实验测试,实验结果表明了该方法的有效性. 展开更多
关键词 情感计算 情感倾向性分析 Web金融信息 词性标注 依存句法分析
在线阅读 下载PDF
融合音节特征的最大熵藏文词性标注研究 被引量:15
14
作者 于洪志 李亚超 +1 位作者 汪昆 冷本扎西 《中文信息学报》 CSCD 北大核心 2013年第5期160-165,共6页
藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词... 藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词性标注问题,音节特征可以显著提高藏文词性标注的效果,与基准系统相比使错误率降低了6.4%。 展开更多
关键词 藏文 词性标注 最大熵 形态特征
在线阅读 下载PDF
汉语自动分词和词性标注评测 被引量:16
15
作者 杨尔弘 方莹 +1 位作者 刘冬明 乔羽 《中文信息学报》 CSCD 北大核心 2006年第1期44-49,97,共7页
本文介绍了2003年“863中文与接口技术”汉语自动分词与词性标注一体化评测的一些基本情况,主要包括评测的内容、评测方法、测试试题的选择与产生、测试指标以及测试结果,并对参评系统的切分和标注错误进行了总结。文中着重介绍了测试... 本文介绍了2003年“863中文与接口技术”汉语自动分词与词性标注一体化评测的一些基本情况,主要包括评测的内容、评测方法、测试试题的选择与产生、测试指标以及测试结果,并对参评系统的切分和标注错误进行了总结。文中着重介绍了测试中所采用的一种柔性化的自动测试方法,该方法在一定程度上克服了界定一个具体分词单位的困难。同时,对评测的结果进行了一些分析,对今后的评测提出了一些建议。 展开更多
关键词 计算机应用 中文信息处理 自动分词 词性标注 评测
在线阅读 下载PDF
中文分词及词性标注一体化模型研究 被引量:10
16
作者 佟晓筠 宋国龙 +2 位作者 刘强 张俐 姜伟 《计算机科学》 CSCD 北大核心 2007年第9期174-175,212,共3页
本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自... 本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。 展开更多
关键词 中文分词 词性标注 N-最短路径法
在线阅读 下载PDF
基于二阶HMM的中医诊断古文词性标注 被引量:9
17
作者 刘博 杜建强 +3 位作者 聂斌 刘蕾 张鑫 郝竹林 《计算机工程》 CAS CSCD 北大核心 2017年第7期211-216,共6页
针对传统隐马尔可夫模型(HMM)的词性标注存在捕获上下文信息有限的问题,提出一种改进的二阶隐马尔可夫模型。该模型考虑上下文联系,精确标注中医诊断文本。对训练过程中出现数组下溢的问题,采用生词处理及增加比例因子的方法对其加以修... 针对传统隐马尔可夫模型(HMM)的词性标注存在捕获上下文信息有限的问题,提出一种改进的二阶隐马尔可夫模型。该模型考虑上下文联系,精确标注中医诊断文本。对训练过程中出现数组下溢的问题,采用生词处理及增加比例因子的方法对其加以修正。实验结果表明,改进后的二阶HMM比传统HMM模型具有更高的词性标注正确率。 展开更多
关键词 中医诊断古文 词性标注 上下文联系 比例因子 二阶隐马尔可夫模型 生词处理
在线阅读 下载PDF
基于条件随机场的蒙古语词性标注方法 被引量:9
18
作者 应玉龙 李淼 +1 位作者 乌达巴拉 朱海 《计算机应用》 CSCD 北大核心 2010年第8期2038-2040,共3页
为了保留蒙古语词缀中大量的语法、语义信息和缩小蒙古语词典的规模,蒙古语词性标注需要对词干和词缀都进行词性标注。针对这一问题提出了一种基于条件随机场(CRF)的蒙古语词性标注方法。该方法利用CRF模型能够添加任意特征的特点,充分... 为了保留蒙古语词缀中大量的语法、语义信息和缩小蒙古语词典的规模,蒙古语词性标注需要对词干和词缀都进行词性标注。针对这一问题提出了一种基于条件随机场(CRF)的蒙古语词性标注方法。该方法利用CRF模型能够添加任意特征的特点,充分使用蒙文上下文信息,针对词素之间的相互影响添加了新的统计特征,并在3.8万句的蒙古语词性标注语料上进行了封闭测试,该方法的标注准确率达到了96.65%,优于使用隐马尔可夫模型(HMM)的词性标注模型。 展开更多
关键词 词干 词缀 条件随机场 词性标注 词素
在线阅读 下载PDF
基于序列标注的中文分词、词性标注模型比较分析 被引量:12
19
作者 刘一佳 车万翔 +1 位作者 刘挺 张梅山 《中文信息学报》 CSCD 北大核心 2013年第4期30-36,共7页
该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数... 该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比,该融合模型均取得了最好的结果。 展开更多
关键词 中文分词 词性标注 Stacked LEARNING
在线阅读 下载PDF
第一届古代汉语分词和词性标注国际评测 被引量:7
20
作者 李斌 袁义国 +4 位作者 芦靖雅 冯敏萱 许超 曲维光 王东波 《中文信息学报》 CSCD 北大核心 2023年第3期46-53,64,共9页
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,... 中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。 展开更多
关键词 古汉语 评测 自动分词 词性标注 古文信息处理
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部