期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
基于领域信息分解式学习的大语言模型修辞认知增强方法
1
作者 王雯 于东 刘鹏远 《中文信息学报》 北大核心 2025年第4期30-41,共12页
中文修辞手法多样且概念差异性大,大语言模型对部分修辞手法的认知存在缺陷。针对该问题,该文提出了QAKAG框架,此框架首先引入信息分解式学习思想,通过问答形式检测大语言模型的修辞认知缺陷,然后以四种不同的知识组合方式探究最优信息... 中文修辞手法多样且概念差异性大,大语言模型对部分修辞手法的认知存在缺陷。针对该问题,该文提出了QAKAG框架,此框架首先引入信息分解式学习思想,通过问答形式检测大语言模型的修辞认知缺陷,然后以四种不同的知识组合方式探究最优信息补充机制,实现了大语言模型修辞认知能力的增强。该文构建了多类别中文修辞句数据集MCRSD和修辞知识库MCRKB,并在ChatGPT4等六个大语言模型上开展实验研究,验证了QAKAG框架对增强大语言模型修辞认知能力的有效性以及其各阶段的必要性。结果表明,在QAKAG框架的增强下,六个大语言模型在多类别修辞识别任务上的性能相较直接回答识别问题的平均F_(1)值提高22.1%,优于Zero-shot-CoT、RAG-BaiKe、Few-Shot5提示策略。 展开更多
关键词 大语言模型 修辞认知 分解式学习 动态信息补充
在线阅读 下载PDF
藏汉跨语言话题模型构建及对齐方法研究 被引量:1
2
作者 孙媛 赵倩 《中文信息学报》 CSCD 北大核心 2017年第1期102-111,共10页
如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语... 如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。 展开更多
关键词 藏汉跨语言 话题抽取 LDA 话题对齐
在线阅读 下载PDF
跨语言命名实体翻译对抽取的研究综述 被引量:2
3
作者 王志娟 李福现 《计算机科学》 CSCD 北大核心 2017年第S1期14-18,28,共6页
跨语言命名实体对于机器翻译、跨语言信息抽取都具有重要意义,从命名实体的音译、基于平行/可比语料库的跨语言命名实体对齐、基于网络挖掘的跨语言命名实体对翻译抽取3个方面对跨语言命名实体翻译对抽取的研究现状进行了总结。音译是... 跨语言命名实体对于机器翻译、跨语言信息抽取都具有重要意义,从命名实体的音译、基于平行/可比语料库的跨语言命名实体对齐、基于网络挖掘的跨语言命名实体对翻译抽取3个方面对跨语言命名实体翻译对抽取的研究现状进行了总结。音译是跨语言命名实体翻译对抽取的重点内容之一,基于深度学习的音译模型将是今后的研究重点。目前,跨语言平行/可比语料库的获取和标注直接影响基于语料库的跨语言命名实体对齐的深入研究。基于信息检索和维基百科的跨语言命名实体翻译对抽取研究将是跨语言命名实体翻译对抽取研究的趋势。 展开更多
关键词 命名实体翻译对 音译 命名实体对齐 网络挖掘
在线阅读 下载PDF
基于语义理解的文本情感分类方法研究 被引量:40
4
作者 闻彬 何婷婷 +2 位作者 罗乐 宋乐 王倩 《计算机科学》 CSCD 北大核心 2010年第6期261-264,共4页
文本情感分类方法在信息过滤、信息安全、信息推荐中都有广泛的应用。提出一种基于语义理解的文本情感分类方法,在情感词识别中引入了情感义原,通过赋予概念情感语义,重新定义概念的情感相似度,得到词语情感语义值。分析语义层副词的出... 文本情感分类方法在信息过滤、信息安全、信息推荐中都有广泛的应用。提出一种基于语义理解的文本情感分类方法,在情感词识别中引入了情感义原,通过赋予概念情感语义,重新定义概念的情感相似度,得到词语情感语义值。分析语义层副词的出现规律及其对文本倾向性判定的影响,实现了基于语义理解的文本情感分类。实验表明,该方法能有效地判定文本情感倾向性。 展开更多
关键词 文本情感分类 情感倾向性 语义理解
在线阅读 下载PDF
多民族语言本体知识库构建技术 被引量:15
5
作者 赵小兵 邱莉榕 赵铁军 《中文信息学报》 CSCD 北大核心 2011年第4期71-74,共4页
语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统... 语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统一标准、统一接口的多民族语言本体知识库的创建思路,以及包含的若干问题,例如:多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,基于词汇语义的、包括汉语、英语及少数民族语言在内的多民族语言语义本体的表示理论与方法等。 展开更多
关键词 知识库 语义本体 词典扩充 本体学习
在线阅读 下载PDF
基于文本特征的短文本倾向性分析研究 被引量:8
6
作者 程南昌 侯敏 滕永林 《中文信息学报》 CSCD 北大核心 2015年第2期163-169,共7页
语篇倾向性分析是倾向性分析的较高层次领域。根据文本篇幅和结构可以将语篇分为短文本和长文本。该文以网络商品评论作为样本研究短文本倾向性分析的特点和策略。根据倾向极性在文中的决定性因素的不同表现,短文本可以分为含显性归总... 语篇倾向性分析是倾向性分析的较高层次领域。根据文本篇幅和结构可以将语篇分为短文本和长文本。该文以网络商品评论作为样本研究短文本倾向性分析的特点和策略。根据倾向极性在文中的决定性因素的不同表现,短文本可以分为含显性归总句、含隐性归总句、含特征词以及一般文本四类,针对不同类别文本采用不同的处理策略。在此基础上,运用词典、规则的方法构建了语篇倾向性分析系统CUCsas,该方法在第四届中文倾向性分析评测(COAE2012)中取得了较好成绩。 展开更多
关键词 短文本 文本特征 归总句 倾向性分析 词典与规则
在线阅读 下载PDF
电影对白语言中的语音历时对比分析 被引量:1
7
作者 王燕 侯敏 邹煜 《计算机工程与应用》 CSCD 北大核心 2011年第22期6-9,共4页
普通话已经走过了近百年的历程,目前还很少有人对普通话的历时语音变化及其韵律特征进行系统的实验研究。以2005年颇具代表性的广播电视谈话体语料为基准数据,选取《现代汉语普通话数字化样本库》中20世纪50年代和70年代拍摄的同名电影... 普通话已经走过了近百年的历程,目前还很少有人对普通话的历时语音变化及其韵律特征进行系统的实验研究。以2005年颇具代表性的广播电视谈话体语料为基准数据,选取《现代汉语普通话数字化样本库》中20世纪50年代和70年代拍摄的同名电影语料,对其中主要人物对白的音高、时长等语音特征进行历时的对比研究。经过分析发现:在广播电视及影视等有声媒体中,70年代语音的音节时长均值要长于50年代,其中阴平调表现尤为明显;在音高方面,高音点和低音点也都高于50年代,音域也较宽。这说明70年代的语音在发音上显得较夸张、不自然,这与六七十年代那段特殊的历史时期有关。 展开更多
关键词 现代汉语普通话 电影对白 历时比对 音高 时长
在线阅读 下载PDF
多种语义特征在突发事件新闻中的共指消解研究 被引量:3
8
作者 庞宁 杨尔弘 《中文信息学报》 CSCD 北大核心 2014年第1期26-32,共7页
提高突发事件应对的关键在于快速地收集和提取相关新闻报道中的有用信息,共指消解是信息提取研究的重要子任务。该文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,综合对比了语义类特征、语义角色特征,以及基于维基百科... 提高突发事件应对的关键在于快速地收集和提取相关新闻报道中的有用信息,共指消解是信息提取研究的重要子任务。该文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,综合对比了语义类特征、语义角色特征,以及基于维基百科的语义相关特征,重定向特征及上下文特征在测试集上的效果。实验结果表明,除单纯使用语义角色特征会使系统F值下降1.31%以外,其余各种语义知识对共指消解模型的结果均有所提高。 展开更多
关键词 中文信息处理 突发事件 共指消解 语义特征 最大熵模型
在线阅读 下载PDF
基于排序学习的文本概念标注方法研究 被引量:2
9
作者 涂新辉 何婷婷 +1 位作者 李芳 王建文 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期153-158,共6页
提出一种基于排序学习的方法 CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对... 提出一种基于排序学习的方法 CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对任意文档进行概念标注。实验表明,相对于传统的文档概念标注方法,此方法在各类指标上都有相当大的提高,标注结果更加接近人类的概念标注。 展开更多
关键词 概念标注 排序学习 维基百科 显示语义分析
在线阅读 下载PDF
话语标记的语体特征研究及应用 被引量:5
10
作者 孟晓亮 侯敏 《中文信息学报》 CSCD 北大核心 2009年第4期34-39,共6页
话语标记作为一种常见的话语现象,已成为话语分析研究的重要课题。由于研究角度不同,人们对于话语标记的认识和分类至今仍存在较大差异。该文从语体的角度提出假设,认为话语标记具有一定的语体特征。为准确描写话语标记的语体特征,提出... 话语标记作为一种常见的话语现象,已成为话语分析研究的重要课题。由于研究角度不同,人们对于话语标记的认识和分类至今仍存在较大差异。该文从语体的角度提出假设,认为话语标记具有一定的语体特征。为准确描写话语标记的语体特征,提出了"语体度"的概念。通过对采样话语标记在不同语体的语料中分布情况进行定量分析,证实了相当一部分话语标记具有明显的语体特征,并根据分析结果选择特征向量,采用Rocchio分类法对开放文本进行自动语体分类实验,正确率达到82.9%。事实证明话语标记的语体特征对文本分类具有一定的参考价值。 展开更多
关键词 计算机应用 中文信息处理 话语标记 语体特征 语体度 相似度 文本分类
在线阅读 下载PDF
基于全切分获取网络流行语方法研究 被引量:2
11
作者 吴保珍 何婷婷 +2 位作者 李立 张勇 陈龙 《计算机应用研究》 CSCD 北大核心 2009年第4期1260-1262,1285,共4页
利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词... 利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词语候选词集;最后利用提出的流行词语评分模型进行筛选得到网络流行词语。实验表明,在不影响流行词语准确率的前提下,利用该方法自动获取网络流行词语的速度明显提高。 展开更多
关键词 网络流行词语 中文信息处理 全切分
在线阅读 下载PDF
哈萨克语动词短语自动识别研究与实现 被引量:3
12
作者 古丽扎达·海沙 古丽拉·阿东别克 《计算机工程与应用》 CSCD 北大核心 2015年第2期218-223,240,共7页
由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克... 由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(Kz Base VP)进行识别。在该混合策略系统中,根据专属Kz Base VP的特点构建了Kz Base VP搭配规则集,通过规则集对无歧义的Kz Base VP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的Kz Base VP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。 展开更多
关键词 哈萨克语基本动词短语 短语分析 歧义 最大熵模型 规则集
在线阅读 下载PDF
基于层次特征的藏文人名识别研究 被引量:13
13
作者 刘飞飞 王志娟 《计算机应用研究》 CSCD 北大核心 2018年第9期2583-2587,2596,共6页
为了提高藏文人名识别的效果,提出了结合三层的层次特征的藏文人名识别算法。提出了无须分词,仅在藏文音节粒度上,基于藏文人名三层特征:内部特征、上下文信息、并列关系特征,利用条件随机场(conditional random fields,CRF)算法进行藏... 为了提高藏文人名识别的效果,提出了结合三层的层次特征的藏文人名识别算法。提出了无须分词,仅在藏文音节粒度上,基于藏文人名三层特征:内部特征、上下文信息、并列关系特征,利用条件随机场(conditional random fields,CRF)算法进行藏文人名识别的研究。首先将人名的内部和上下文特征作为CRF特征,然后将人名并列关系特征设计为规则进一步提高识别效果。在不影响准确率的情况下,最终将人名识别的召回率提高了10.43%,综合F值达到了95.02%。其中对于藏族人名的F值提升了11%,音译人名识别的F值达到了94.09%。实验结果表明,该方法可以有效提升藏文人名的识别效果。 展开更多
关键词 人名识别 层次特征 藏文 条件随机场
在线阅读 下载PDF
网络热点事件发现系统的设计 被引量:31
14
作者 刘星星 何婷婷 +1 位作者 龚海军 陈龙 《中文信息学报》 CSCD 北大核心 2008年第6期80-85,共6页
该文设计了一个热点事件发现系统。该系统面向互联网新闻报道流,能自动发现任意一段时间内网络上的热点事件,并给出描述事件发展过程的曲线图。针对网络新闻语料具有数据规模大和时间特征明显两个特性,系统将语料按时间(天)分组,对每天... 该文设计了一个热点事件发现系统。该系统面向互联网新闻报道流,能自动发现任意一段时间内网络上的热点事件,并给出描述事件发展过程的曲线图。针对网络新闻语料具有数据规模大和时间特征明显两个特性,系统将语料按时间(天)分组,对每天的语料采用凝聚聚类得到微类,选取某段时间内的所有微类,再做Single-pass聚类得到事件列表,利用事件热度计算公式,把候选事件按热度进行排序。采用该系统对2007年新闻语料进行实验,结果表明该系统能取得较好的效果。 展开更多
关键词 计算机应用 中文信息处理 事件发现 凝聚聚类 Single-pass聚类 热度计算
在线阅读 下载PDF
中文维基百科的结构化信息抽取及词语相关度计算方法 被引量:24
15
作者 涂新辉 张红春 +1 位作者 周琨峰 何婷婷 《中文信息学报》 CSCD 北大核心 2012年第3期109-115,共7页
维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因... 维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。 展开更多
关键词 语义相关度 中文维基百科 结构化信息
在线阅读 下载PDF
基于栏目的藏文网页文本自动分类方法 被引量:7
16
作者 胥桂仙 向春丞 +2 位作者 翁彧 赵小兵 杨国胜 《中文信息学报》 CSCD 北大核心 2011年第4期20-23,共4页
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别... 该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。 展开更多
关键词 藏文信息处理 文本分类 藏文网页分类
在线阅读 下载PDF
极性相似度计算在词汇倾向性识别中的应用 被引量:5
17
作者 宋乐 何婷婷 +1 位作者 王倩 闻彬 《中文信息学报》 CSCD 北大核心 2010年第4期63-67,共5页
该文提出了一种新的基于HowNet相似度计算的词汇倾向性识别方法。该方法首先利用HowNet中的"良"、"莠"极性义原进行一种新的相似度——极性相似度的计算,再计算出词汇的极性值,进而识别出词汇的极性倾向。大量实验... 该文提出了一种新的基于HowNet相似度计算的词汇倾向性识别方法。该方法首先利用HowNet中的"良"、"莠"极性义原进行一种新的相似度——极性相似度的计算,再计算出词汇的极性值,进而识别出词汇的极性倾向。大量实验证明了该方法能够有效地区分词汇的极性,并且在第一届中文倾向性分析评测(COAE2008)比赛中取得了很好的效果。 展开更多
关键词 计算机应用 中文信息处理 极性义原 极性相似度 极性值
在线阅读 下载PDF
事件信息结构分析 被引量:6
18
作者 杨尔弘 曾青青 李婷婷 《中文信息学报》 CSCD 北大核心 2012年第3期92-97,共6页
该文通过考察事件词在文本篇章结构中的分布方式,指出突发事件新闻报道文本中包含主线信息链和副线信息链。主线信息链中包含了文本的事件信息,是事件信息提取重点考虑的文本内容部分;副线信息链则由文本结构中的"评价"、&qu... 该文通过考察事件词在文本篇章结构中的分布方式,指出突发事件新闻报道文本中包含主线信息链和副线信息链。主线信息链中包含了文本的事件信息,是事件信息提取重点考虑的文本内容部分;副线信息链则由文本结构中的"评价"、"背景"以及"情节"部分的细节信息等组成,是事件信息提取时可以忽略的文本内容部分。事件信息的结构可以进一步分解为前核心事件链、核心事件链、次生事件链和后次生事件链。该文通过定义事件词,以其为触发,探索了事件信息结构的识别与获取,并借助《知网》(HowNet)提高了事件词对信息刻画的有效性和区分度。 展开更多
关键词 事件词 事件信息结构 主线信息链 副线信息链
在线阅读 下载PDF
基于混合策略的汉语最长名词短语识别 被引量:7
19
作者 钱小飞 侯敏 《中文信息学报》 CSCD 北大核心 2013年第6期16-22,共7页
该文提出一种基于语言知识评价的分类器集成方法,利用自动获得的搭配资源和人工评价规则,融合了基于支持向量机的最长名词短语识别结果和基于条件随机场的归约识别结果,进一步基于确定性规则有针对性地识别了分类器易出错的特殊结构,提... 该文提出一种基于语言知识评价的分类器集成方法,利用自动获得的搭配资源和人工评价规则,融合了基于支持向量机的最长名词短语识别结果和基于条件随机场的归约识别结果,进一步基于确定性规则有针对性地识别了分类器易出错的特殊结构,提高了对连续动词介词和连续名词造成的边界歧义的识别能力。实验取得了89.30%的正确率和89.62%的召回率,多词结构F1值较归约方法提高了0.75%。 展开更多
关键词 最长名词短语识别 语言知识评价 分类器集成 规则
在线阅读 下载PDF
评价主题挖掘及其倾向性识别 被引量:5
20
作者 李芳 何婷婷 宋乐 《计算机科学》 CSCD 北大核心 2012年第6期159-162,共4页
主要研究如何从在线评论文本中挖掘产品的评价主题,并对其倾向性进行分析。首先采用一种启发式规则和共现概率统计相结合的方法识别文本集合中的名词性短语,再运用LDA模型挖掘潜在的评价主题。然后利用多特征融合的方法计算句子的倾向性... 主要研究如何从在线评论文本中挖掘产品的评价主题,并对其倾向性进行分析。首先采用一种启发式规则和共现概率统计相结合的方法识别文本集合中的名词性短语,再运用LDA模型挖掘潜在的评价主题。然后利用多特征融合的方法计算句子的倾向性,进而根据特征词群统计出各主题的倾向性结果。最后通过对网络汽车评论文本语料的实验证实了该方法的有效性。 展开更多
关键词 LDA 评价主题 倾向性识别
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部