期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
41
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
自然语言处理中的篇章主次关系研究
被引量:
24
1
作者
褚晓敏
朱巧明
周国栋
《计算机学报》
EI
CSCD
北大核心
2017年第4期842-860,共19页
篇章结构分析特别是篇章主次关系研究是自然语言处理领域的一个重要研究方向.篇章主次关系的分析,有助于理解篇章的结构和语义,并为自然语言处理的应用(例如自动文摘、主题抽取和问答系统等)提供有力的支持.然而,目前篇章主次关系分析...
篇章结构分析特别是篇章主次关系研究是自然语言处理领域的一个重要研究方向.篇章主次关系的分析,有助于理解篇章的结构和语义,并为自然语言处理的应用(例如自动文摘、主题抽取和问答系统等)提供有力的支持.然而,目前篇章主次关系分析却是篇章结构分析的一个瓶颈.已有研究一般将篇章主次关系分析看作篇章修辞结构分析中的一个辅助环节,忽略了其在篇章结构分析中的重要性.因此,文中将篇章主次关系提升到篇章结构分析的核心地位,将它从篇章修辞结构分析中分离出来作为一个独立的任务进行研究.首先,探讨了什么是篇章主次关系、如何判别篇章主次关系以及为什么要研究篇章主次关系;其次,分别从两个角度(微观、宏观)和三个方面(理论体系、语料资源和计算模型)详细阐述了篇章主次关系的研究现状;再次,分析了篇章主次关系研究存在的问题,并提出我们的基本研究思路;最后,归纳出篇章主次关系未来的一些研究方向.
展开更多
关键词
自然语言处理
篇章结构分析
篇章主次关系
宏观主次关系
微观主次关系
社会媒体
在线阅读
下载PDF
职称材料
基于机器翻译的跨语言关系抽取
被引量:
3
2
作者
胡亚楠
舒佳根
+1 位作者
钱龙华
朱巧明
《中文信息学报》
CSCD
北大核心
2013年第5期191-197,共7页
训练语料库的规模对基于机器学习的命名实体间语义关系抽取具有重要的作用,而语料库的人工标注需要花费大量的时间和人力。该文提出了使用机器翻译的方法将源语言的关系实例转换成目标语言的关系实例,并通过实体对齐策略将它们加入到目...
训练语料库的规模对基于机器学习的命名实体间语义关系抽取具有重要的作用,而语料库的人工标注需要花费大量的时间和人力。该文提出了使用机器翻译的方法将源语言的关系实例转换成目标语言的关系实例,并通过实体对齐策略将它们加入到目标语言的训练集中,从而使资源丰富的源语言帮助欠资源的目标语言进行语义关系抽取。在ACE2005中英文语料库上的关系抽取实验表明,无论是将中文翻译成英文,还是将英文翻译成中文,都对另一种语言的关系抽取具有帮助作用。特别是当目标语言的训练语料库规模较小时,这种帮助就尤其显著。
展开更多
关键词
跨语言关系抽取
机器翻译
实体对齐
在线阅读
下载PDF
职称材料
基于联合学习的跨语言事件识别方法
被引量:
2
3
作者
严倩
陈敬
+1 位作者
王礼敏
李寿山
《郑州大学学报(理学版)》
CAS
北大核心
2017年第2期60-65,共6页
事件识别,包括事件触发词识别和分类,是事件抽取任务中的基础问题.为了利用较为丰富和完善的英文事件语料库来帮助完成中文事件抽取任务,提出了一种基于联合学习的跨语言事件识别方法,即利用源语言的标注语料对目标语言的测试语料进行...
事件识别,包括事件触发词识别和分类,是事件抽取任务中的基础问题.为了利用较为丰富和完善的英文事件语料库来帮助完成中文事件抽取任务,提出了一种基于联合学习的跨语言事件识别方法,即利用源语言的标注语料对目标语言的测试语料进行事件识别.利用机器翻译及词对齐技术来保持源语言和目标语言的语言一致性和标注信息一致性.挑选合适的特征组合,使用最大熵分类模型分别实现触发词的识别和分类.通过整数线性规划的联合学习模型将二者结合在一起,加之局部约束和全局约束条件,对结果进行优化处理.实验结果表明,使用源语言的语料及其翻译语料叠加的双语语料时,所用方法可以取得较好的效果.
展开更多
关键词
事件识别
跨语言
联合学习
整数线性规划
在线阅读
下载PDF
职称材料
基于对比注意力机制的跨语言句子摘要系统
被引量:
8
4
作者
殷明明
史小静
+1 位作者
俞鸿飞
段湘煜
《计算机工程》
CAS
CSCD
北大核心
2020年第5期86-93,共8页
当今句子摘要研究主要针对单语,即源端句子和目标端摘要短语属于同种语言,然而单语句子摘要严重制约了不同语言文本信息的快速获取。为解决该问题,提出一种跨语言句子摘要系统。借鉴回译思想,将单语句子摘要平行语料中的源端通过神经机...
当今句子摘要研究主要针对单语,即源端句子和目标端摘要短语属于同种语言,然而单语句子摘要严重制约了不同语言文本信息的快速获取。为解决该问题,提出一种跨语言句子摘要系统。借鉴回译思想,将单语句子摘要平行语料中的源端通过神经机器翻译系统翻译成另一种语言,将其与句子摘要平行语料中目标端的摘要短语共同构成跨语言的伪平行语料。在此基础上,利用对比注意力机制,实现目标端与源端序列中不相关信息的获取,解决了传统注意力机制中源端和目标端句子长度不匹配的问题。实验结果表明,与基于管道方法的单语句子摘要系统相比,该跨语言系统生成的摘要短语更流畅且符合人类语言表述方式,可达到接近单语的句子摘要水平。
展开更多
关键词
跨语言句子摘要
平行语料
伪语料
对比注意力机制
管道方法
在线阅读
下载PDF
职称材料
基于知识蒸馏的跨模态语音情感分类
被引量:
1
5
作者
尤佩雯
王晶晶
+1 位作者
高晓雅
李寿山
《中文信息学报》
CSCD
北大核心
2024年第4期134-142,共9页
针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通...
针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通过知识蒸馏方法将文本情感分类模型(教师模型)学习到的预训练先验知识蒸馏到语音情感分类模型(学生模型)中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术,可对原始语音数据直接进行情感分类,有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明,该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。
展开更多
关键词
跨模态
知识蒸馏
情感分类
在线阅读
下载PDF
职称材料
《同义词词林》在中文实体关系抽取中的作用
被引量:
28
6
作者
刘丹丹
彭成
+1 位作者
钱龙华
周国栋
《中文信息学报》
CSCD
北大核心
2014年第2期91-99,共9页
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了...
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。
展开更多
关键词
中文实体关系抽取
树核函数
同义词词林
语义信息
在线阅读
下载PDF
职称材料
基于随机特征子空间的半监督情感分类方法研究
被引量:
16
7
作者
苏艳
居胜峰
+2 位作者
王中卿
李寿山
周国栋
《中文信息学报》
CSCD
北大核心
2012年第4期85-90,共6页
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子...
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。
展开更多
关键词
情感分类
半监督学习方法
特征子空间
在线阅读
下载PDF
职称材料
篇章分析技术综述
被引量:
18
8
作者
徐凡
朱巧明
周国栋
《中文信息学报》
CSCD
北大核心
2013年第3期20-32,55,共14页
篇章作为词和句子之后的一种文本分析粒度在自然语言理解和自然语言生成中起到至关重要的作用。该文从计算语言学角度出发,对中英文篇章分析技术的研究现状进行了综述。介绍了中英文篇章分析技术在自然语言处理中的应用,并分别从篇章理...
篇章作为词和句子之后的一种文本分析粒度在自然语言理解和自然语言生成中起到至关重要的作用。该文从计算语言学角度出发,对中英文篇章分析技术的研究现状进行了综述。介绍了中英文篇章分析技术在自然语言处理中的应用,并分别从篇章理论、篇章语料库及评测、篇章分析器的自动构建等方面详细阐述了中英文篇章分析技术。最后归纳出篇章分析技术后续研究的几个方向。
展开更多
关键词
篇章
篇章分析
语料库
评测
在线阅读
下载PDF
职称材料
基于支持向量机分类和语义信息的中文跨文本指代消解
被引量:
5
9
作者
赵知纬
顾静航
+2 位作者
胡亚楠
钱龙华
周国栋
《计算机应用》
CSCD
北大核心
2013年第4期984-987,共4页
跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM...
跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。
展开更多
关键词
跨文本指代
信息抽取
支持向量机分类器
语义信息
重名消歧
多名聚合
在线阅读
下载PDF
职称材料
机器翻译自动评价综述
被引量:
22
10
作者
李良友
贡正仙
周国栋
《中文信息学报》
CSCD
北大核心
2014年第3期81-91,共11页
随着机器翻译的发展,对其质量进行评测的自动评价方法也越来越受重视。发展至今,各种评价方法与技术层出不穷,采用何种分类标准来组织和描述它们也是一个很大的挑战。根据核心技术的不同,该文重点介绍了三类主流的自动评价方法,包括:基...
随着机器翻译的发展,对其质量进行评测的自动评价方法也越来越受重视。发展至今,各种评价方法与技术层出不穷,采用何种分类标准来组织和描述它们也是一个很大的挑战。根据核心技术的不同,该文重点介绍了三类主流的自动评价方法,包括:基于语言学检测点的方法、字符串匹配的方法和基于机器学习的方法。论文分别阐述了这些类别中颇具代表性的方法的工作原理并分析了各自的优缺点。此外,受限参考译文下的评价技术虽然不是主流的方法,但是其对提高自动化程度和评价性能的作用不能忽视,所以该文将其作为特殊的类别做了阐述。然后,汇报了近年来衡量自动评价方法的国际评测结果。最后,总结了自动评价的发展趋势和有待进一步解决的相关问题。
展开更多
关键词
机器翻译
自动评价
自动评价分类
在线阅读
下载PDF
职称材料
基于微博的股票投资者未来情感倾向识别研究
被引量:
3
11
作者
庞磊
李寿山
+1 位作者
张慧
周国栋
《计算机科学》
CSCD
北大核心
2012年第B06期249-252,共4页
近年来,微博越来越受到网络用户的青睐,成千上万的用户通过发布微博共享他们的观点和情感。其中,有大量带有情感倾向(认为某事物"好"或"坏")的微博,这些微博反映了作者的情绪。投资者情绪(investor sentiment)是研...
近年来,微博越来越受到网络用户的青睐,成千上万的用户通过发布微博共享他们的观点和情感。其中,有大量带有情感倾向(认为某事物"好"或"坏")的微博,这些微博反映了作者的情绪。投资者情绪(investor sentiment)是研究经济市场走向的重要指标,行为金融学认为股票投资者情绪影响投资者决策,进而影响股票市场,而反映股票投资者情绪的重要指标是投资者对股票市场未来行情的情感倾向(认为股票市场未来行情"好"或"坏")。通过对新浪微博(目前最大的中文微博平台)上股票投资者发布的文本进行情感信息方面的分析与研究,提出了一种自动识别股票投资者未来情感倾向的方法。该方法分为两级识别,第一级是:识别出微博中包含未来情感的句子;第二级是:将第一级识别出来的包含未来情感的句子分为正面评论(看涨)和负面评论(看跌)。实验结果表明,所提方法对自动识别股票投资者的未来情感倾向达到了非常好的效果。
展开更多
关键词
计算机应用
中文信息处理
投资者情绪
微博
情感分类
情感倾向
在线阅读
下载PDF
职称材料
基于推理线索构建的事件关系识别方法
被引量:
2
12
作者
马彬
洪宇
+2 位作者
杨雪蓉
姚建民
朱巧明
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第1期133-141,共9页
利用同一话题下的事件元素在话题内的分布特性以及事件元素在话题演化过程中的语义依存规律,提出基于推理线索构建的事件关系识别方法。实验结果显示,相比于基于核心词和实体推理的事件关系识别方法,所提出的方法在F值上获得9.57%的性...
利用同一话题下的事件元素在话题内的分布特性以及事件元素在话题演化过程中的语义依存规律,提出基于推理线索构建的事件关系识别方法。实验结果显示,相比于基于核心词和实体推理的事件关系识别方法,所提出的方法在F值上获得9.57%的性能提升。
展开更多
关键词
推理线索
依存线索
事件核心词
事件元素
事件关系
在线阅读
下载PDF
职称材料
基于情绪相关事件上下文的隐含情绪分类方法研究
被引量:
4
13
作者
李寿山
李逸薇
+1 位作者
刘欢欢
黄居仁
《中文信息学报》
CSCD
北大核心
2013年第6期90-95,共6页
情绪分类是情绪分析研究中的一个基本任务,旨在对文本表达的情绪进行分类。目前,该任务是自然语言处理研究中的一个热点问题。已有的研究一般借助于情绪关键词(例如,"高兴","伤心")来进行情绪分类。然而,在实际中,...
情绪分类是情绪分析研究中的一个基本任务,旨在对文本表达的情绪进行分类。目前,该任务是自然语言处理研究中的一个热点问题。已有的研究一般借助于情绪关键词(例如,"高兴","伤心")来进行情绪分类。然而,在实际中,存在大量的没有情绪关键词但表达情绪的文本,我们称这类情绪表达为隐含情绪表达。该文关注隐含情绪分类方法研究,提出了基于情绪关联事件的隐含情绪分类方法,我们认为情绪的关联事件可以用于对情绪类别进行分类。具体实现中,我们首先采用情绪关键词获得句子群;然后,去除情绪关键词,将上下文作为关联事件表达文本;最后,利用上下文进行情绪分类。实验结果表明,以上下文进行的情绪分类结果达到了一定的性能,远远好于随机分类结果。这一结果为进一步隐含情绪分类提供了良好的基础。
展开更多
关键词
情绪关联事件
情绪分类
情绪关键词
在线阅读
下载PDF
职称材料
基于有监督学习方法的多文档文本情感摘要
被引量:
3
14
作者
李艳翠
林莉媛
周国栋
《中文信息学报》
CSCD
北大核心
2014年第6期143-149,共7页
该文研究有监督学习方法在多文档文本情感摘要中的应用。利用从亚马逊中文网和亚马逊英文网上收集的产品评论语料,抽取文本内特征、PageRank特征、情感特征和评论质量特征,基于有监督方法进行多文档文本情感摘要抽取。实验结果表明有监...
该文研究有监督学习方法在多文档文本情感摘要中的应用。利用从亚马逊中文网和亚马逊英文网上收集的产品评论语料,抽取文本内特征、PageRank特征、情感特征和评论质量特征,基于有监督方法进行多文档文本情感摘要抽取。实验结果表明有监督学习方法比无监督学习方法在ROUGE值上有显著的提高,情感特征和评论质量特征均有助于文本情感摘要。
展开更多
关键词
情感摘要
评论质量
情感特征
有监督学习
最大熵分类器
在线阅读
下载PDF
职称材料
一个面向信息抽取的中文跨文本指代语料库
被引量:
3
15
作者
赵知纬
钱龙华
周国栋
《中文信息学报》
CSCD
北大核心
2015年第1期57-66,共10页
跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005...
跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用"多名困惑度"和"重名困惑度"两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。
展开更多
关键词
跨文本指代
信息抽取
语料库标注
困惑度
在线阅读
下载PDF
职称材料
一个面向信息抽取的中英文平行语料库
被引量:
2
16
作者
惠浩添
李云建
+1 位作者
钱龙华
周国栋
《计算机工程与科学》
CSCD
北大核心
2015年第12期2331-2338,共8页
除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映...
除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。
展开更多
关键词
命名实体
语义关系
双语映射
平行语料库
在线阅读
下载PDF
职称材料
添加冒号和分号分类标签特征的汉语逗号分类
被引量:
2
17
作者
李艳翠
谷晶晶
周国栋
《中文信息学报》
CSCD
北大核心
2014年第5期215-222,共8页
标点分析在句子和篇章分析中有重要作用,其中逗号的功能分类是标点分析的重点和难点。该文研究添加冒号和分号分类标签为特征的逗号自动分类。首先给出逗号、冒号和分号的分类方法;然后介绍基于此分类方法的逗号、冒号和分号标点分类语...
标点分析在句子和篇章分析中有重要作用,其中逗号的功能分类是标点分析的重点和难点。该文研究添加冒号和分号分类标签为特征的逗号自动分类。首先给出逗号、冒号和分号的分类方法;然后介绍基于此分类方法的逗号、冒号和分号标点分类语料库;最后分别考察添加冒号类别标签、分号类别标签以及同时添加冒号和分号类别标签为特征的逗号分类结果。实验结果表明,三种情况下的逗号分类正确率均有不同程度的提高。
展开更多
关键词
逗号分类
冒号标签
分号标签
篇章分析
在线阅读
下载PDF
职称材料
中文文本中评价对象省略识别方法
被引量:
1
18
作者
朱珠
汪蓉
+1 位作者
李寿山
周国栋
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2015年第2期315-320,共6页
为了研究中文情感文本中评价对象省略现象的识别方法,将评价对象省略识别建模为一个二元分类问题,利用机器学习算法进行自动学习。探讨当前句位置无关特征、当前句位置相关特征和上下文相关特征对评价对象省略识别的作用。3个不同领域...
为了研究中文情感文本中评价对象省略现象的识别方法,将评价对象省略识别建模为一个二元分类问题,利用机器学习算法进行自动学习。探讨当前句位置无关特征、当前句位置相关特征和上下文相关特征对评价对象省略识别的作用。3个不同领域的实验结果表明,新提出的基于机器学习的评价对象省略识别方法能够获得较好的识别效果。
展开更多
关键词
情感分析
评价对象抽取
评价对象省略
特征选择
在线阅读
下载PDF
职称材料
否定与不确定信息抽取研究综述
被引量:
1
19
作者
邹博伟
周国栋
朱巧明
《中文信息学报》
CSCD
北大核心
2015年第4期16-24,共9页
否定与不确定表达在自然语言中广泛存在,正确识别此类信息并将其与准确信息分开处理,在信息抽取、情感分析、文本挖掘等自然语言处理任务中具有重要研究价值。自从2008年BioScope语料库发布以来,针对否定与不确定信息抽取研究举办了多...
否定与不确定表达在自然语言中广泛存在,正确识别此类信息并将其与准确信息分开处理,在信息抽取、情感分析、文本挖掘等自然语言处理任务中具有重要研究价值。自从2008年BioScope语料库发布以来,针对否定与不确定信息抽取研究举办了多次大规模评测会议和学术论坛,为采集语料、明确任务及性能评测等提供了交流平台,否定与不确定信息抽取逐渐成为自然语言处理领域的研究热点。该文简要介绍了否定与不确定信息抽取的研究背景、任务定义、相关语料等,并通过回顾和分析该领域的研究现状,展望未来的发展趋势。
展开更多
关键词
否定信息
不确定信息
自然语言处理
在线阅读
下载PDF
职称材料
基于近似随机测试的语义关系抽取比较
20
作者
彭成
钱龙华
+1 位作者
赵知纬
周国栋
《计算机工程》
CAS
CSCD
2012年第21期197-201,共5页
为比较结构化信息和句法分析器对树核函数的关系抽取的作用,提出一种基于近似随机测试语义关系比较方法。对于2种不同配置关系的抽取结果,采用随机标号互换的方法重复产生样本,通过计算这些样本的性能差异进行显著性分析。实验结果表明...
为比较结构化信息和句法分析器对树核函数的关系抽取的作用,提出一种基于近似随机测试语义关系比较方法。对于2种不同配置关系的抽取结果,采用随机标号互换的方法重复产生样本,通过计算这些样本的性能差异进行显著性分析。实验结果表明,动态关系树是最佳的结构化信息,句法分析器Charniak和Berkeley性能均优于Stanford。
展开更多
关键词
关系抽取
树核函数
结构化信息
显著性测试
近似随机测试
在线阅读
下载PDF
职称材料
题名
自然语言处理中的篇章主次关系研究
被引量:
24
1
作者
褚晓敏
朱巧明
周国栋
机构
苏州大学
计算机科学与技术学院
苏州大学自然语言处理实验室
出处
《计算机学报》
EI
CSCD
北大核心
2017年第4期842-860,共19页
基金
国家自然科学基金(61272260)
教育部中国移动科研基金(MCM20150602)
江苏省科技计划(BK20151222)资助~~
文摘
篇章结构分析特别是篇章主次关系研究是自然语言处理领域的一个重要研究方向.篇章主次关系的分析,有助于理解篇章的结构和语义,并为自然语言处理的应用(例如自动文摘、主题抽取和问答系统等)提供有力的支持.然而,目前篇章主次关系分析却是篇章结构分析的一个瓶颈.已有研究一般将篇章主次关系分析看作篇章修辞结构分析中的一个辅助环节,忽略了其在篇章结构分析中的重要性.因此,文中将篇章主次关系提升到篇章结构分析的核心地位,将它从篇章修辞结构分析中分离出来作为一个独立的任务进行研究.首先,探讨了什么是篇章主次关系、如何判别篇章主次关系以及为什么要研究篇章主次关系;其次,分别从两个角度(微观、宏观)和三个方面(理论体系、语料资源和计算模型)详细阐述了篇章主次关系的研究现状;再次,分析了篇章主次关系研究存在的问题,并提出我们的基本研究思路;最后,归纳出篇章主次关系未来的一些研究方向.
关键词
自然语言处理
篇章结构分析
篇章主次关系
宏观主次关系
微观主次关系
社会媒体
Keywords
natural language processing
discourse structure analysis
discourse primary-secondary relationships
macro primary-secondary relationships
micro primary-secondary relationships
social media
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于机器翻译的跨语言关系抽取
被引量:
3
2
作者
胡亚楠
舒佳根
钱龙华
朱巧明
机构
苏州大学自然语言处理实验室
苏州大学
计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2013年第5期191-197,共7页
基金
国家自然科学基金资助项目(60873150
90920004)
+1 种基金
江苏省自然科学基金资助项目(BK2010219)
江苏省高校自然科学重大项目(11KJA520003)
文摘
训练语料库的规模对基于机器学习的命名实体间语义关系抽取具有重要的作用,而语料库的人工标注需要花费大量的时间和人力。该文提出了使用机器翻译的方法将源语言的关系实例转换成目标语言的关系实例,并通过实体对齐策略将它们加入到目标语言的训练集中,从而使资源丰富的源语言帮助欠资源的目标语言进行语义关系抽取。在ACE2005中英文语料库上的关系抽取实验表明,无论是将中文翻译成英文,还是将英文翻译成中文,都对另一种语言的关系抽取具有帮助作用。特别是当目标语言的训练语料库规模较小时,这种帮助就尤其显著。
关键词
跨语言关系抽取
机器翻译
实体对齐
Keywords
Cross-lingual relation extraction
machine translation
entity alignment
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于联合学习的跨语言事件识别方法
被引量:
2
3
作者
严倩
陈敬
王礼敏
李寿山
机构
苏州大学自然语言处理实验室
出处
《郑州大学学报(理学版)》
CAS
北大核心
2017年第2期60-65,共6页
基金
国家自然科学基金重点项目(61331011)
国家自然科学基金项目(61375073
61273320)
文摘
事件识别,包括事件触发词识别和分类,是事件抽取任务中的基础问题.为了利用较为丰富和完善的英文事件语料库来帮助完成中文事件抽取任务,提出了一种基于联合学习的跨语言事件识别方法,即利用源语言的标注语料对目标语言的测试语料进行事件识别.利用机器翻译及词对齐技术来保持源语言和目标语言的语言一致性和标注信息一致性.挑选合适的特征组合,使用最大熵分类模型分别实现触发词的识别和分类.通过整数线性规划的联合学习模型将二者结合在一起,加之局部约束和全局约束条件,对结果进行优化处理.实验结果表明,使用源语言的语料及其翻译语料叠加的双语语料时,所用方法可以取得较好的效果.
关键词
事件识别
跨语言
联合学习
整数线性规划
Keywords
event recognition
cross lingual
joint modeling
integer liner programming
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于对比注意力机制的跨语言句子摘要系统
被引量:
8
4
作者
殷明明
史小静
俞鸿飞
段湘煜
机构
苏州大学自然语言处理实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第5期86-93,共8页
基金
国家自然科学基金(61673289)
国家重点研发计划政府间国际科技创新合作重点专项(2016YFE0132100)。
文摘
当今句子摘要研究主要针对单语,即源端句子和目标端摘要短语属于同种语言,然而单语句子摘要严重制约了不同语言文本信息的快速获取。为解决该问题,提出一种跨语言句子摘要系统。借鉴回译思想,将单语句子摘要平行语料中的源端通过神经机器翻译系统翻译成另一种语言,将其与句子摘要平行语料中目标端的摘要短语共同构成跨语言的伪平行语料。在此基础上,利用对比注意力机制,实现目标端与源端序列中不相关信息的获取,解决了传统注意力机制中源端和目标端句子长度不匹配的问题。实验结果表明,与基于管道方法的单语句子摘要系统相比,该跨语言系统生成的摘要短语更流畅且符合人类语言表述方式,可达到接近单语的句子摘要水平。
关键词
跨语言句子摘要
平行语料
伪语料
对比注意力机制
管道方法
Keywords
cross-lingual sentence summarization
parallel corpus
pseudo corpus
contrastive attention mechanism
pipeline method
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于知识蒸馏的跨模态语音情感分类
被引量:
1
5
作者
尤佩雯
王晶晶
高晓雅
李寿山
机构
苏州大学自然语言处理实验室
计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2024年第4期134-142,共9页
基金
国家自然科学基金(62006166,62076175,62076176)
中国博士后科学基金(2019M661930)
江苏高校优势学科建设工程资助项目。
文摘
针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通过知识蒸馏方法将文本情感分类模型(教师模型)学习到的预训练先验知识蒸馏到语音情感分类模型(学生模型)中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术,可对原始语音数据直接进行情感分类,有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明,该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。
关键词
跨模态
知识蒸馏
情感分类
Keywords
cross-modal
knowledge distillation
sentiment classification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
《同义词词林》在中文实体关系抽取中的作用
被引量:
28
6
作者
刘丹丹
彭成
钱龙华
周国栋
机构
苏州大学自然语言处理实验室
苏州大学
计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2014年第2期91-99,共9页
基金
国家自然科学基金(60873150
90920004)
+1 种基金
江苏省自然科学基金(BK2010219
11KJA520003)
文摘
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。
关键词
中文实体关系抽取
树核函数
同义词词林
语义信息
Keywords
Chinese entity relation extraction
tree kernel
TongYiCi CiLin
semantic information
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于随机特征子空间的半监督情感分类方法研究
被引量:
16
7
作者
苏艳
居胜峰
王中卿
李寿山
周国栋
机构
苏州大学自然语言处理实验室
出处
《中文信息学报》
CSCD
北大核心
2012年第4期85-90,共6页
基金
国家自然科学基金资助项目(61003155
60873150)
模式识别国家重点实验室开发课题基金资助项目
文摘
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。
关键词
情感分类
半监督学习方法
特征子空间
Keywords
sentiment classification
semi-supervised learning
feature subspace method
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
篇章分析技术综述
被引量:
18
8
作者
徐凡
朱巧明
周国栋
机构
苏州大学
计算机科学与技术学院
苏州大学自然语言处理实验室
出处
《中文信息学报》
CSCD
北大核心
2013年第3期20-32,55,共14页
基金
国家自然科学基金资助项目(61070123
61003155)
+3 种基金
江苏省自然科学基金资助项目(BK2011282)
江苏省高校自然科学基金重大研究资助项目(11KIJ520003)
教育部科技发展中心网络时代的科技论文快速共享专项研究资助项目
江苏省普通高校研究生科研创新计划资助项目(CXZZ11_0101)
文摘
篇章作为词和句子之后的一种文本分析粒度在自然语言理解和自然语言生成中起到至关重要的作用。该文从计算语言学角度出发,对中英文篇章分析技术的研究现状进行了综述。介绍了中英文篇章分析技术在自然语言处理中的应用,并分别从篇章理论、篇章语料库及评测、篇章分析器的自动构建等方面详细阐述了中英文篇章分析技术。最后归纳出篇章分析技术后续研究的几个方向。
关键词
篇章
篇章分析
语料库
评测
Keywords
discourse
discourse analysis
corpus
evaluation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于支持向量机分类和语义信息的中文跨文本指代消解
被引量:
5
9
作者
赵知纬
顾静航
胡亚楠
钱龙华
周国栋
机构
苏州大学自然语言处理实验室
苏州大学
计算机科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2013年第4期984-987,共4页
基金
国家自然科学基金资助项目(60873150
90920004)
+1 种基金
江苏省自然科学基金资助项目(BK2010219)
江苏省高校自然科学重大项目(11KJA520003)
文摘
跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。
关键词
跨文本指代
信息抽取
支持向量机分类器
语义信息
重名消歧
多名聚合
Keywords
cross document co-reference resolution
information extraction
Support Vector Machine(SVM) classifier
semantics
name disambiguation
variant consolidation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
机器翻译自动评价综述
被引量:
22
10
作者
李良友
贡正仙
周国栋
机构
苏州大学
计算机科学与技术学院
苏州大学自然语言处理实验室
出处
《中文信息学报》
CSCD
北大核心
2014年第3期81-91,共11页
基金
国家自然科学基金(90920004)
文摘
随着机器翻译的发展,对其质量进行评测的自动评价方法也越来越受重视。发展至今,各种评价方法与技术层出不穷,采用何种分类标准来组织和描述它们也是一个很大的挑战。根据核心技术的不同,该文重点介绍了三类主流的自动评价方法,包括:基于语言学检测点的方法、字符串匹配的方法和基于机器学习的方法。论文分别阐述了这些类别中颇具代表性的方法的工作原理并分析了各自的优缺点。此外,受限参考译文下的评价技术虽然不是主流的方法,但是其对提高自动化程度和评价性能的作用不能忽视,所以该文将其作为特殊的类别做了阐述。然后,汇报了近年来衡量自动评价方法的国际评测结果。最后,总结了自动评价的发展趋势和有待进一步解决的相关问题。
关键词
机器翻译
自动评价
自动评价分类
Keywords
machine translalion
automatic evaluation
classification of automatic evaluation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于微博的股票投资者未来情感倾向识别研究
被引量:
3
11
作者
庞磊
李寿山
张慧
周国栋
机构
苏州大学
计算机科学与技术学院
苏州大学自然语言处理实验室
出处
《计算机科学》
CSCD
北大核心
2012年第B06期249-252,共4页
基金
国家自然科学基金项目(61003155
90920004)资助
文摘
近年来,微博越来越受到网络用户的青睐,成千上万的用户通过发布微博共享他们的观点和情感。其中,有大量带有情感倾向(认为某事物"好"或"坏")的微博,这些微博反映了作者的情绪。投资者情绪(investor sentiment)是研究经济市场走向的重要指标,行为金融学认为股票投资者情绪影响投资者决策,进而影响股票市场,而反映股票投资者情绪的重要指标是投资者对股票市场未来行情的情感倾向(认为股票市场未来行情"好"或"坏")。通过对新浪微博(目前最大的中文微博平台)上股票投资者发布的文本进行情感信息方面的分析与研究,提出了一种自动识别股票投资者未来情感倾向的方法。该方法分为两级识别,第一级是:识别出微博中包含未来情感的句子;第二级是:将第一级识别出来的包含未来情感的句子分为正面评论(看涨)和负面评论(看跌)。实验结果表明,所提方法对自动识别股票投资者的未来情感倾向达到了非常好的效果。
关键词
计算机应用
中文信息处理
投资者情绪
微博
情感分类
情感倾向
Keywords
Computer application; Chinese information processing; Investor sentiment; Micro-blog; Sentiment classification; Sentiment orientation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于推理线索构建的事件关系识别方法
被引量:
2
12
作者
马彬
洪宇
杨雪蓉
姚建民
朱巧明
机构
苏州大学自然语言处理实验室
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第1期133-141,共9页
基金
国家自然科学基金(61003152
61272259
+7 种基金
61272260
90920004
61373097)
高等学校博士学科点专项科研基金(20103201110021)
江苏省自然科学基金(BK2011282)
江苏省高校自然科学基金重大项目(11KJA520003)
苏州市自然科学基金(SYG201030
SH201212)资助
文摘
利用同一话题下的事件元素在话题内的分布特性以及事件元素在话题演化过程中的语义依存规律,提出基于推理线索构建的事件关系识别方法。实验结果显示,相比于基于核心词和实体推理的事件关系识别方法,所提出的方法在F值上获得9.57%的性能提升。
关键词
推理线索
依存线索
事件核心词
事件元素
事件关系
Keywords
inference cue
dependency cue
event term
event entity
event relation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于情绪相关事件上下文的隐含情绪分类方法研究
被引量:
4
13
作者
李寿山
李逸薇
刘欢欢
黄居仁
机构
苏州大学自然语言处理实验室
香港理工
大学
中文及双语学系
出处
《中文信息学报》
CSCD
北大核心
2013年第6期90-95,共6页
基金
香港GRF项目(543810)
国家自然科学基金资助项目(61003155
61273320)
文摘
情绪分类是情绪分析研究中的一个基本任务,旨在对文本表达的情绪进行分类。目前,该任务是自然语言处理研究中的一个热点问题。已有的研究一般借助于情绪关键词(例如,"高兴","伤心")来进行情绪分类。然而,在实际中,存在大量的没有情绪关键词但表达情绪的文本,我们称这类情绪表达为隐含情绪表达。该文关注隐含情绪分类方法研究,提出了基于情绪关联事件的隐含情绪分类方法,我们认为情绪的关联事件可以用于对情绪类别进行分类。具体实现中,我们首先采用情绪关键词获得句子群;然后,去除情绪关键词,将上下文作为关联事件表达文本;最后,利用上下文进行情绪分类。实验结果表明,以上下文进行的情绪分类结果达到了一定的性能,远远好于随机分类结果。这一结果为进一步隐含情绪分类提供了良好的基础。
关键词
情绪关联事件
情绪分类
情绪关键词
Keywords
emotion related events~ emotion classification
emotion keywords
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于有监督学习方法的多文档文本情感摘要
被引量:
3
14
作者
李艳翠
林莉媛
周国栋
机构
苏州大学
计算机科学与技术学院
河南科技学院信息工程学院
苏州大学自然语言处理实验室
出处
《中文信息学报》
CSCD
北大核心
2014年第6期143-149,共7页
基金
国家863计划前沿技术研究类项目(2012AA011102)
NSFC面上项目(61273320)
文摘
该文研究有监督学习方法在多文档文本情感摘要中的应用。利用从亚马逊中文网和亚马逊英文网上收集的产品评论语料,抽取文本内特征、PageRank特征、情感特征和评论质量特征,基于有监督方法进行多文档文本情感摘要抽取。实验结果表明有监督学习方法比无监督学习方法在ROUGE值上有显著的提高,情感特征和评论质量特征均有助于文本情感摘要。
关键词
情感摘要
评论质量
情感特征
有监督学习
最大熵分类器
Keywords
opinion summarization
comments quality
emotional features
supervised learning
maximum entropy classifier
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一个面向信息抽取的中文跨文本指代语料库
被引量:
3
15
作者
赵知纬
钱龙华
周国栋
机构
苏州大学自然语言处理实验室
苏州大学
计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2015年第1期57-66,共10页
基金
国家自然科学基金(60873150
90920004)
+1 种基金
江苏省自然科学基金(BK2010219
11KJA520003)
文摘
跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用"多名困惑度"和"重名困惑度"两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。
关键词
跨文本指代
信息抽取
语料库标注
困惑度
Keywords
cross document coreference
information extraction
corpora annotation
perplexity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一个面向信息抽取的中英文平行语料库
被引量:
2
16
作者
惠浩添
李云建
钱龙华
周国栋
机构
苏州大学自然语言处理实验室
苏州大学
计算机科学与技术学院
出处
《计算机工程与科学》
CSCD
北大核心
2015年第12期2331-2338,共8页
基金
国家自然科学基金资助项目(61373096,90920004)
江苏省高校自然科学研究重大项目(11KJA520003)
文摘
除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。
关键词
命名实体
语义关系
双语映射
平行语料库
Keywords
named entity
semantic relation
bilingual mapping
parallel corpus
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
添加冒号和分号分类标签特征的汉语逗号分类
被引量:
2
17
作者
李艳翠
谷晶晶
周国栋
机构
苏州大学
计算机科学与技术学院
河南科技学院信息工程学院
苏州大学自然语言处理实验室
出处
《中文信息学报》
CSCD
北大核心
2014年第5期215-222,共8页
基金
国家863计划前沿技术研究类项目(2012AA011102)
国家自然科学基金面上项目(61273320)
文摘
标点分析在句子和篇章分析中有重要作用,其中逗号的功能分类是标点分析的重点和难点。该文研究添加冒号和分号分类标签为特征的逗号自动分类。首先给出逗号、冒号和分号的分类方法;然后介绍基于此分类方法的逗号、冒号和分号标点分类语料库;最后分别考察添加冒号类别标签、分号类别标签以及同时添加冒号和分号类别标签为特征的逗号分类结果。实验结果表明,三种情况下的逗号分类正确率均有不同程度的提高。
关键词
逗号分类
冒号标签
分号标签
篇章分析
Keywords
Chinese comma classification
colon labels
semicolon labels
discourse analysis
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文文本中评价对象省略识别方法
被引量:
1
18
作者
朱珠
汪蓉
李寿山
周国栋
机构
苏州大学自然语言处理实验室
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2015年第2期315-320,共6页
基金
国家自然科学基金(61375073
61273320
+1 种基金
61331011)
863计划(2012AA011102)资助
文摘
为了研究中文情感文本中评价对象省略现象的识别方法,将评价对象省略识别建模为一个二元分类问题,利用机器学习算法进行自动学习。探讨当前句位置无关特征、当前句位置相关特征和上下文相关特征对评价对象省略识别的作用。3个不同领域的实验结果表明,新提出的基于机器学习的评价对象省略识别方法能够获得较好的识别效果。
关键词
情感分析
评价对象抽取
评价对象省略
特征选择
Keywords
sentiment analysis
opinion target extraction
ellipsis of opinion target
feature selection
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
否定与不确定信息抽取研究综述
被引量:
1
19
作者
邹博伟
周国栋
朱巧明
机构
苏州大学自然语言处理实验室
出处
《中文信息学报》
CSCD
北大核心
2015年第4期16-24,共9页
基金
国家自然科学基金(61272260
61331011
+1 种基金
61273320)
江苏省高校自然科学基金重大项目(11KJA520003)
文摘
否定与不确定表达在自然语言中广泛存在,正确识别此类信息并将其与准确信息分开处理,在信息抽取、情感分析、文本挖掘等自然语言处理任务中具有重要研究价值。自从2008年BioScope语料库发布以来,针对否定与不确定信息抽取研究举办了多次大规模评测会议和学术论坛,为采集语料、明确任务及性能评测等提供了交流平台,否定与不确定信息抽取逐渐成为自然语言处理领域的研究热点。该文简要介绍了否定与不确定信息抽取的研究背景、任务定义、相关语料等,并通过回顾和分析该领域的研究现状,展望未来的发展趋势。
关键词
否定信息
不确定信息
自然语言处理
Keywords
negation
speculation
natural language processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于近似随机测试的语义关系抽取比较
20
作者
彭成
钱龙华
赵知纬
周国栋
机构
苏州大学
计算机科学与技术学院
苏州大学自然语言处理实验室
出处
《计算机工程》
CAS
CSCD
2012年第21期197-201,共5页
基金
国家自然科学基金资助项目(60873150
90920004
+1 种基金
61003153)
江苏省自然科学基金资助项目(BK2010219)
文摘
为比较结构化信息和句法分析器对树核函数的关系抽取的作用,提出一种基于近似随机测试语义关系比较方法。对于2种不同配置关系的抽取结果,采用随机标号互换的方法重复产生样本,通过计算这些样本的性能差异进行显著性分析。实验结果表明,动态关系树是最佳的结构化信息,句法分析器Charniak和Berkeley性能均优于Stanford。
关键词
关系抽取
树核函数
结构化信息
显著性测试
近似随机测试
Keywords
relation extraction
tree kernel function
structured information
significance test
approximate random test
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
自然语言处理中的篇章主次关系研究
褚晓敏
朱巧明
周国栋
《计算机学报》
EI
CSCD
北大核心
2017
24
在线阅读
下载PDF
职称材料
2
基于机器翻译的跨语言关系抽取
胡亚楠
舒佳根
钱龙华
朱巧明
《中文信息学报》
CSCD
北大核心
2013
3
在线阅读
下载PDF
职称材料
3
基于联合学习的跨语言事件识别方法
严倩
陈敬
王礼敏
李寿山
《郑州大学学报(理学版)》
CAS
北大核心
2017
2
在线阅读
下载PDF
职称材料
4
基于对比注意力机制的跨语言句子摘要系统
殷明明
史小静
俞鸿飞
段湘煜
《计算机工程》
CAS
CSCD
北大核心
2020
8
在线阅读
下载PDF
职称材料
5
基于知识蒸馏的跨模态语音情感分类
尤佩雯
王晶晶
高晓雅
李寿山
《中文信息学报》
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
6
《同义词词林》在中文实体关系抽取中的作用
刘丹丹
彭成
钱龙华
周国栋
《中文信息学报》
CSCD
北大核心
2014
28
在线阅读
下载PDF
职称材料
7
基于随机特征子空间的半监督情感分类方法研究
苏艳
居胜峰
王中卿
李寿山
周国栋
《中文信息学报》
CSCD
北大核心
2012
16
在线阅读
下载PDF
职称材料
8
篇章分析技术综述
徐凡
朱巧明
周国栋
《中文信息学报》
CSCD
北大核心
2013
18
在线阅读
下载PDF
职称材料
9
基于支持向量机分类和语义信息的中文跨文本指代消解
赵知纬
顾静航
胡亚楠
钱龙华
周国栋
《计算机应用》
CSCD
北大核心
2013
5
在线阅读
下载PDF
职称材料
10
机器翻译自动评价综述
李良友
贡正仙
周国栋
《中文信息学报》
CSCD
北大核心
2014
22
在线阅读
下载PDF
职称材料
11
基于微博的股票投资者未来情感倾向识别研究
庞磊
李寿山
张慧
周国栋
《计算机科学》
CSCD
北大核心
2012
3
在线阅读
下载PDF
职称材料
12
基于推理线索构建的事件关系识别方法
马彬
洪宇
杨雪蓉
姚建民
朱巧明
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014
2
在线阅读
下载PDF
职称材料
13
基于情绪相关事件上下文的隐含情绪分类方法研究
李寿山
李逸薇
刘欢欢
黄居仁
《中文信息学报》
CSCD
北大核心
2013
4
在线阅读
下载PDF
职称材料
14
基于有监督学习方法的多文档文本情感摘要
李艳翠
林莉媛
周国栋
《中文信息学报》
CSCD
北大核心
2014
3
在线阅读
下载PDF
职称材料
15
一个面向信息抽取的中文跨文本指代语料库
赵知纬
钱龙华
周国栋
《中文信息学报》
CSCD
北大核心
2015
3
在线阅读
下载PDF
职称材料
16
一个面向信息抽取的中英文平行语料库
惠浩添
李云建
钱龙华
周国栋
《计算机工程与科学》
CSCD
北大核心
2015
2
在线阅读
下载PDF
职称材料
17
添加冒号和分号分类标签特征的汉语逗号分类
李艳翠
谷晶晶
周国栋
《中文信息学报》
CSCD
北大核心
2014
2
在线阅读
下载PDF
职称材料
18
中文文本中评价对象省略识别方法
朱珠
汪蓉
李寿山
周国栋
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2015
1
在线阅读
下载PDF
职称材料
19
否定与不确定信息抽取研究综述
邹博伟
周国栋
朱巧明
《中文信息学报》
CSCD
北大核心
2015
1
在线阅读
下载PDF
职称材料
20
基于近似随机测试的语义关系抽取比较
彭成
钱龙华
赵知纬
周国栋
《计算机工程》
CAS
CSCD
2012
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部