期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
Web数据源选择技术 被引量:16
1
作者 万常选 邓松 +3 位作者 刘喜平 廖国琼 刘德喜 江腾蛟 《软件学报》 EI CSCD 北大核心 2013年第4期781-797,共17页
在Web数据集成的过程中,如何从大量的Web数据源集合中选择合适数量的数据源,使得在满足特定查询需求的前提下尽可能地减少所需访问的数据源数量,同时保持返回数据结果的高质量,成为Web数据集成中的一个热点问题.以近十几年的研究实践为... 在Web数据集成的过程中,如何从大量的Web数据源集合中选择合适数量的数据源,使得在满足特定查询需求的前提下尽可能地减少所需访问的数据源数量,同时保持返回数据结果的高质量,成为Web数据集成中的一个热点问题.以近十几年的研究实践为背景,介绍Web数据源选择的研究沿革及现状,并对Web数据源选择方法进行了归类.分别讨论了基于相关性的和基于质量的数据源选择的研究动机、研究方法和研究成果等,并对相关研究的目标、关键技术、优点和缺点进行了对比分析;最后展望了Web数据源选择未来的研究方向. 展开更多
关键词 数据集成 WEB数据源 文本 结构化与半结构化 源摘要
在线阅读 下载PDF
融合角色心理画像的心理健康文本匹配模型
2
作者 赵芸 刘德喜 +2 位作者 万常选 刘喜平 廖国琼 《计算机研究与发展》 EI CSCD 北大核心 2024年第7期1812-1824,共13页
全球心理健康问题形势严峻,由于心理健康服务的从业人员不足,遭受心理健康困扰的人并不总是能获得专业的心理健康服务.检索式心理健康社区自动问答可以快速地为需要心理健康服务的人提供相应的信息自助服务.与传统检索式社区问答中的文... 全球心理健康问题形势严峻,由于心理健康服务的从业人员不足,遭受心理健康困扰的人并不总是能获得专业的心理健康服务.检索式心理健康社区自动问答可以快速地为需要心理健康服务的人提供相应的信息自助服务.与传统检索式社区问答中的文本匹配不同,在匹配支持帖和求助帖时,需要考虑2种不同层面的匹配准则:语义层面和心理层面.为了解决该问题,提出融合角色心理画像的2阶段文本匹配模型(two-stage text matching model integrating characters’mental portrait,T2CMP),该模型引入心理特征用于构建角色心理画像,从而辅助模型理解文本心理层面的内容和匹配关系.同时为了提升检索效率以及减少大量负样例带来的噪声问题,将文本匹配任务拆分为2阶段的序列型子任务.首先针对每条求助帖,使用基于语义的筛选模型甄别出候选支持帖;然后依据用户的角色心理画像,使用多层注意力机制将其与语义信息有效融合,提高模型的总体效果.在MHCQA数据集上的实验结果显示,T2CMP比现有优秀算法拥有更高的F1值. 展开更多
关键词 文本匹配 2阶段模型 角色心理健康画像 多层注意力机制 心理健康信息自助服务
在线阅读 下载PDF
基于句法语义特征的中文实体关系抽取 被引量:80
3
作者 甘丽新 万常选 +2 位作者 刘德喜 钟青 江腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2016年第2期284-302,共19页
作为语义网络和本体的基础,实体关系抽取已被广泛应用于信息检索、机器翻译和自动问答系统中.实体关系抽取的核心问题在于实体关系特征的选择和提取.中文长句的句式较复杂,经常包含多个实体的特点以及数据稀疏问题,给中文关系探测和关... 作为语义网络和本体的基础,实体关系抽取已被广泛应用于信息检索、机器翻译和自动问答系统中.实体关系抽取的核心问题在于实体关系特征的选择和提取.中文长句的句式较复杂,经常包含多个实体的特点以及数据稀疏问题,给中文关系探测和关系抽取任务带了挑战.为了解决上述问题,提出了一种基于句法语义特征的实体关系抽取方法.通过将2个实体各自的依存句法关系进行组合,获取依存句法关系组合特征,利用依存句法分析和词性标注选择最近句法依赖动词特征.将这2个新特征加入到基于特征的关系探测和关系抽取中,使用支持向量机(support vector machine,SVM)方法,以真实旅游领域文本作为语料进行实验.实验表明,从句法和语义上提取的2个特征能够有效地提高实体关系探测和关系抽取的性能,其准确率、召回率和F1值均优于已有方法.此外,最近句法依赖动词特征非常有效,尤其对数据稀疏的关系类型贡献最大,在关系探测和关系抽取上的性能均优于当前经典的基于动词特征方法. 展开更多
关键词 关系抽取 关系探测 句法特征 语义特征 支持向量机
在线阅读 下载PDF
基于语义约束LDA的商品特征和情感词提取 被引量:54
4
作者 彭云 万常选 +3 位作者 江腾蛟 刘德喜 刘喜平 廖国琼 《软件学报》 EI CSCD 北大核心 2017年第3期676-693,共18页
随着网络购物的发展,Web上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识.如何从这些海量评论文本中有效地提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键.根据中文商品评论文本的特点... 随着网络购物的发展,Web上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识.如何从这些海量评论文本中有效地提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键.根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型SRC-LDA(semantic relation constrained LDA),用来实现语义指导下LDA的细粒度主题词提取.由于SRC-LDA改善了标准LDA对于主题词的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性.实验结果表明,SRC-LDA对于细粒度特征和情感词的发现和提取具有较好的效果. 展开更多
关键词 LDA模型 语义约束 商品特征 情感词
在线阅读 下载PDF
文本情感原因自动提取综述 被引量:7
5
作者 邱祥庆 刘德喜 +3 位作者 万常选 李静 刘喜平 廖国琼 《计算机研究与发展》 EI CSCD 北大核心 2022年第11期2467-2496,共30页
情感原因提取是情感计算领域研究的一个新方向,是一种细粒度的情感分析,其目的是要找出给定文档中触发情感的那部分文本,是对情感的一种追根溯源.情感原因提取涉及到语言学、心理学等相关的领域知识,具有较高的学术研究价值和广泛的应... 情感原因提取是情感计算领域研究的一个新方向,是一种细粒度的情感分析,其目的是要找出给定文档中触发情感的那部分文本,是对情感的一种追根溯源.情感原因提取涉及到语言学、心理学等相关的领域知识,具有较高的学术研究价值和广泛的应用场景.尽管情感计算的相关研究大多集中在情感识别、情感预测、情感信息抽取等方面,但近些年不少学者已开始深入到情感背后的原因分析与提取上,并产生了较为丰富的成果.从问题定义、任务类别、研究方法、主流数据集、评测指标等多个角度对基于文本的情感原因自动提取的研究成果进行全面回顾和分析,重点对情感原因提取的方法特别是基于深度学习的方法进行了梳理,最后总结了现有情感原因提取工作的不足及其未来所面临的挑战. 展开更多
关键词 情感分析 情感原因提取 情感原因对 机器学习 深度学习
在线阅读 下载PDF
基于PSP_HDP主题模型的非结构化经济指标挖掘 被引量:5
6
作者 张奕韬 万常选 +3 位作者 刘喜平 江腾蛟 刘德喜 廖国琼 《软件学报》 EI CSCD 北大核心 2020年第3期845-865,共21页
随着经济活动数据的不断丰富,互联网平台上产生了大量的财经文本,其中蕴含了经济领域发展状况的影响因素.如何从这些财经文本中有效地挖掘与经济有关的经济要素,是实现非结构化数据在经济研究中应用的关键.根据人工构建非结构化经济指... 随着经济活动数据的不断丰富,互联网平台上产生了大量的财经文本,其中蕴含了经济领域发展状况的影响因素.如何从这些财经文本中有效地挖掘与经济有关的经济要素,是实现非结构化数据在经济研究中应用的关键.根据人工构建非结构化经济指标的局限性,以及主题模型在非结构化经济指标挖掘中存在的问题,结合已有经济领域分类标准、词语之间的语义关系和词语对主题的代表性,定义了文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度,用于分别描述CRF(Chinese restaurant franchise)中餐厅的菜肴风格、顾客之间对菜肴要求的一致程度和顾客对菜肴的专一程度;结合文档领域属性、词语语义和词语在主题中的出现情况,提出了PSP_HDP(combining documents’domain properties,word semantics and words’presences in topics with HDP)主题模型.由于PSP_HDP主题模型改进了文档-主题与主题-词语的分配过程,从而提高了经济主题的区分度和辨识度,可以更有效地挖掘与经济有关的经济主题和经济要素词.实验结果表明:提出的PSP_HDP主题模型不仅在主题多样性、内容困惑度和模型复杂度等评价指标方面的整体性能优于HDP主题模型,而且在非结构化经济指标挖掘和经济要素词抽取方面能够得到区分度更好、辨识度更高的结果. 展开更多
关键词 HDP主题模型 经济领域分类标准 语义关系 非结构化经济指标 经济要素词
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部