期刊文献+
共找到94篇文章
< 1 2 5 >
每页显示 20 50 100
面向心理健康检测的心理支持异质图模型
1
作者 刘德喜 张子靖 +4 位作者 邹志峰 万齐智 刘喜平 廖国琼 朱廷劭 《计算机研究与发展》 北大核心 2025年第12期3013-3027,共15页
在线心理健康论坛已经成为心理健康服务的重要载体,从海量帖子中检测出有心理健康问题的帖子是心理干预的基础.充分利用求助者的社交关系有利于判断其心理健康状态,然而,现有模型大都依赖显式的社交关系,没有关注医患(支持者和求助者)... 在线心理健康论坛已经成为心理健康服务的重要载体,从海量帖子中检测出有心理健康问题的帖子是心理干预的基础.充分利用求助者的社交关系有利于判断其心理健康状态,然而,现有模型大都依赖显式的社交关系,没有关注医患(支持者和求助者)之间基于患者经历、症状成因、自我认知以及心理支持专长所形成的心理支持关系.以自杀意念为检测对象,提出帖子-用户交互心理支持异质图(post-user psychological support heterogeneous graph,PU-PSHG)来表示在线心理健康论坛中求助者和支持者发布的帖子语义和医患关系.基于PU-PSHG提出一种图增强的自杀意念检测(graph-enhanced suicide ideation detection,GSID)模型.首先,基于心理支持关系定义用户对用户、用户对帖子的2种元路径语义,构建包含用户和帖子的PU-PSHG,并采用DeepWalk算法从PU-PSHG中学习医患关系或社群关系.然后,通过关系表征学习心理支持关系的表示,基于异质关系融合帖子语义和医患关系.最后根据帖子的表示进行自杀意念强度分类.在CLPsych2017共享任务上的实验结果表明,GSID模型与现有的方法相比具有更好的性能.在Non-green F1,All F1,All Acc指标上相比于基准模型C-GraphSAGE提高7.8%,4.8%,1.4%.消融实验发现,去除PU-PSHG中帖子与帖子的回复关系、用户对帖子的心理支持关系、用户对用户的心理支持关系,Non-green F1分别下降3.04%,3.80%,6.17%. 展开更多
关键词 在线心理健康论坛 自杀意念检测 心理支持异质图 图注意力网络 GSID模型
在线阅读 下载PDF
基于深度学习的篇章级事件抽取综述
2
作者 胡蓉 万常选 +2 位作者 万齐智 刘德喜 刘喜平 《计算机学报》 北大核心 2025年第2期381-406,共26页
篇章级事件抽取是自然语言处理的重要任务且富有挑战,当前涌现了很多优秀的研究成果。尽管国内外存在少量篇章级事件抽取综述,但存在一些局限:(1)按文献采用的具体技术或任务实现步骤对现有研究成果进行分类,未深入分析现有研究成果间... 篇章级事件抽取是自然语言处理的重要任务且富有挑战,当前涌现了很多优秀的研究成果。尽管国内外存在少量篇章级事件抽取综述,但存在一些局限:(1)按文献采用的具体技术或任务实现步骤对现有研究成果进行分类,未深入分析现有研究成果间的关联与区别,未深刻理解现有研究成果分别致力于解决哪些问题;(2)简单介绍现有数据集,未能正确认识每个数据集的特点及带来的任务挑战。由于每个数据集侧重点不同,研究者们致力于解决不同的问题,因此现有梳理方式未能清晰地展示不同数据集下不同研究问题的研究进展。为此,本文重新梳理篇章级事件抽取的2个(子)任务的研究成果。首先,针对2个任务,分别明确任务目标,分析解决任务的基本思路,总结现有研究进展(基于哪些数据集解决了哪些问题)。然后,总结对应数据集的特点,归纳任务面临的挑战,再深入分析具体研究方法,并图示化展示推进情况。最后,结合有待继续攻破的问题,讨论篇章级事件抽取未来发展趋势。 展开更多
关键词 篇章级事件抽取 信息抽取 事件抽取数据集 事件论元抽取 深度学习
在线阅读 下载PDF
基于知识迁移的情感—原因对抽取 被引量:1
3
作者 赵凤园 刘德喜 +3 位作者 万齐智 刘喜平 廖国琼 万常选 《中文信息学报》 北大核心 2025年第1期121-132,共12页
现有的情感—原因对抽取模型均没有通过加入外部知识来提升情感—原因对的抽取效果。该文提出基于知识迁移的情感—原因对抽取模型(ECPE-KT),采用知识库获取文本的显性知识编码;随后引入外部情感分类语料库迁移得到子句的隐性知识编码;... 现有的情感—原因对抽取模型均没有通过加入外部知识来提升情感—原因对的抽取效果。该文提出基于知识迁移的情感—原因对抽取模型(ECPE-KT),采用知识库获取文本的显性知识编码;随后引入外部情感分类语料库迁移得到子句的隐性知识编码;最后拼接两个知识编码,加入情感(原因)子句预测概率及相对位置,搭配Transformer机制融合上下文,并采用窗口机制优化计算压力,实现情感—原因对抽取。在ECPE数据集上的实验结果表明,该文提出的方法超过当前最先进的模型ECPE-2D。 展开更多
关键词 情感—原因对抽取 知识辅助 相对位置 预测概率
在线阅读 下载PDF
基于正负例思维链的表格-文本混合金融数据自动问答方法
4
作者 李希 刘喜平 +3 位作者 舒晴 谭钊 万常选 刘德喜 《中文信息学报》 北大核心 2025年第7期102-113,共12页
金融领域表格-文本混合数据的自动问答面临复杂数值推理等挑战。针对这一挑战,该文提出了正负例思维链方法。思维链技术通过选取演示样本,搭配提示指令,能有效提升大语言模型的多步骤推理能力。但思维链的演示样本多为人工制作,费时费力... 金融领域表格-文本混合数据的自动问答面临复杂数值推理等挑战。针对这一挑战,该文提出了正负例思维链方法。思维链技术通过选取演示样本,搭配提示指令,能有效提升大语言模型的多步骤推理能力。但思维链的演示样本多为人工制作,费时费力,且影响大模型推理。受正例和负例对学习效果影响的启发,该文从大模型的推理结果中抽取样本,构建正例样本池和负例样本池。采用静态和动态相结合的策略选取不同类型的演示样本:选择最佳正例能够保障大语言模型输出的准确率,选择相似负例能够指导大语言模型规避错误推理。实验结果显示,该方法在FinQA数据集上的准确率提高了3.6%,在FinQA-fix数据集上的准确率提高了12.73%,显著提升了大模型的数值推理能力。 展开更多
关键词 思维链 正负例 表文混合问答 大语言模型 数值推理
在线阅读 下载PDF
融合外部知识与证据的场景图注意力网络多模态谣言检测
5
作者 黄学坚 马廷淮 +3 位作者 荣欢 王根生 廖国琼 刘德喜 《计算机学报》 北大核心 2025年第9期2159-2180,共22页
社交媒体上谣言的泛滥对社会造成了严重的负面影响。随着多模态内容在社交媒体中的迅速增长,多模态谣言检测受到了越来越多的关注。目前,大多数方法主要聚焦于学习各个模态的特征,并通过特征融合实现不同模态信息的互补。然而,这些方法... 社交媒体上谣言的泛滥对社会造成了严重的负面影响。随着多模态内容在社交媒体中的迅速增长,多模态谣言检测受到了越来越多的关注。目前,大多数方法主要聚焦于学习各个模态的特征,并通过特征融合实现不同模态信息的互补。然而,这些方法存在两个关键问题:(1)不同特征空间之间的跨模态关联难以有效捕捉图文细粒度语义的一致性;(2)单纯依赖图文内容难以识别一些造谣者精心设计的深层语义不匹配的谣言。为此,本文提出了融合证据与知识的场景图注意力网络的多模态谣言检测方法。首先,基于预训练的语言和视觉模型,分别提取文本语义和图像视觉特征,并通过误差级别分析提取图像篡改特征;其次,构建了一种基于反事实推理的无偏场景图生成方法和微调的Flan-T5模型,分别将图像和文本转化为视觉场景图和文本场景图,并利用知识蒸馏从知识库中提取场景图实体的相关知识,以增强模型对场景图的深层语义理解;接着,设计了一种融合场景关系特征的场景图注意力网络,以挖掘图文间的细粒度语义匹配特征;最后,从互联网中筛选与待检验帖子相关的文本和图片证据,并通过交叉注意力机制实现证据与待检验帖子的交互对齐,提升模型对深层语义不匹配谣言的识别能力。实验表明,在Weibo和Twitter两个真实社交网络数据集上,本文提出的方法在宏准确率上比最佳基线方法分别提高了1.6%和2.2%,而在谣言类别的F1值上,分别提高了2.6%和3.0%。实验数据和代码已在GitHub上开源共享(https://github.com/xuejianhuang/SGKE)。 展开更多
关键词 多模态谣言检测 场景图注意力网络 图文语义匹配 多模态证据对齐 知识增强
在线阅读 下载PDF
融合词先验知识的MOOCs课程概念抽取
6
作者 聂凡 刘德喜 +3 位作者 张子靖 刘喜平 廖国琼 万常选 《中文信息学报》 北大核心 2025年第1期101-111,120,共12页
针对中文大规模开放在线课程(Massive Open Online Courses,MOOCs)视频字幕中课程概念词性丰富、领域特性显著等特点,该文提出一种融合词性、词性规则和词典等词先验知识(Word Prior Knowledge,WPK)的课程概念抽取模型WPK-MCC。该模型... 针对中文大规模开放在线课程(Massive Open Online Courses,MOOCs)视频字幕中课程概念词性丰富、领域特性显著等特点,该文提出一种融合词性、词性规则和词典等词先验知识(Word Prior Knowledge,WPK)的课程概念抽取模型WPK-MCC。该模型首先通过BERT以及字符嵌入的方式获得包含上下文和词性信息的字符表示,再利用词典匹配当前字符所在窗口的字符串,构建当前字符的4个词汇集群(当前字符在词的开头、中间、结尾,以及当前字符单独成词),并通过词性规则控制每个词的贡献权重。此外,考虑到课程概念在MOOCs中有一定的重复性,WPK-MCC模型利用当前句子所在视频字幕的上下文信息,提升课程概念抽取的效果。在MoocData数据集上的实验结果表明,WPK-MCC模型对课程概念实体抽取的F_(1)值达到89.42%,优于SoftLexicon等先进的模型。消融实验显示,词性、规则和词典等词先验知识以及上下文全局信息对WPK-MCC模型的帮助较大,去除词先验知识和上下文全局信息后,WPK-MCC的F_(1)值下降了1.13%。 展开更多
关键词 课程概念抽取 词先验知识 词汇集群 全局信息
在线阅读 下载PDF
披露主题引导的在线心理健康支持回答生成
7
作者 张丽园 刘德喜 +3 位作者 陈启 彭文忠 万齐智 刘喜平 《小型微型计算机系统》 北大核心 2025年第10期2351-2363,共13页
由于在线平台具有便捷、易获得、支持匿名等特点,人们倾向在平台上披露心理问题并寻求帮助.现有研究发现显式标注支持者支持策略能够提升问答模型自动生成心理健康支持回答的质量,但较少探索求助者披露主题对心理健康支持回答效果的影响... 由于在线平台具有便捷、易获得、支持匿名等特点,人们倾向在平台上披露心理问题并寻求帮助.现有研究发现显式标注支持者支持策略能够提升问答模型自动生成心理健康支持回答的质量,但较少探索求助者披露主题对心理健康支持回答效果的影响.该文认为求助者披露主题与支持者支持策略存在关联,显式标注披露主题有助于引导问答模型选择合适的支持策略,进而提升心理健康支持回答的生成质量.因此,该文首先基于PsyQA数据集,标注了求助者披露主题,构建了首个包含披露主题和支持策略的中文在线心理健康支持问答数据集PtsQA.其次,该文分析了披露主题的词汇特征、分布规律和转换模式,并基于关联规则挖掘验证了披露主题与支持策略之间存在关联关系.最后,为探索披露主题对生成心理健康支持回答效果的影响,该文将披露主题显式地融入问题中作为问答模型的输入,以生成相应的支持策略和回答内容.实验结果表明,披露主题的加入有助于问答模型有效学习并预测合适的支持策略,在线心理健康支持回答的生成效果得到显著提升. 展开更多
关键词 在线心理健康支持 披露主题 支持策略 问答模型
在线阅读 下载PDF
人工经验+LLMs智能:基于支持策略规划的心理健康支持生成框架
8
作者 陈启 刘德喜 +3 位作者 张丽园 万齐智 刘喜平 赵芸 《中文信息学报》 北大核心 2025年第1期153-166,共14页
心理健康支持旨在帮助求助者应对心理健康问题。使用大语言模型(Large Language Models,LLMs)生成心理健康支持回复,有助于减轻心理咨询师的负担,提高心理健康支持的效率。尽管近期关于思维链(Chain-of-Thought,CoT)Prompting的研究旨... 心理健康支持旨在帮助求助者应对心理健康问题。使用大语言模型(Large Language Models,LLMs)生成心理健康支持回复,有助于减轻心理咨询师的负担,提高心理健康支持的效率。尽管近期关于思维链(Chain-of-Thought,CoT)Prompting的研究旨在指导LLMs自动规划活动,取得了一定的成功,但这些研究没有对以往的经验进行提炼,导致LLMs生成的内容缺乏针对性和共情性,在心理健康支持场景下,这一问题尤为突出。为解决这个问题,该文定义了一种基于支持策略规划的心理健康支持生成框架S2P-MSG。该框架利用小语言模型(Small Language Models,SLMs)学习心理咨询师回复中支持策略规划的“人工经验”,生成多条动态策略链;使用Prompting方法引导LLMs选择最恰当的动态策略链,激发LLMs“智能”;并基于选中的动态策略链引导LLMs生成心理健康支持回复。该文在广泛使用的PsyQA数据集上进行了丰富的实验。实验结果表明,与SLMs模型及常见的Prompting方法相比,S2P-MSG框架生成的回复具有更高的相关性、帮助性和共情性。实验还发现,在应对心理健康风险水平较高和自我披露程度较高的求助帖时,S2P-MSG框架展现出了更为优异的性能。 展开更多
关键词 大语言模型 心理健康支持 支持策略
在线阅读 下载PDF
基于多特征融合的在线论坛用户心理健康自动评估 被引量:29
9
作者 刘德喜 夏先益 +3 位作者 万常选 刘喜平 江腾蛟 付淇 《计算机学报》 EI CSCD 北大核心 2019年第7期1553-1569,共17页
心理健康问题会对社会和谐和家庭幸福造成严重破坏,提前发现有心理健康问题的潜在患者,有利于对其进行及时辅导和治疗.人们利用互联网或社交网络交流沟通、表达情感和观点,这为心理健康的观察提供了新的窗口.本文提出基于多特征融合的... 心理健康问题会对社会和谐和家庭幸福造成严重破坏,提前发现有心理健康问题的潜在患者,有利于对其进行及时辅导和治疗.人们利用互联网或社交网络交流沟通、表达情感和观点,这为心理健康的观察提供了新的窗口.本文提出基于多特征融合的在线论坛用户心理健康自动评估框架F 3 TMH,该框架采用贪婪法F 3 TMH_G、投票法 F 3 TMH_V、后期融合法F 3 TMH_L和降噪自编码器法F 3 TMH_DA四种特征融合策略,融合帖子(或其作者)的行为与属性特征、语言或用词风格特征、内容特征(N-Grams特征、主题特征、词向量特征)、上下文特征,对论坛中帖子所反映的用户(心理康健状况)需要干预的紧急程度( crisis :非常紧急, red :紧急, amber :不紧急, green :不需要任何干预)进行自动评估.在CLPsych2017 shared task评测任务所提供的数据集上,考察了各类特征、不同的特征融合策略对心理健康自动评估性能的影响.实验发现,相对于行为与属性特征和语言特征,内容特征表现更好,其中基于Word2Vec的词向量特征表现最佳,其 Non -green ( crisis 、 red、amber 三类)的 F1 均值达到0.429.尽管单独使用行为与属性特征表现不佳,但该特征对 crisis 类帖子的识别影响很大,在融合所有特征的基础上去掉该特征后会导致 crisis 类帖子的 F1 值下降19.7%.实验还显示,多种类型特征的融合较单一类型的特征表现更优,特征融合后 Non -green 的 F1 值(0.479)较单一最优特征(0.429)提高11.6%.各种特征融合策略各有优势,例如,后期融合策略F 3 TMH_L2更有利于识别心理健康危机程度较高的用户( crisis 和 red 类帖子), Urgent 的 F1 值达到0.608,而F 3 TMH_L则更有利于识别 crisis 类的帖子,自编码融合策略F 3 TMH_DA对于识别数据量相对较多的 Flagged 类(所有非 green 类的并集)帖子更有优势,其 F1 值达到0.872.最后还探讨了上下文信息对用户心理危机程度识别的影响.此外,F 3 TMH_V参加了CLPsych2017 shared task评测,在官方对参赛系统排名的评价指标 Non -green F1 上得分0.467,排名第一,优于采用深度学习等其他模型和特征的参赛系统。 展开更多
关键词 在线论坛用户 心理健康自动评估 行为与属性特征 语言特征 内容特征 多特征融合
在线阅读 下载PDF
基于分类的微博新情感词抽取方法和特征分析 被引量:20
10
作者 刘德喜 聂建云 +5 位作者 万常选 刘喜平 廖述梅 廖国琼 钟敏娟 江腾蛟 《计算机学报》 EI CSCD 北大核心 2018年第7期1574-1597,共24页
情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础.人工情感词典虽然准确但构建代价大、难以及时更新,很难适应微博这类新情感词快速更迭的数据.微博平台为新情感词的发... 情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础.人工情感词典虽然准确但构建代价大、难以及时更新,很难适应微博这类新情感词快速更迭的数据.微博平台为新情感词的发布和传播提供了便捷的途径,是新情感词的重要来源.考虑到已有规模较大的人工情感词典及大量包含新情感词的微博数据,在统计、分析、对比中、英两种语言微博中情感词分布差异的基础上,提出了与特定语言无关的基于分类思想的微博新情感词抽取方法cNSEm.cNSEm根据微博数据集和情感词典自动构建训练数据、训练分类器并判别候选词的情感极性,最后采用投票机制确定候选词的情感极性.通过大量而细致的实验,分析了cNSEm在中、英文两种语言的微博数据上的表现、六类特征的作用和用法以及抽取的新情感词对微博情感分类任务的帮助作用.实验结果表明,cNSEm比经典的基于共现和极性传播的方法要好,特别是当考虑中文微博数据集中的名词类情感词时.对cNSEm抽取的新情感词进行了直接和间接两种方法评测,前者利用人工情感词典作参照,后者考察抽取的新情感词对情感分类的帮助作用,从评测指标上看,cNSEm抽取的新情感词与人工情感词典的质量相当,并且cNSEm能适应有较大差异的中、英两个语种. 展开更多
关键词 微博 新情感词抽取 cNSEm方法 特征分析
在线阅读 下载PDF
中文微博情感词提取:N-Gram为特征的分类方法 被引量:13
11
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 N-Gram特征
在线阅读 下载PDF
一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA 被引量:10
12
作者 刘德喜 何炎祥 +1 位作者 姬东鸿 杨华 《中文信息学报》 CSCD 北大核心 2006年第6期46-53,共8页
SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法... SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法的评价函数中考虑了衡量摘要的4个标准:长度符合用户要求、信息覆盖率高、更多地保留原文传递的重要信息、无冗余。另外,为了提高词频计算的精度,SBGA采用了一种改进的词频计算方法TFS,将加权后词的同义词频率加到了原词频中。在DUC2004测试数据集上的实验结果表明,基于演化算法进行句子抽取的方法有很好的性能,其ROUGE-1分值比DUC2004最优参赛系统仅低0.55%。改进的词频计算方法TFS对提高文档质量也起到了良好的作用。 展开更多
关键词 计算机应用 中文信息处理 多文档自动摘要 演化算法 句子抽取 评价函数 TFS
在线阅读 下载PDF
基于结点权重模型的XML片段检索策略 被引量:5
13
作者 刘德喜 万常选 +2 位作者 刘喜平 钟敏娟 江腾蛟 《计算机学报》 EI CSCD 北大核心 2013年第8期1729-1744,共16页
当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的... 当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的片段,用户可以通过该片段判断片段所在的XML文档或结点与查询的真实相关性,以决定是否有必要进一步阅读,从而有效地提高从XML文档中获取信息的效率.该文提出了基于结点权重模型的XML片段检索策略.该策略先利用结点权重模型ATG(平均主题概括强度)对XML文档集中的标签或路径设置权重,再将该权重用于BM25模型,得到BM25NW检索模型.在利用BM25NW检索出XML结点后,对结点中定长窗口进行评分,考察其是否适合作为片段内容.最后在保证信息冗余较小的条件下,选择得分较高的窗口内容组成片段返回给用户.INEX 2011片段检索任务上的评测结果显示,基于结点权重模型ATG的XML片段检索策略具有很强的竞争力,性能明显优于其它参赛系统. 展开更多
关键词 XML片段检索 结点权重模型 平均主题概括强度 窗口
在线阅读 下载PDF
利用准私密社交网络文本数据检测抑郁用户的可行性分析 被引量:8
14
作者 刘德喜 邱家洪 +4 位作者 万常选 刘喜平 钟敏娟 郭海峰 邓松 《中文信息学报》 CSCD 北大核心 2018年第9期93-102,共10页
社交媒体的发展为抑郁用户的检测提供了一条新的途径。已有的相关研究通常是利用用户在Twitter、微博等社交网络平台上的用户行为数据或公开发表的文本内容,较少有利用微信朋友圈、QQ空间这种相对比较私密的社交网络数据。直观地,这类... 社交媒体的发展为抑郁用户的检测提供了一条新的途径。已有的相关研究通常是利用用户在Twitter、微博等社交网络平台上的用户行为数据或公开发表的文本内容,较少有利用微信朋友圈、QQ空间这种相对比较私密的社交网络数据。直观地,这类准私密社交网络数据更能反映用户的心理健康状况。该文主要讨论利用准私密社交网络文本数据检测抑郁用户的可行性,包括训练样本的选择、特征量化方法、检测模型选择和不同文本特征下的模型分类效果等。实验表明,采用平衡高低分组的方法选择样本比非平衡高低分组样本和离散化的高低分组样本训练的分类器要好;利用Z-score标准化的特征量化方法比直接使用频次或归一化频率要好;随机梯度下降模型SGD较支持向量机SVM等其他用于对比的分类模型要好。实验还发现,相对于词袋、词向量等文本特征,主题特征有较好的效果,可以使社交网络用户抑郁检测模型的F值达到0.753,而对抑郁用户的检测精度达到0.813。 展开更多
关键词 准私密社交网络文本 抑郁用户检测 可行性分析
在线阅读 下载PDF
一种新的频繁项集挖掘算法 被引量:8
15
作者 刘德喜 何炎祥 邢显黎 《计算机应用研究》 CSCD 北大核心 2007年第2期17-19,62,共4页
首先对传统集合操作进行了扩展,提出基于扩展集合操作的最大频繁项集生成算法FIS-ES,并从理论和实验上对算法的复杂度进行了详细的分析。实验表明,在最小支持度较小的情况下,FIS-ES比Apriori算法具有更快的挖掘速度、更少的空间占用等优... 首先对传统集合操作进行了扩展,提出基于扩展集合操作的最大频繁项集生成算法FIS-ES,并从理论和实验上对算法的复杂度进行了详细的分析。实验表明,在最小支持度较小的情况下,FIS-ES比Apriori算法具有更快的挖掘速度、更少的空间占用等优点,与Apriori有很好的互补性。 展开更多
关键词 扩展集合操作 关联规则 FIS-ES算法
在线阅读 下载PDF
社会化短文本自动摘要研究综述 被引量:12
16
作者 刘德喜 万常选 《小型微型计算机系统》 CSCD 北大核心 2013年第12期2764-2771,共8页
随着Twitter、新浪微博等社会网络的蓬勃发展,社会化短文本逐渐进入研究者的视野,在该方向上的研究成果正在逐年扩大.在分析社会化短文本摘要的意义之后,综述了社会化短文本的研究现状.社会化短文本摘要方面的研究成果主要有三类,面向We... 随着Twitter、新浪微博等社会网络的蓬勃发展,社会化短文本逐渐进入研究者的视野,在该方向上的研究成果正在逐年扩大.在分析社会化短文本摘要的意义之后,综述了社会化短文本的研究现状.社会化短文本摘要方面的研究成果主要有三类,面向Web文档的自动摘要、面向事件的自动摘要、面向话题(或查询)的自动摘要.其中,面向话题(或查询)的社会化短文本自动摘要是对社会网络中海量短文本进行高效访问的重要手段.文中重点分析四种面向话题(或查询)的社会化短文本自动摘要的最新研究成果,包括:基于词频的方法、基于图的方法、基于合并的方法及基于优化的方法.最后指出社会化短文本自动摘要所面临的挑战和研究方向. 展开更多
关键词 社会化短文本 自动摘要 面向查询 社会关系 微博
在线阅读 下载PDF
基于多重增强图和主题分析的社交短文本检索方法 被引量:5
17
作者 刘德喜 付淇 +4 位作者 韦亚雄 万常选 刘喜平 钟敏娟 邱家洪 《中文信息学报》 CSCD 北大核心 2018年第3期110-119,共10页
社会网络平台上的社交短文本不同于网页或其他文本,它的特点是内容短、文本间存在转发评论等关系、话题复杂多样、与Web页面有链接关系、文本的作者间有关注关系等,现有的检索系统不能完全适应。该文提出一个基于多重增强图的社交短文... 社会网络平台上的社交短文本不同于网页或其他文本,它的特点是内容短、文本间存在转发评论等关系、话题复杂多样、与Web页面有链接关系、文本的作者间有关注关系等,现有的检索系统不能完全适应。该文提出一个基于多重增强图的社交短文本检索方法 SSTR,它利用多重增强图算法对通过Indri获得的初步检索结果实现再排序优化和去重。多重增强图算法是基于马尔科夫链理论设计出的图模型算法,社交短文本中蕴含的文本、作者、词语等不同层面的关系通过不同的图层及图中节点之间的边来建模。三个层面的关系相互增强,通过多次迭代运算,最终寻求多个层面间相互关系所处的稳定状态。多重增强图构建时,短文本的相似度计算基于主题分析结果,克服了传统余弦相似度计算时TF-IDF权重在短文本上的局限性。实验结果表明,与Indri、reRank-COS和reRank-LDA相比,基于多重增强图算法的SSTR排序的效果更好,适合初始检索结果相对较多的应用场合。 展开更多
关键词 社交短文本检索 多重增强图 LDA主题模型
在线阅读 下载PDF
不确定数据库中基于x-tuple的高效Top-k查询处理算法 被引量:4
18
作者 刘德喜 万常选 刘喜平 《计算机研究与发展》 EI CSCD 北大核心 2010年第8期1415-1423,共9页
Top-k查询由于其广泛的应用而倍受欢迎.不确定数据库中通常考虑的两条生成规则是:独立和互斥,一个x-tuple是由一些互斥的元组组成的,构成一个x-tuple的各个元组称为该x-tuple的可选元组.U-kRanks查询考虑x-tuple中每个可选元组排在前k... Top-k查询由于其广泛的应用而倍受欢迎.不确定数据库中通常考虑的两条生成规则是:独立和互斥,一个x-tuple是由一些互斥的元组组成的,构成一个x-tuple的各个元组称为该x-tuple的可选元组.U-kRanks查询考虑x-tuple中每个可选元组排在前k的概率,并返回最可能排在前k的k个元组.已有的Top-k语义都没有将x-tuple作为一个整体,因此,定义了一种新的Top-k查询语义,不确定x-kRanks查询(U-x-kRanks),该Top-k语义返回最可能排在前k的k个x-tuple而非元组.新语义考虑x-tuple中的每个可选元组位于前k的概率,并将之汇集,得到整个x-tuple位于前k的概率.提出了一种基于动态规划的有效算法处理U-x-kRanks查询,在最小的搜索空间内完成查询处理过程.不同数据集合上的综合实验显示,所提出的算法是高效的. 展开更多
关键词 x-tuple TOP-K 不确定x-kRanks查询 不确定数据库 动态规划算法
在线阅读 下载PDF
基于多层局部信息融合的在线论坛用户心理危机识别 被引量:2
19
作者 刘德喜 鲍力平 +2 位作者 万常选 刘喜平 廖国琼 《小型微型计算机系统》 CSCD 北大核心 2021年第4期690-699,共10页
心理健康问题已经成为当今社会关注的焦点,它严重威胁着家庭和睦与社会稳定.有心理危机的用户经常通过特定的社区论坛或者社交媒体来求助或倾述,这为用户心理危机识别开辟了一个新的途径.论坛帖子长短不一,但判断心理危机的核心信息往... 心理健康问题已经成为当今社会关注的焦点,它严重威胁着家庭和睦与社会稳定.有心理危机的用户经常通过特定的社区论坛或者社交媒体来求助或倾述,这为用户心理危机识别开辟了一个新的途径.论坛帖子长短不一,但判断心理危机的核心信息往往体现在局部内容上,基于此特点,本文构建了一个结合分层长短记忆网络和卷积神经网络的多层局部信息融合模型(Multi-layer Partial Information Fusion model,MPIF),利用论坛用户发布的帖子,检测用户的心理危机严重程度.模型的特点在于:1)利用预训练语言模型BERT对用户帖子中的句子进行向量化表示,充分考虑词语在不同语境中的不同含义表达;2)分别从词、短语、以及句子层面挖掘反映用户心理危机状态的信息,采用深度分层LSTM网络和注意力机制相结合的方式来获取待分类帖子中词语层面以及句子层面的局部信息,利用CNN网络中多种大小不同的卷积核来提取帖子中短语层面的局部信息;3)采用注意力机制和最大池化层,使得模型不仅能够有效地利用局部信息给出心理危机程度的判断,同时可以将这些局部信息展示给心理专家,辅助专家更快了解患者.基于CLPsych2019 Shared Task评测任务的实验结果显示,与评测时排名第一的模型相比,MPIF模型的官方评测指标All-F1值(自杀风险程度a,b,c,d 4个类别的F1值取平均)高出3.9%.经消融实验发现,去除LSTM词语层、CNN短语层、LSTM句子层,All-F1分别下降4%、4.3%、2.4%. 展开更多
关键词 在线论坛用户 心理危机识别 MPIF模型 注意力机制
在线阅读 下载PDF
基于基本要素向量空间的英文多文档自动摘要 被引量:2
20
作者 刘德喜 何炎祥 +1 位作者 姬东鸿 杨华 《计算机工程》 CAS CSCD 北大核心 2007年第14期166-167,170,共3页
在基于基本要素(BE)向量空间的英文多文档自动文摘中,句子不再用术语向量或词向量来表达,而是用基本要素向量来表示。在用k-均值聚类算法时,采用一种自动探测k值的技术。实验表明,基于基本要素的多文档自动文摘MSBEC比基于词更优越。
关键词 多文档自动文摘 基本要素 K-均值聚类
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部