期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
基于预训练表示和宽度学习的虚假新闻早期检测 被引量:2
1
作者 胡舜邦 王琳 刘伍颖 《郑州大学学报(理学版)》 CAS 北大核心 2025年第2期31-36,共6页
为了实现虚假新闻的早期检测,提出一种基于预训练表示和宽度学习的虚假新闻早期检测方法。首先,将新闻文本输入大规模预训练语言模型RoBERTa中,得到对应新闻文本的上下文语义表示。其次,将得到的新闻文本的上下文语义表示输入宽度学习... 为了实现虚假新闻的早期检测,提出一种基于预训练表示和宽度学习的虚假新闻早期检测方法。首先,将新闻文本输入大规模预训练语言模型RoBERTa中,得到对应新闻文本的上下文语义表示。其次,将得到的新闻文本的上下文语义表示输入宽度学习的特征节点和增强节点中,利用宽度学习的特征节点和增强节点进一步提取新闻文本的线性和非线性特征并构造分类器,从而预测新闻的真实性。最后,在3个真实数据集上进行了对比实验,结果表明,所提方法可以在4 h内检测出虚假新闻,准确率超过80%,优于基线方法。 展开更多
关键词 早期检测 虚假新闻 预训练表示 宽度学习 文本分类
在线阅读 下载PDF
基于综合优先度和主机信息的暴雨灾害主题退火爬虫算法 被引量:6
2
作者 刘景发 李帆 蒋盛益 《计算机科学》 CSCD 北大核心 2019年第2期215-222,共8页
如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主... 如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。 展开更多
关键词 暴雨灾害 网络主题爬虫 综合优先度 主机信息 模拟退火算法
在线阅读 下载PDF
基于自注意力归因和剪枝的预训练语言模型去偏方法
3
作者 叶啟文 周栋 +1 位作者 王蒙蒙 曹步清 《中文信息学报》 北大核心 2025年第6期9-21,共13页
预训练语言模型编码了一系列社会偏见,应用在下游任务中可能会延续甚至放大对弱势群体的不公平对待。现有与任务无关的方法去偏效果迁移至下游任务中表现不佳,而与任务相关的方法主要依赖于下游微调数据标注的受保护属性标签。该文提出... 预训练语言模型编码了一系列社会偏见,应用在下游任务中可能会延续甚至放大对弱势群体的不公平对待。现有与任务无关的方法去偏效果迁移至下游任务中表现不佳,而与任务相关的方法主要依赖于下游微调数据标注的受保护属性标签。该文提出了基于自注意力归因和剪枝的预训练语言模型去偏方法,这是一种与任务相关但不需要依赖受保护属性标签的方法,适用于通用下游任务且具有可解释性。该方法将模型的决策归因于输入数据和自注意力头之间的信息交互,进而识别自注意力头对模型决策的重要性。通过权衡预测准确率和公平性,有选择地对偏见影响较大的头进行剪枝,从而实现模型去偏。该文在多个数据集上进行实验,实验结果表明,该方法可以有效缓解偏见且不损耗模型预测性能。 展开更多
关键词 预训练语言模型 公平性 去偏 自注意力归因
在线阅读 下载PDF
基于回溯搜索算法的多行动态设施布局方法
4
作者 刘景发 李宛桦 《运筹与管理》 北大核心 2025年第6期93-100,I0034,I0035,共10页
针对多行动态设施布局问题(MR-DFLP),首先基于自适应概率的交叉操作和四种变异操作(包括插入操作、单点交换、多点交换和逆序操作),提出一种改进的遗传算法(iGA)。在此基础上,考虑到回溯搜索算法(BSA)具有较强“记忆”功能和全局寻优能... 针对多行动态设施布局问题(MR-DFLP),首先基于自适应概率的交叉操作和四种变异操作(包括插入操作、单点交换、多点交换和逆序操作),提出一种改进的遗传算法(iGA)。在此基础上,考虑到回溯搜索算法(BSA)具有较强“记忆”功能和全局寻优能力,将BSA算法首次引入MR-DFLP进行求解。为进一步提升算法的开发能力和种群多样性,对BSA算法的选择、Map映射机制以及种群更新策略进行改进,提出了四种改进的回溯搜索算法(iBSAs)。通过对三组实际算例进行计算,实验结果验证了所提出的各种改进算法的有效性。 展开更多
关键词 动态设施布局 遗传算法 回溯搜索算法 部分匹配映射交叉 自适应变异
在线阅读 下载PDF
一种面向攻击预测的马尔可夫的可转移信度模型
5
作者 廖信海 谢建国 《计算机应用与软件》 北大核心 2025年第3期348-358,共11页
越来越多的高级持续性威胁导致许多来自高价值目标的关键信息外泄的事件。现有的网络防御框架和数据融合模型无法应对这类威胁,原因是这些模型缺乏针对具有不确定性和冲突信息的多阶段攻击的手段。因此使用马尔可夫相关理论对可转移信... 越来越多的高级持续性威胁导致许多来自高价值目标的关键信息外泄的事件。现有的网络防御框架和数据融合模型无法应对这类威胁,原因是这些模型缺乏针对具有不确定性和冲突信息的多阶段攻击的手段。因此使用马尔可夫相关理论对可转移信度模型进行优化,以解决网络攻击的多阶段性问题,并获得了先前不确定的网络态势感知。在优化后的模型里通过一种新的组合规则,为跨阶段进行假设评估和证据组合提供了一种新的方法。实验表明,提出的优化模型在对高级持续性威胁的判断和预警上有着良好性能。 展开更多
关键词 态势感知 马尔可夫 网络威胁 杀伤链
在线阅读 下载PDF
电力系统碳足迹估算方法
6
作者 耿光飞 党宣 刘洋 《电力系统及其自动化学报》 北大核心 2025年第5期32-39,共8页
“双碳”背景下,电力系统的碳流分析成为当前研究的重点之一。为快速精确估算电力系统碳排放流,在传统电力系统碳流计算的基础上,针对3种不同信息特征的系统提出平均碳势法、电量法及典型日估算法3种碳足迹估算方法。这3种估算方法的核... “双碳”背景下,电力系统的碳流分析成为当前研究的重点之一。为快速精确估算电力系统碳排放流,在传统电力系统碳流计算的基础上,针对3种不同信息特征的系统提出平均碳势法、电量法及典型日估算法3种碳足迹估算方法。这3种估算方法的核心在于根据系统的不同已知条件,将系统的时序碳势等效为定值;在此基础上根据用电量与线损电量估算出用户碳足迹及线损碳足迹;最后,根据电力系统碳流守恒条件,并应用状态估计的思想方法,进一步提出含修正系数的碳足迹估算改进模型,以提高估算精度。算例表明,所提估算方法可快速估算出系统在一段时间内的碳足迹,且估算结果误差较小,为电力系统碳足迹估算问题提供了一套切实可行的计算方法。 展开更多
关键词 碳排放 碳流分析 潮流 碳足迹估算
在线阅读 下载PDF
基于DRA技术的数字音频编码器的设计与应用 被引量:6
7
作者 许晶晶 马文华 《计算机应用与软件》 CSCD 2010年第3期135-138,共4页
研究了DRA(Digital rise audio)多声道数字音频编码算法,详细分析了DRA算法与其他音频编解码算法相比的特色之处,并在此基础上给出了DRA数字音频编码器的软件结构和设计方案,最后讨论了DRA编码器的组网应用。实践结果表明:该编码器性能... 研究了DRA(Digital rise audio)多声道数字音频编码算法,详细分析了DRA算法与其他音频编解码算法相比的特色之处,并在此基础上给出了DRA数字音频编码器的软件结构和设计方案,最后讨论了DRA编码器的组网应用。实践结果表明:该编码器性能优越,可以满足大多数固定和移动专业音频收发设备的应用需求。 展开更多
关键词 DRA 多声道数字音频编解码 可变分辨率滤波 码书选择
在线阅读 下载PDF
涉华信息资源归集与舆情分析框架构建 被引量:4
8
作者 王连喜 甘穗福 +1 位作者 林楠铠 蒋盛益 《情报杂志》 CSSCI 北大核心 2020年第6期135-142,共8页
[目的/意义]加强涉华信息资源的归集和舆情分析,对于我国及时了解国际社会对中国报道的舆情变化和对接“一带一路”倡议的深入推进提供有力保障。[方法/过程]针对涉华舆情研究现状和涉华信息资源归集与分析所面临的问题,从人工智能视角... [目的/意义]加强涉华信息资源的归集和舆情分析,对于我国及时了解国际社会对中国报道的舆情变化和对接“一带一路”倡议的深入推进提供有力保障。[方法/过程]针对涉华舆情研究现状和涉华信息资源归集与分析所面临的问题,从人工智能视角探讨了涉华舆情信息资源归集及其分析应用过程,重点介绍了涉华舆情信息资源的归集思路、方法和体系,构建了面向涉华信息资源的舆情分析框架,并对总体框架、核心内容模块、关键问题解决思路等细则问题进行了解析。[结果/结论]构建的涉华舆情分析框架预期可以为涉华国际舆情事件的深度剖析提供数据支撑和信息服务,也可以为政府部门应对涉华舆情和制定决策提供科学依据。 展开更多
关键词 涉华舆情 资源归集 分析框架 人工智能 跨语言信息融合 语义分析
在线阅读 下载PDF
基于隐半马尔可夫模型的微博流行信息检测方法 被引量:1
9
作者 谢柏林 黎琦 邝建 《计算机科学》 CSCD 北大核心 2022年第S01期291-296,共6页
目前微博已成为人们发布信息和获取信息的一个重要平台。为了及早发现微博上的流行信息,以便及时发现微博上的热点事件,同时及时发现、抑制谣言信息的传播,使微博在网民的信息获取和信息发布中发挥更积极的作用,文中提出了一种基于隐半... 目前微博已成为人们发布信息和获取信息的一个重要平台。为了及早发现微博上的流行信息,以便及时发现微博上的热点事件,同时及时发现、抑制谣言信息的传播,使微博在网民的信息获取和信息发布中发挥更积极的作用,文中提出了一种基于隐半马尔可夫模型的微博流行信息检测方法。该方法以信息转发者的影响力等级和相邻两个转发者的时间间隔构建观测值,使用随机森林分类算法来自动得到转发者的影响力等级,利用隐半马尔可夫模型来刻画流行信息的传播过程,基于此来及早发现潜在的流行信息。该方法分为模型训练和流行信息检测两个阶段,在流行信息检测阶段,计算每条信息在传播过程中产生的观测序列相对于模型的平均对数似然概率,实时更新每条信息的流行度。使用采集的新浪微博数据集和Twitter数据集对所提方法进行了测试,实验结果表明了该方法的有效性。 展开更多
关键词 微博 流行信息 隐半马尔可夫模型 流行度 传播过程
在线阅读 下载PDF
面向不平衡短文本情感多分类的三阶语义图数据增广方法 被引量:3
10
作者 颜学明 黄翰 +2 位作者 金耀初 钟国 郝志峰 《计算机学报》 EI CAS CSCD 北大核心 2024年第12期2742-2759,共18页
文本增广技术可以有效提升不平衡情感分类任务的性能.若文本增广过程中生成的少数类短文本数据未能体现完整的情感语义特征,则可能会导致不同类别之间的情感重叠问题出现.为了充分学习和理解少数类别的情感特征,本文提出一种面向不平衡... 文本增广技术可以有效提升不平衡情感分类任务的性能.若文本增广过程中生成的少数类短文本数据未能体现完整的情感语义特征,则可能会导致不同类别之间的情感重叠问题出现.为了充分学习和理解少数类别的情感特征,本文提出一种面向不平衡文本情感多分类的三阶语义图数据增广方法,首先采用三阶语义图在多个词之间建立复杂的关系语义模型,用于表示多种可能的短文本局部情感语义和词节点依赖关系,然后提出了基于三阶语义图数据增广方法以平衡多分类文本的情感类别分布,从而有效实现不平衡短文本的情感分类.与传统的文本增广方法相比,在印尼语不平衡数据集上,本文提出的方法在少数类评价指标F1-measure和F2-measure上分别提升了5.75%和9.65%,在平衡情感识别能力指标G-means值上提升了2.91%;在马来语不平衡数据集上,本文提出的方法在少数类评价指标F1-measure和F3-measure上也分别提升了2.45%和4.81%,在平衡情感识别能力指标G-means值上提升了1.24%.此外,与传统的机器学习方法、深度网络模型等情感分类模型以及传统的短文本增广过采样模型相比,本文提出的方法在公开的印尼语、马来语、英语以及中文四个不平衡短文本数据集上都获得了最高的准确率Accuracy值.以上实验结果表明,融合不同模体的三阶语义图结构信息不仅可以有效表达文本中的局部情感语义以及词节点之间的依赖关系,还可以有效降低短文本数据增广过采样过程中引入新噪声的风险,并提升不平衡短文本的多分类性能. 展开更多
关键词 三阶语义图 文本增广 平衡策略 短文本情感分类 模体
在线阅读 下载PDF
基于模型堆叠的以太坊钓鱼诈骗账户识别方法 被引量:1
11
作者 陈伟利 叶明顺 +1 位作者 唐明董 郑子彬 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第8期1361-1368,共8页
近年来,钓鱼诈骗已成为区块链平台中不可忽视的欺诈类型,对用户金融安全构成了重大威胁.为了解决这一问题,本文提出了一种基于区块链交易的网络钓鱼账户检测框架,并以以太坊为例验证了其有效性.具体而言,该框架通过引入数据样本过滤规... 近年来,钓鱼诈骗已成为区块链平台中不可忽视的欺诈类型,对用户金融安全构成了重大威胁.为了解决这一问题,本文提出了一种基于区块链交易的网络钓鱼账户检测框架,并以以太坊为例验证了其有效性.具体而言,该框架通过引入数据样本过滤规则来缓解数据不均衡性以及减少计算量,采用级联特征抽取方法以提取有效特征,并基于模型堆叠构建集成分类算法建立模型以识别以太坊上的钓鱼诈骗账户.实验结果表明,该框架能够有效地识别以太坊上的钓鱼诈骗账户,具有一定的实际应用价值. 展开更多
关键词 区块链 以太坊 钓鱼诈骗 模型堆叠
在线阅读 下载PDF
基于模态语义增强的跨模态食谱检索方法 被引量:1
12
作者 李明 周栋 +1 位作者 雷芳 曹步清 《计算机应用研究》 CSCD 北大核心 2024年第4期1131-1137,共7页
在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部... 在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部分有效模态信息丢失。针对该问题,提出一种通过多模态编码器来增强模态语义的跨模态食谱检索方法。首先使用预训练模型提取图像和食谱的初始语义特征,并借助对抗损失缩小模态间差异;然后利用成对跨模态注意力使来自一个模态的特征反复强化另一个模态的特征,进一步提取有效信息;接着采用自注意力机制对模态的内部特征进行建模,以捕捉丰富的模态特定语义信息和潜在关联知识;最后,引入三元组损失最小化同类样本间的距离,实现跨模态检索学习。在Recipe 1M数据集上的实验结果表明,该方法在中位数排名(MedR)和前K召回率(R@K)等方面均优于目前的主流方法,为跨模态检索任务提供了有力的解决方案。 展开更多
关键词 跨模态食谱检索 特征提取 模态语义增强 多模态编码器
在线阅读 下载PDF
基于多任务蒸馏的意图识别和槽位填充 被引量:1
13
作者 高子雄 蒋盛益 +1 位作者 欧炎镁 禤镇宇 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期96-104,共9页
BERT等预训练模型在很多NLP任务上取得了良好的效果,但预训练模型参数规模大,运算量大,对硬件资源要求高,难以部署在小型的配置环境中。模型压缩是解决该问题的关键,知识蒸馏是目前较好的模型压缩方法。基于此,提出基于多任务蒸馏的句... BERT等预训练模型在很多NLP任务上取得了良好的效果,但预训练模型参数规模大,运算量大,对硬件资源要求高,难以部署在小型的配置环境中。模型压缩是解决该问题的关键,知识蒸馏是目前较好的模型压缩方法。基于此,提出基于多任务蒸馏的句意图识别和槽位填充联合模型,该模型将ALBERT运用到任务型对话系统中,并利用知识蒸馏策略将ALBERT模型知识迁移到BiLSTM模型。实验结果表明,基于ALBERT的联合模型在SMP 2019评测数据集中的句准确率为77.74%,单独训练的BiLSTM模型句准确率为58.33%,而蒸馏模型的句准确率为67.22%,在比BiLSTM高8.89%的情况下,推断速度约为ALBERT的18.9倍。 展开更多
关键词 意图识别与槽位填充 神经网络 知识蒸馏
在线阅读 下载PDF
基于伪标签和迁移学习的双关语识别方法 被引量:1
14
作者 姜思羽 张智恒 +4 位作者 姜立标 马乐 陈博远 王连喜 赵亮 《重庆大学学报》 CAS CSCD 北大核心 2024年第2期51-61,共11页
针对双关语样本短缺问题,研究提出了基于伪标签和迁移学习的双关语识别模型(pun detection based on Pseudo-label and transfer learning)。该模型利用上下文语义、音素向量和注意力机制生成伪标签;然后,迁移学习和置信度结合挑选可用... 针对双关语样本短缺问题,研究提出了基于伪标签和迁移学习的双关语识别模型(pun detection based on Pseudo-label and transfer learning)。该模型利用上下文语义、音素向量和注意力机制生成伪标签;然后,迁移学习和置信度结合挑选可用的伪标签;最后,将伪标签数据和真实数据混合到网络中进行训练,重复伪标签标记和混合训练过程。一定程度上解决了双关语样本量少且获取困难的问题。使用该模型在SemEval 2017 shared task 7以及Pun of the Day数据集上进行双关语检测实验,结果表明模型性能均优于现有主流双关语识别方法。 展开更多
关键词 双关语检测 伪标签 迁移学习
在线阅读 下载PDF
分布式服务资源自适应弹性伸缩研究综述
15
作者 胡程 陈仕鸿 《计算机科学与探索》 CSCD 北大核心 2024年第10期2551-2572,共22页
分布式服务资源环境下,由于峰值负载的整体占比很小,大量服务资源长期处于低利用率甚至闲置状态。通过实现资源自适应弹性伸缩,在高负载时扩充服务资源以应对高需求,在低负载时将其缩减以降低开销,可显著提升系统能效并降低运作开销。... 分布式服务资源环境下,由于峰值负载的整体占比很小,大量服务资源长期处于低利用率甚至闲置状态。通过实现资源自适应弹性伸缩,在高负载时扩充服务资源以应对高需求,在低负载时将其缩减以降低开销,可显著提升系统能效并降低运作开销。但实际负载通常具有很强的波动性,满足服务质量所需的服务资源持续变化,这给服务资源自适应弹性伸缩带来了巨大挑战。尽管现有的商用分布式平台已普遍具有一定的资源弹性伸缩能力,但它们的自适应能力有限、精准性不佳,存在很大提升空间。为促进该领域的研究与应用发展,就该环境下服务资源自适应弹性伸缩研究进行分类分析与探讨。分析并介绍了相应的研究背景及主要存在于需求评估与资源调整上的挑战;就该领域的国内外相关研究,依据其调整的资源对象分为三类,以此进行分类论述并比较了各研究工作的异同,且就各自的特点与效用进行了分析与总结;总述分析了这些研究工作并概括出一个全面而整体的实现,探讨了业界的应用现状、研究面临的挑战以及未来趋势。 展开更多
关键词 并行与分布式计算 分布式服务资源 资源管理与分配 自适应弹性伸缩
在线阅读 下载PDF
IRS-NOMA辅助多用户协作中继系统性能分析
16
作者 林少娥 郑逸帆 +1 位作者 温淼文 郑倍雄 《信号处理》 CSCD 北大核心 2024年第8期1489-1496,共8页
随着第五代(The Fifth Generation,5G)通信技术的大规模应用,在网设备的数量迅速增长,带来了巨大的数据流量和连接需求。尽管5G通信技术已经显著提高了传输速率和网络容量,但随着物联网(Internet of Things,IoT)设备的普及和高速数据业... 随着第五代(The Fifth Generation,5G)通信技术的大规模应用,在网设备的数量迅速增长,带来了巨大的数据流量和连接需求。尽管5G通信技术已经显著提高了传输速率和网络容量,但随着物联网(Internet of Things,IoT)设备的普及和高速数据业务的增加,现有的频段资源已经难以满足未来的需求。预测显示,第六代(The Sixth Generation,6G)通信技术的峰值传输速率将提升到1太比特每秒,约为5G的100倍。这种大幅度的速率提升将进一步加剧对带宽的需求,使得现有频段无法满足新型高速业务及大规模物联网终端的需求。因此,未来通信技术向更高频段拓展成为必然。在这种背景下,本文提出了一种将智能反射面(Intelligent Reflecting Surface,IRS)技术引入到非正交多址接入(Non-Orthogonal Multiple Access,NOMA)中继网络的新型多用户中继系统的方案,将IRS控制器与中继器整合,构建一个新的中继节点,实现对信号的中继转发,并发挥IRS的辅助通信作用,重构中继节点,使其不仅能够进行信号放大和转发,还可以通过IRS对信号质量和系统容量进一步提升。本文对下行侧的理论分析和仿真结果表明,加入IRS后系统性能平均提升了30%。这一显著的性能提升证明了IRS技术在NOMA中继网络中的应用潜力,为未来智能反射面的推广应用提供了新的思路和方法。随着6G时代的到来,智能反射面技术有望在更高频段的通信系统中发挥更大的作用,进一步推动无线通信技术的发展与进步。 展开更多
关键词 非正交多址接入 无线解码中继 智能反射面 下一代通信系统
在线阅读 下载PDF
大数据驱动的图书馆精准服务研究 被引量:64
17
作者 曹树金 刘慧云 王连喜 《大学图书馆学报》 CSSCI 北大核心 2019年第4期54-60,共7页
大数据时代的到来给图书馆带来了新的机遇和挑战。在梳理近年来图书馆精准服务相关研究的基础上,作者提出面向精准服务的图书馆大数据系统构建设想,系统结构包括多来源的数据采集层、数据预处理与存储层、精准化的数据分析建模层和支持... 大数据时代的到来给图书馆带来了新的机遇和挑战。在梳理近年来图书馆精准服务相关研究的基础上,作者提出面向精准服务的图书馆大数据系统构建设想,系统结构包括多来源的数据采集层、数据预处理与存储层、精准化的数据分析建模层和支持精准化的管理与服务的应用层等自下而上的四个层级,系统的核心在于全面采集图书馆的大数据。本研究通过构建各类图书馆业务模型和读者模型,为读者群体提供千人千面的精准化服务,从而满足读者差异化、个性化和定制化的服务需求,实现图书馆服务升级。 展开更多
关键词 大数据 图书馆 精准化服务 精准化管理
在线阅读 下载PDF
一种基于情感词典和朴素贝叶斯的中文文本情感分类方法 被引量:44
18
作者 杨鼎 阳爱民 《计算机应用研究》 CSCD 北大核心 2010年第10期3737-3739,3743,共4页
基于朴素贝叶斯理论提出了一种新的中文文本情感分类方法。这种方法利用情感词典对文本进行处理和表示,基于朴素贝叶斯理论构建文本情感分类器,并以互联网上宾馆中文评论作为分类研究的对象。实验表明,使用提出的方法构成的分类器具有... 基于朴素贝叶斯理论提出了一种新的中文文本情感分类方法。这种方法利用情感词典对文本进行处理和表示,基于朴素贝叶斯理论构建文本情感分类器,并以互联网上宾馆中文评论作为分类研究的对象。实验表明,使用提出的方法构成的分类器具有分类速度快、分类准确度高、鲁棒性强等特点,并且适合于大量中文文本情感分类应用系统。 展开更多
关键词 文本情感分类 朴素贝叶斯 情感词典
在线阅读 下载PDF
评价对象抽取研究综述 被引量:13
19
作者 蒋盛益 郭林东 +1 位作者 王连喜 符斯慧 《自动化学报》 EI CSCD 北大核心 2018年第7期1165-1182,共18页
近年来,细粒度情感分析因其在商业决策、舆情分析等领域的重要作用而受到学术界和工业界的广泛关注.评价对象抽取作为情感分析的基本任务之一,是进行细粒度情感分析的关键问题.本文针对评价对象抽取问题的起源、当前主流研究方法和趋势... 近年来,细粒度情感分析因其在商业决策、舆情分析等领域的重要作用而受到学术界和工业界的广泛关注.评价对象抽取作为情感分析的基本任务之一,是进行细粒度情感分析的关键问题.本文针对评价对象抽取问题的起源、当前主流研究方法和趋势进行了梳理,首先详细阐述评价对象抽取问题的基本概念并对其进行形式化表示,然后结合近年来的研究对评价对象抽取方法进行归纳和总结,并重点分析基于频率、基于模板规则、基于图论、基于条件随机场和基于深度学习的评价对象抽取方法,随后回顾评价对象抽取的评测情况和可用的语料资源,最后分析评价对象抽取的若干难点问题,同时对评价对象抽取研究进展和发展趋势进行总结和展望. 展开更多
关键词 评价对象抽取 细粒度情感分析 评测 资源建设
在线阅读 下载PDF
基于网页空间进化算法的暴雨灾害主题爬虫策略 被引量:7
20
作者 刘景发 李新 蒋盛益 《计算机工程》 CAS CSCD 北大核心 2019年第2期184-190,共7页
针对单目标优化算法求解爬虫问题时难以获得最优加权因子和易于陷入局部最优的缺点,将多目标优化算法引入主题爬虫,提出一种基于多目标优化的网页空间进化算法。通过计算测试链接与种子链接库中链接的最短距离,将其与种子链接库中所有... 针对单目标优化算法求解爬虫问题时难以获得最优加权因子和易于陷入局部最优的缺点,将多目标优化算法引入主题爬虫,提出一种基于多目标优化的网页空间进化算法。通过计算测试链接与种子链接库中链接的最短距离,将其与种子链接库中所有链接间的平均距离进行比较来更新种子链接库。针对多目标优化中Pareto最优解的选取问题,给出一种最近最远候选解法。实验结果表明,与宽度优先搜索等算法相比,该算法具有较高的爬准率和稳定性。 展开更多
关键词 多目标优化 主题爬虫 网页空间进化算法 PARETO最优 暴雨灾害
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部