期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
基于大语言模型的中文实体链接实证研究 被引量:3
1
作者 徐正斐 辛欣 《自动化学报》 北大核心 2025年第2期327-342,共16页
近年来,大语言模型(Large language model,LLM)在自然语言处理中取得重大进展.在模型足够大时,大语言模型涌现出传统的预训练语言模型(Pre-trained language model,PLM)不具备的推理能力.为了探究如何将大语言模型的涌现能力应用于中文... 近年来,大语言模型(Large language model,LLM)在自然语言处理中取得重大进展.在模型足够大时,大语言模型涌现出传统的预训练语言模型(Pre-trained language model,PLM)不具备的推理能力.为了探究如何将大语言模型的涌现能力应用于中文实体链接任务,适配了以下四种方法:知识增强、适配器微调、提示学习和语境学习(In-context learning,ICL).在Hansel和CLEEK数据集上的实证研究表明,基于Qwen-7B/ChatGLM3-6B的监督学习方法超过基于小模型的方法,在Hansel-FS数据集上提升3.9%~11.8%,在Hansel-ZS数据集上提升0.7%~4.1%,在CLEEK数据集上提升0.6%~3.7%.而当模型参数量达到720亿时,Qwen-72B的无监督方法实现与监督微调Qwen-7B相近的结果(-2.4%~+1.4%).此外,大语言模型Qwen在长尾实体场景下有明显的优势(11.8%),且随着参数量的增加,优势会更加明显(13.2%).对错误案例进行分析(以下简称错误分析)发现,实体粒度和实体类别相关错误占比较高,分别为36%和25%.这表明在实体链接任务中,准确划分实体边界以及正确判断实体类别是提高系统性能的关键. 展开更多
关键词 实体链接 大语言模型 知识增强 适配器微调 提示学习 语境学习
在线阅读 下载PDF
基于预训练语言模型和双模态编码器的远程监督关系抽取方法
2
作者 刘琼昕 方胜 牛文涛 《北京理工大学学报》 北大核心 2025年第3期308-320,共13页
针对远程监督关系抽取中文本语义信息表征不足导致噪声识别能力有限和信息传递不足导致长尾关系学习不充分的问题,提出了一种将预训练模型(BERT)集成到多实例学习中的两阶段框架,利用预训练语言模型学习文本语义以识别和缓解噪声,并在... 针对远程监督关系抽取中文本语义信息表征不足导致噪声识别能力有限和信息传递不足导致长尾关系学习不充分的问题,提出了一种将预训练模型(BERT)集成到多实例学习中的两阶段框架,利用预训练语言模型学习文本语义以识别和缓解噪声,并在框架中设计了双模态编码器自动学习实体类型和关系的信息传播模式以解决长尾问题.该方法在GDS数据集上的AUC值为0.912,P@100与P@200值分别为100.0%和98.7%;在NYT-570K数据集上的长尾指标Hits@K较先前的先进模型均有提升.在这两个广泛使用的数据集上的实验结果表明,该方法在去噪和长尾关系抽取方面均取得了显著提升. 展开更多
关键词 关系抽取 远程监督 长尾问题 自然语言处理
在线阅读 下载PDF
基于语言模型的有监督词义消歧模型优化研究 被引量:8
3
作者 杨陟卓 黄河燕 《中文信息学报》 CSCD 北大核心 2014年第1期19-25,共7页
词义消歧是自然语言领域中重要的研究课题之一。目前,有监督词义消歧方法已经是解决该问题的有效手段。但是,由于缺乏大规模的训练语料,有监督方法还不能取得满意的效果。该文提出一种基于语言模型的词义消歧优化模型,该模型采用语言模... 词义消歧是自然语言领域中重要的研究课题之一。目前,有监督词义消歧方法已经是解决该问题的有效手段。但是,由于缺乏大规模的训练语料,有监督方法还不能取得满意的效果。该文提出一种基于语言模型的词义消歧优化模型,该模型采用语言模型优化传统的有监督消歧模型,充分利用有监督和语言模型两种模型的消歧优势,共同推导歧义词的词义。该模型可以在训练语料不足的情况下,有效的提高词义消歧效果。在真实数据上表明,该方法的消歧性能超过了参加SemEval-2007:task#5评测任务的最好的有监督词义消歧系统。 展开更多
关键词 数据稀疏 模型优化 有监督模型 语言模型 参数估计
在线阅读 下载PDF
稀缺资源语言神经网络机器翻译研究综述 被引量:25
4
作者 李洪政 冯冲 黄河燕 《自动化学报》 EI CAS CSCD 北大核心 2021年第6期1217-1231,共15页
作为目前主流翻译方法的神经网络机器翻译已经取得了很大突破,在很多具有丰富数据资源的语言上的翻译质量也不断得到改善,但对于稀缺资源语言的翻译效果却仍然并不理想.稀缺资源语言机器翻译是目前机器翻译领域的重要研究热点之一,近几... 作为目前主流翻译方法的神经网络机器翻译已经取得了很大突破,在很多具有丰富数据资源的语言上的翻译质量也不断得到改善,但对于稀缺资源语言的翻译效果却仍然并不理想.稀缺资源语言机器翻译是目前机器翻译领域的重要研究热点之一,近几年来吸引了国内外的广泛关注.本文对稀缺资源语言机器翻译的研究进行比较全面的回顾,首先简要介绍了与稀缺资源语言翻译相关的学术活动和数据集,然后重点梳理了目前主要的研究方法和一些研究结论,总结了每类方法的特点,在此基础上总结了不同方法之间的关系并分析了目前的研究现状.最后,对稀缺资源语言机器翻译未来可能的研究趋势和发展方向进行了展望,并给出了相关建议. 展开更多
关键词 稀缺资源语言 神经网络机器翻译 迁移学习 枢轴语言 回译 多语言翻译 无监督翻译
在线阅读 下载PDF
多策略机器翻译研究综述 被引量:21
5
作者 李业刚 黄河燕 +2 位作者 史树敏 冯冲 苏超 《中文信息学报》 CSCD 北大核心 2015年第2期1-9,23,共10页
该文全面综述和分析了多策略机器翻译的研究。根据所采用策略方式的差异,我们将多策略机器翻译分为系统级策略融合和模块级策略融合。在分别介绍了不同的翻译方法后,着重介绍了系统级策略融合和模块级策略融合各自具有代表性的研究工作... 该文全面综述和分析了多策略机器翻译的研究。根据所采用策略方式的差异,我们将多策略机器翻译分为系统级策略融合和模块级策略融合。在分别介绍了不同的翻译方法后,着重介绍了系统级策略融合和模块级策略融合各自具有代表性的研究工作。最后,对多策略机器翻译的研究进行了展望。 展开更多
关键词 机器翻译 多策略机器翻译 融合机器翻译 混合机器翻译 多引擎机器翻译
在线阅读 下载PDF
基于双语协同训练的最大名词短语识别研究 被引量:5
6
作者 李业刚 黄河燕 +2 位作者 史树敏 鉴萍 苏超 《软件学报》 EI CSCD 北大核心 2015年第7期1615-1625,共11页
针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的... 针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%. 展开更多
关键词 最大名词短语 半监督学习 标注投射 双语协同训练 短语识别
在线阅读 下载PDF
云存储中支持数据去重的群组数据持有性证明 被引量:11
7
作者 王宏远 祝烈煌 李龙一佳 《软件学报》 EI CSCD 北大核心 2016年第6期1417-1431,共15页
数据持有性证明(provable data possession,简称PDP)和数据可恢复性证明(proofs of retrievability,简称POR)是客户端用来验证存储在云端服务器上数据完整性的主要技术.近几年,它在学术界和工业界的应用广泛,很多PDP和POR方案相继出现.... 数据持有性证明(provable data possession,简称PDP)和数据可恢复性证明(proofs of retrievability,简称POR)是客户端用来验证存储在云端服务器上数据完整性的主要技术.近几年,它在学术界和工业界的应用广泛,很多PDP和POR方案相继出现.但是由于不同群组的特殊性和独特要求,使得群组PDP/POR方案多样化,并且群组应用中的许多重要功能(例如数据去重)没有被实现.如何构造高效及满足群组特定功能和安全需求的PDP/POR方案,已经引起了人们的广泛关注.给出了一种支持数据去重的群组PDP方案(GPDP),基于矩阵计算和伪随机函数,GPDP可以在支持数据去重的基础上,高效地完成数据持有性证明,并且可以在群组中抵抗恶意方选择成员攻击.在标准模型下证明了GPDP的安全性,并且在百度云平台上实现了GPDP的原型系统.为了评估方案的性能,使用了10GB的数据量进行实验和分析,结果表明:GPDP方案在达到群组中数据去重的目标的基础上,可以高效地保证抵抗选择攻击和数据持有性,即:预处理效率高于私有验证方案,而验证效率高于公开验证方案(与私有验证效率几乎相同).另外,与其他群组PDP/POR方案相比,GPDP方案将额外存储代价和通信代价都降到了最低. 展开更多
关键词 群组数据持有性证明 选择攻击 数据去重 云存储 云计算
在线阅读 下载PDF
中文动词实现状态数据集构建
8
作者 徐进 辛欣 《中文信息学报》 北大核心 2025年第2期27-40,共14页
判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面... 判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面,中文动词实现状态缺乏标注规范;另一方面,缺乏相关的中文语料。针对目前中文动词实现状态缺乏标注规范的问题,该文在英文规范的基础上,分析《人民日报》中文语料,结合时间提示词、句式等信息,总结了中文动词实现状态标注规范。针对中文目前缺少动词实现状态相关语料的问题,该文构建了中文动词实现状态数据集,包括5430条语句和21226个中文动词实例。实验表明,神经网络模型在处理描述客观规律以及缺少时间提示词等情况下的分类时还欠准确。 展开更多
关键词 中文动词实现状态 数据集构建
在线阅读 下载PDF
多策略切分粒度的藏汉双向神经机器翻译研究 被引量:7
9
作者 沙九 冯冲 +2 位作者 张天夫 郭宇航 刘芳 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期213-219,共7页
现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向... 现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法,并基于现有的注意力机制神经机器翻译框架,在解码器中融入自注意力机制以捕获更多的目标端信息,提出了一种新的神经机器翻译模型.在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统,同时解码器中引入自注意力机制的神经机器翻译模型能够显著提升翻译效果.此外在WMT2017德英双语数据集上的实验结果进一步证明了该方法在其他语种方向上的适用性. 展开更多
关键词 音词融合 藏汉双向 神经机器翻译
在线阅读 下载PDF
节能路由器的动态调频策略研究 被引量:1
10
作者 史湘君 嵩天 《计算机工程与科学》 CSCD 北大核心 2014年第3期433-440,共8页
网络基础设施中路由器的电量消耗随着网络规模的不断发展已经不容忽视,节能路由器的研制与使用是绿色通信网络发展的重要步骤之一。在分析网络流量的特点和证明细粒度调频有巨大节能潜力的基础上,设计了可动态调整频率的节能路由器系统... 网络基础设施中路由器的电量消耗随着网络规模的不断发展已经不容忽视,节能路由器的研制与使用是绿色通信网络发展的重要步骤之一。在分析网络流量的特点和证明细粒度调频有巨大节能潜力的基础上,设计了可动态调整频率的节能路由器系统架构,重点提出两类路由器的自动调频策略:微周期调频和阈值调频,深入分析了四种具体调频方法。结合不同的流量数据,通过实验评估了所提方法在各种网络中的节能效果,对接入网络的真实流量的实验结果显示,采用动态调频方法,理论上最大节能可达到40%左右,为节能路由器的设计与应用提供了参考依据。 展开更多
关键词 绿色网络 流量分析 调频策略 路由器
在线阅读 下载PDF
基于全局覆盖机制与表示学习的生成式知识问答技术 被引量:1
11
作者 刘琼昕 王亚男 +2 位作者 龙航 王佳升 卢士帅 《自动化学报》 EI CAS CSCD 北大核心 2022年第10期2392-2405,共14页
针对现有生成式问答模型中陌生词汇导致答案准确率低下的问题和模式混乱导致的词汇重复问题,本文提出引入知识表示学习结果的方法提高模型识别陌生词汇的能力,提高模型准确率.同时本文提出使用全局覆盖机制以平衡不同模式答案生成的概率... 针对现有生成式问答模型中陌生词汇导致答案准确率低下的问题和模式混乱导致的词汇重复问题,本文提出引入知识表示学习结果的方法提高模型识别陌生词汇的能力,提高模型准确率.同时本文提出使用全局覆盖机制以平衡不同模式答案生成的概率,减少由预测模式混乱导致的重复输出问题,提高答案的质量.本文在知识问答模型基础上结合知识表示学习的推理结果,使模型具备模糊回答的能力.在合成数据集和现实世界数据集上的实验证明了本模型能够有效地提高生成答案的质量,能对推理知识进行模糊回答. 展开更多
关键词 生成式知识问答 覆盖机制 知识表示学习 自然语言处理 深度学习
在线阅读 下载PDF
基于注意力机制的概念化句嵌入研究 被引量:8
12
作者 王亚珅 黄河燕 +1 位作者 冯冲 周强 《自动化学报》 EI CSCD 北大核心 2020年第7期1390-1400,共11页
大多数句嵌模型仅利用文本字面信息来完成句子向量化表示,导致这些模型对普遍存在的一词多义现象缺乏甄别能力.为了增强句子的语义表达能力,本文使用短文本概念化算法为语料库中的每个句子赋予相关概念,然后学习概念化句嵌入(Conceptual... 大多数句嵌模型仅利用文本字面信息来完成句子向量化表示,导致这些模型对普遍存在的一词多义现象缺乏甄别能力.为了增强句子的语义表达能力,本文使用短文本概念化算法为语料库中的每个句子赋予相关概念,然后学习概念化句嵌入(Conceptual sentence embedding,CSE).因此,由于引入了概念信息,这种语义表示比目前广泛使用的句嵌入模型更具表达能力.此外,我们通过引入注意力机制进一步扩展概念化句嵌入模型,使模型能够有区别地选择上下文语境中的相关词语以实现更高效的预测.本文通过文本分类和信息检索等语言理解任务来验证所提出的概念化句嵌入模型的性能,实验结果证明本文所提出的模型性能优于其他句嵌入模型. 展开更多
关键词 句嵌入 短文本概念化 注意力机制 词嵌入 语义表达
在线阅读 下载PDF
对等网络中一种优化的副本分布方法 被引量:18
13
作者 孙新 李庆洲 +2 位作者 赵璞 王克祥 潘凡 《计算机学报》 EI CSCD 北大核心 2014年第6期1424-1434,共11页
数据复制技术是一种提高P2P系统中数据可靠性和可用性的常用策略.现有复制方法大多只考虑副本数量,副本数量越多就越能提高资源访问效率,但采用这样的数据复制方法将会带来高昂的副本一致性维护代价.为平衡副本一致性维护的开销和多副... 数据复制技术是一种提高P2P系统中数据可靠性和可用性的常用策略.现有复制方法大多只考虑副本数量,副本数量越多就越能提高资源访问效率,但采用这样的数据复制方法将会带来高昂的副本一致性维护代价.为平衡副本一致性维护的开销和多副本带来的访问性能提升之间的关系,该文提出了动态副本分布方法.文中首先给出了副本目录的设计和副本信息的获取方法,能够获得某一逻辑资源的所有副本信息.然后,根据逻辑资源的全局副本信息,对访问频率高且平均响应时间长的数据资源进行复制,并给出副本数量的计算方法.最后,根据用户访问特征和节点实时带宽等信息计算放置副本的最佳地点,使副本分布能够适应数据访问请求和网络带宽的动态变化.模拟实验结果显示,该方法能够实现全局优化的副本分布,以少量数据副本提升资源访问的性能. 展开更多
关键词 对等网络 数据复制 副本分布 副本放置 副本数量 物联网
在线阅读 下载PDF
基于词向量语义分类的微博实体链接方法 被引量:13
14
作者 冯冲 石戈 +2 位作者 郭宇航 龚静 黄河燕 《自动化学报》 EI CSCD 北大核心 2016年第6期915-922,共8页
微博实体链接是把微博中给定的指称链接到知识库的过程,广泛应用于信息抽取、自动问答等自然语言处理任务(Natural language processing,NLP).由于微博内容简短,传统长文本实体链接的算法并不能很好地用于微博实体链接任务.以往研究大... 微博实体链接是把微博中给定的指称链接到知识库的过程,广泛应用于信息抽取、自动问答等自然语言处理任务(Natural language processing,NLP).由于微博内容简短,传统长文本实体链接的算法并不能很好地用于微博实体链接任务.以往研究大都基于实体指称及其上下文构建模型进行消歧,难以识别具有相似词汇和句法特征的候选实体.本文充分利用指称和候选实体本身所含有的语义信息,提出在词向量层面对任务进行抽象建模,并设计一种基于词向量语义分类的微博实体链接方法.首先通过神经网络训练词向量模板,然后通过实体聚类获得类别标签作为特征,再通过多分类模型预测目标实体的主题类别来完成实体消歧.在NLPCC2014公开评测数据集上的实验结果表明,本文方法的准确率和召回率均高于此前已报道的最佳结果,特别是实体链接准确率有显著提升. 展开更多
关键词 词向量 实体链接 社会媒体处理 神经网络 多分类
在线阅读 下载PDF
基于浮动车数据的快速交通拥堵监控 被引量:12
15
作者 吴佩莉 刘奎恩 +2 位作者 郝身刚 张全新 谭毓安 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期189-198,共10页
浮动车技术是近年来智能交通系统中所采用的、获取道路交通信息的先进技术手段之一,可作为大规模实时交通监控的数据源.由于浮动车数据规模庞大,从大量移动对象中有效处理流数据是其中一大难点.采用相似轨迹聚类的思想,结合与拥堵特征... 浮动车技术是近年来智能交通系统中所采用的、获取道路交通信息的先进技术手段之一,可作为大规模实时交通监控的数据源.由于浮动车数据规模庞大,从大量移动对象中有效处理流数据是其中一大难点.采用相似轨迹聚类的思想,结合与拥堵特征相关的交通参数,提出了拥堵同伴发现算法.该算法能从浮动车轨迹流数据中筛选出可能发生拥堵的浮动车数据,从而对拥堵区域变化趋势进行概化预测,由预测结果决定负载处理方式.此外,设计基于预测的多优先级调度算法用以实现整个监控流程.提出的方法可有效降低处理浮动车数据的代价,实现快速交通拥堵监控.通过在城市路网中大规模出租车轨迹数据上的实测,验证了这种算法的有效性和优势. 展开更多
关键词 浮动车数据 交通拥堵 拥堵同伴发现 降载 轨迹流数据
在线阅读 下载PDF
Ripple-RAID:一种面向连续数据存储的高效能盘阵 被引量:7
16
作者 孙志卓 张全新 +1 位作者 谭毓安 李元章 《软件学报》 EI CSCD 北大核心 2015年第7期1824-1839,共16页
视频监控、备份、归档等应用具有独特的负载特性和I/O访问模式,需研究特定的存储节能方法.磁盘阵列的局部并行策略有利于实现该类存储系统的节能,但通常会导致RAID执行小写操作而严重影响性能.为此,提出一种面向该类存储系统的高效能盘... 视频监控、备份、归档等应用具有独特的负载特性和I/O访问模式,需研究特定的存储节能方法.磁盘阵列的局部并行策略有利于实现该类存储系统的节能,但通常会导致RAID执行小写操作而严重影响性能.为此,提出一种面向该类存储系统的高效能盘阵——Ripple-RAID,采用新的局部并行数据布局,通过综合运用地址转换、异地更新、基于流水技术渐进生成校验、分段数据恢复等策略,在单盘容错条件下,保持了局部并行的节能性,又有效解决了局部并行带来的小写问题.Ripple-RAID具有突出的性能和节能效率,在80%顺序写负载情况下,请求长度为512KB时,写性能为S-RAID 5的3.9倍,Hibernator、MAID写性能的1.9倍,PARAID、e RAID 5写性能的0.49倍;而比S-RAID 5节能20%,比Hibernator、MAID节能33%,比e RAID 5节能70%,比PARAID节能72%. 展开更多
关键词 高性能 节能 盘阵 视频监控 归档 连续数据存储
在线阅读 下载PDF
基于领域知识的图模型词义消歧方法 被引量:10
17
作者 鹿文鹏 黄河燕 吴昊 《自动化学报》 EI CSCD 北大核心 2014年第12期2836-2850,共15页
对领域知识挖掘利用的充分与否,直接影响到面向特定领域的词义消歧(Word sense disambiguation,WSD)的性能.本文提出一种基于领域知识的图模型词义消歧方法,该方法充分挖掘领域知识,为目标领域收集文本领域关联词作为文本领域知识,为目... 对领域知识挖掘利用的充分与否,直接影响到面向特定领域的词义消歧(Word sense disambiguation,WSD)的性能.本文提出一种基于领域知识的图模型词义消歧方法,该方法充分挖掘领域知识,为目标领域收集文本领域关联词作为文本领域知识,为目标歧义词的各个词义获取词义领域标注作为词义领域知识;利用文本领域关联词和句子上下文词构建消歧图,并根据词义领域知识对消歧图进行调整;使用改进的图评分方法对消歧图的各个词义结点的重要度进行评分,选择正确的词义.该方法能有效地将领域知识整合到图模型中,在Koeling数据集上,取得了同类研究的最佳消歧效果.本文亦对多种图模型评分方法做了改进,进行了详细的对比实验研究. 展开更多
关键词 词义消歧 领域知识 图模型 词义领域 文本领域
在线阅读 下载PDF
RocketTC:一个基于FPGA的高性能网络流量分类架构 被引量:12
18
作者 付文亮 嵩天 周舟 《计算机学报》 EI CSCD 北大核心 2014年第2期414-422,共9页
基于深包检测技术的流量分类方法可以达到95%以上的识别率和准确率.然而,由于计算复杂性高、存储消耗大等原因,主流软件方法只能提供百兆(线速率)处理能力,而且不能处理大量流并发的情况.文中提出一个基于深包检测技术的芯片级流量分类... 基于深包检测技术的流量分类方法可以达到95%以上的识别率和准确率.然而,由于计算复杂性高、存储消耗大等原因,主流软件方法只能提供百兆(线速率)处理能力,而且不能处理大量流并发的情况.文中提出一个基于深包检测技术的芯片级流量分类架构RocketTC,通过对应用层协议特征、匹配引擎和流管理策略进行优化,使其支持万兆级数据吞吐率.RocketTC具有两个核心模块:基于FPGA的流管理器和动态可重构的分类引擎阵列,前者实现万兆吞吐率下的流表管理,后者快速检测流量特征并支持动态协议特征更新特性.文中提出的分类方法使用轻量级DPI方法,通过缩小检测范围和特征长度进一步减少计算复杂度和存储消耗.我们使用Xilinx Virtex-5FPGA对上述设计进行实现与在线流量测试,结果表明RocketTC可以对92种网络协议进行识别,准确率达到97%,而且稳定提供20Gbps线速处理能力. 展开更多
关键词 架构设计 网络流量分类 FPGA 多级流水 部分动态可重构(PDR)中图法
在线阅读 下载PDF
基于词语距离的网络图词义消歧 被引量:22
19
作者 杨陟卓 黄河燕 《软件学报》 EI CSCD 北大核心 2012年第4期776-785,共10页
传统的基于知识库的词义消歧方法,以一定窗口大小下的词语作为背景,对歧义词词义进行推断.该窗口大小下的所有词语无论距离远近,都对歧义词的词义具有相同的影响,使词义消歧效果不佳.针对此问题,提出了一种基于词语距离的网络图词义消... 传统的基于知识库的词义消歧方法,以一定窗口大小下的词语作为背景,对歧义词词义进行推断.该窗口大小下的所有词语无论距离远近,都对歧义词的词义具有相同的影响,使词义消歧效果不佳.针对此问题,提出了一种基于词语距离的网络图词义消歧模型.该模型在传统的网络图词义消歧模型的基础上,充分考虑了词语距离对消歧效果的影响.通过模型重构、优化改进、参数估计以及评测比较,论证了该模型的特点:距离歧义词较近的词语,会对其词义有较强的推荐作用;而距离较远的词,会对其词义有较弱的推荐作用.实验结果表明,该模型可以有效提高中文词义消歧性能,与SemEval-2007:task#5最好的成绩相比,该方法在MacroAve(macro-average accuracy)上提高了3.1%. 展开更多
关键词 词语距离 马尔可夫链 网络图模型 PAGERANK 参数估计
在线阅读 下载PDF
新闻事件的分布式混合推荐算法 被引量:4
20
作者 牛振东 王帅 +1 位作者 王诗航 陈杰 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第7期721-726,共6页
针对新闻的个性化服务差及推荐效率低的问题,提出了一种新闻事件的分布式混合推荐算法.该算法改进了传统的层次聚类算法用于新闻事件发现,通过协调簇中心距离和簇间最远距离的权重解决了传统层次聚类中的大簇问题;使用混合推荐算法进行... 针对新闻的个性化服务差及推荐效率低的问题,提出了一种新闻事件的分布式混合推荐算法.该算法改进了传统的层次聚类算法用于新闻事件发现,通过协调簇中心距离和簇间最远距离的权重解决了传统层次聚类中的大簇问题;使用混合推荐算法进行事件推荐,引入了事件的多重特征来计算用户兴趣模型,更准确地表示用户的兴趣偏好;采用Spark分布式计算平台实现该算法,可处理大数据的个性化推荐问题.在公开数据集上的实验结果表明本文方法有效. 展开更多
关键词 SPARK 分布式 层次聚类 用户兴趣模型 混合推荐
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部