期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
织网者的话语:跨社交媒体信息推荐的作用机理研究
1
作者 黄伟鑫 毕达天 +1 位作者 朱梓萌 王传清 《现代情报》 北大核心 2025年第10期51-63,共13页
[目的/意义]用户跨社交媒体信息行为推动了信息推荐方式的创新,即相同的推荐信息在不同社交平台中穿梭,形成跨社交媒体信息推荐网络,然而这一方式的作用机理尚未明晰。探究跨社交媒体信息推荐的作用机理,有助于提供新的理论视角和模型... [目的/意义]用户跨社交媒体信息行为推动了信息推荐方式的创新,即相同的推荐信息在不同社交平台中穿梭,形成跨社交媒体信息推荐网络,然而这一方式的作用机理尚未明晰。探究跨社交媒体信息推荐的作用机理,有助于提供新的理论视角和模型框架。[方法/过程]基于线索一致性理论和信任转移理论,构建理论模型,通过问卷调查法和偏最小二乘结构方程法检验假设。[结果/结论]内容一致性、线索一致性、社交平台信任、发布者信任会显著影响信息线索信任,而信息线索信任又显著正向影响信息采纳。同时,社交平台信任和发布者信任分别正向调节内容一致性、评论一致性、信息线索信任之间的关系。此外,社交平台信任一致性促进信息线索信任对信息采纳的影响,与信息线索信任之间是互补关系;发布者信任一致性抑制信息线索信任对信息采纳的影响,与信息线索信任之间是替代关系。本文丰富了跨社交媒体信息推荐的理论基础,并为社交平台、信息发布者、应用跨社交媒体信息推荐的企业提供启发。 展开更多
关键词 跨社交媒体 信息推荐 信息转移 线索一致性
在线阅读 下载PDF
AI在数字出版内容审核中的应用研究 被引量:10
2
作者 陈奎莲 《出版广角》 CSSCI 北大核心 2020年第10期15-18,共4页
在富媒体背景下,数字出版商不断开发精品内容,创新产品形式,优化用户的"多感官刺激"和"交互式体验",但与此同时,其内容审核工作也面临严峻挑战。将人工智能技术引进出版行业,充分发挥其深度学习、自然语言处理、语... 在富媒体背景下,数字出版商不断开发精品内容,创新产品形式,优化用户的"多感官刺激"和"交互式体验",但与此同时,其内容审核工作也面临严峻挑战。将人工智能技术引进出版行业,充分发挥其深度学习、自然语言处理、语音转写、图像识别等内容审核相关技术优势,为数字出版作品把好质量关,推动数字出版事业转型升级,实现高质量发展。 展开更多
关键词 富媒体 数字出版 人工智能 深度学习
在线阅读 下载PDF
2021年第六届知识服务与情报工程学术交流会议纪要
3
作者 李琳娜 刘志辉 陆泉 《图书情报知识》 CSSCI 北大核心 2022年第2期153-160,共8页
1引言在国内国际双循环相互促进的新发展格局下,科技创新成为我国经济发展的新动能,对于推动我国经济结构转型升级和高质量发展至关重要,也为科技情报和知识服务发展提供了新的发展机遇。如何从浩如烟海的大量文献、资料和数据中自动地... 1引言在国内国际双循环相互促进的新发展格局下,科技创新成为我国经济发展的新动能,对于推动我国经济结构转型升级和高质量发展至关重要,也为科技情报和知识服务发展提供了新的发展机遇。如何从浩如烟海的大量文献、资料和数据中自动地获取知识,有效地组织知识和高效地应用知识,服务国家重大科技研发需求,解决生产实践中的实际问题,是当前最重要的挑战之一。 展开更多
关键词 科技情报 学术交流会议 情报工程 双循环 我国经济发展 经济结构转型升级 研发需求 相互促进
在线阅读 下载PDF
开放科学视角下的数据论文引用意图研究——以生物医学领域为例
4
作者 王莉军 刘茹 +2 位作者 杨波 刘志辉 郑明 《情报学报》 北大核心 2025年第3期296-308,共13页
基于引文全文本语料库,多角度揭示数据论文被引特征和趋势变化,探究数据论文在实践中发挥的真实效用。本文以生物医学领域为例,在完成数据论文引用意图自动识别的基础上,从时间、空间和期刊3个维度对其引用意图特征进行分析,揭示生物医... 基于引文全文本语料库,多角度揭示数据论文被引特征和趋势变化,探究数据论文在实践中发挥的真实效用。本文以生物医学领域为例,在完成数据论文引用意图自动识别的基础上,从时间、空间和期刊3个维度对其引用意图特征进行分析,揭示生物医学领域数据论文的发展和使用情况。研究结果表明,数据论文的被引时间与发表时间具有较高的一致性,得到的实质性引用占比略高于非实质性引用,在实质性引用中,引用位置主要集中在数据/方法部分;描述数据集的论文数量远高于描述数据库的论文,后者却获得更高、更持久的引用量。 展开更多
关键词 开放科学 数据论文 引用意图 数据出版
在线阅读 下载PDF
一种基于SimCSE有监督微调的跨语言专利文本表示优化方法
5
作者 王莉军 李浩天 +1 位作者 高影繁 王淑君 《情报学报》 北大核心 2025年第7期818-829,共12页
本文提出了一种跨语言专利文本表示优化方法,旨在提升中英专利文本的语义表示能力。该方法结合了SimCSE(simple contrastive sentence embeddings)对比学习算法与有监督微调策略,通过充分利用中英专利文本的平行语料数据,实现了跨语言... 本文提出了一种跨语言专利文本表示优化方法,旨在提升中英专利文本的语义表示能力。该方法结合了SimCSE(simple contrastive sentence embeddings)对比学习算法与有监督微调策略,通过充分利用中英专利文本的平行语料数据,实现了跨语言的有效文本表示。在无监督SimCSE微调的基础上,本文引入了有监督的SimCSE微调算法,以增强模型在跨语言语义理解上的表现。具体而言,本文提出了一种正负样本挖掘策略,通过分析专利文本间的引用关系构建高质量正样本集,使模型能够捕捉到更准确的跨语言语义相似性。同时,引入RetroMAE(retrieval-oriented masked auto-encoder)二次预训练模型,针对难负例的挖掘进行优化,以进一步提高模型的区分能力和泛化性能。与传统跨语言文本表示方法相比,本文方法在处理跨语言专利文本时表现出显著优势,突破了已有方法在语义对齐和区分上的局限性,为多领域跨语言专利分析提供了更加精准有效的工具。 展开更多
关键词 跨语言专利 SimCSE 正负例挖掘
在线阅读 下载PDF
嵌入导联上下文编码的图卷积神经网络心律失常分类模型
6
作者 喻云虎 杨湘 陈艳红 《计算机工程与应用》 北大核心 2025年第3期212-222,共11页
心律失常对患者健康造成严重威胁,其通过12导联心电图(electrocardiogram,ECG)的自动分类在临床上具有重要意义。现有研究偏重两两导联之间的相关性,忽视多导联上下文及频域特征,这导致了分析的局限性,且易受噪声干扰,影响分类准确性。... 心律失常对患者健康造成严重威胁,其通过12导联心电图(electrocardiogram,ECG)的自动分类在临床上具有重要意义。现有研究偏重两两导联之间的相关性,忽视多导联上下文及频域特征,这导致了分析的局限性,且易受噪声干扰,影响分类准确性。该研究提出了嵌入导联上下文编码的图卷积神经网络心律失常分类模型(lead con-text encoding embedded graph convolutional neural network model for arrhythmia classification,LCEE-GCN)。该模型利用短时傅里叶变换获取12导联心电信号的功率谱密度(power spectral density,PSD),并运用ECG信号处理算法提取R-R间期等时域特征,通过导联上下文编码获得导联间更广泛的相关性信息,并结合PSD与时域特征构建动态图结构,利用图卷积神经网络增强模型对导联间关系的学习与表示能力。在查普曼数据集上进行的实验表明,模型达到了99.38%的准确率,超过了现有先进方法。这一创新有望提高心律失常诊断的效率和准确性。 展开更多
关键词 心律失常分类 12导联心电图 图卷积神经网络 功率谱密度 导联上下文编码
在线阅读 下载PDF
一种基于专家反馈微调的专利文本相似性计算方法
7
作者 王淑君 高影繁 +1 位作者 姚长青 袁鸣 《情报学报》 北大核心 2025年第7期846-858,共13页
专利作为创新技术的重要知识载体,文本相似性计算是自然语言处理应用广泛的重要一环,专利文本相似性计算有助于挖掘潜在价值专利和支撑专利检索。本文提出了一种基于专家反馈微调的专利文本相似性计算方法,在专家评价小数据集上,利用大... 专利作为创新技术的重要知识载体,文本相似性计算是自然语言处理应用广泛的重要一环,专利文本相似性计算有助于挖掘潜在价值专利和支撑专利检索。本文提出了一种基于专家反馈微调的专利文本相似性计算方法,在专家评价小数据集上,利用大模型重新生成摘要文本进而实现负例文本增强,随后利用专家评价数据集对预训练模型进行微调,并在大规模数据集上重新计算得到相似专利。本文在新材料和电子信息两个新兴领域中分别继续训练BART (bidirectional and auto-regressive transformers)和BGE (Beijing Academy of Artificial Intelligence general embedding)模型,并在专家评价数据集上微调两个模型。实验结果表明,该方法的Spearman相关系数相较于初始模型分别提升了6.4%和16.9%。实证部分识别了电子信息领域企业技术竞争对手这一场景,验证了该方法在技术竞争对手识别中的优势。 展开更多
关键词 相似专利计算 预训练模型 专家反馈微调 文本表示
在线阅读 下载PDF
基于共同子空间分类学习的跨媒体检索研究 被引量:2
8
作者 韩红旗 冉亚鑫 +3 位作者 张运良 桂婕 高雄 易梦琳 《计算机科学》 CSCD 北大核心 2022年第5期33-42,共10页
不同媒体数据间由于存在严重的异构鸿沟和语义鸿沟,而不能直接计算它们之间的语义相似度,从而影响了跨媒体检索的实现和效果。当前提出的共同子空间学习虽能实现跨媒体语义关联和检索,但多采用一般的特征提取技术,且在语义匹配时的分类... 不同媒体数据间由于存在严重的异构鸿沟和语义鸿沟,而不能直接计算它们之间的语义相似度,从而影响了跨媒体检索的实现和效果。当前提出的共同子空间学习虽能实现跨媒体语义关联和检索,但多采用一般的特征提取技术,且在语义匹配时的分类效果较差,不能有效实现跨媒体数据的高层语义关联计算,影响了检索效果。对此,提出Stacking-DSCM-WR跨媒体关联方法,用于文档和图像之间的跨媒体检索。该方法基于词向量技术形成文档的特征表示向量,通过残差网络技术抽取图像的特征表示向量,采用深度典型相关性分析技术将不同模态的数据投影到共同子空间下,然后采用Stacking集成学习算法获取文本和图像在同一高层概念语义空间上的分布,使得两种不同模态的数据可以进行语义匹配、相似性计算。在Wikipedia和Pascal Sentence两个小型跨媒体数据集和一个较大规模跨媒体数据集INRIA-Websearch上分别开展跨媒体检索实验,证实了所提方法能够有效地抽取文本和图像的特征,实现跨媒体数据在高层语义空间上的关联和匹配,与相近跨媒体检索方法在MAP指标上的对比显示,该方法能够取得较好的检索效果。 展开更多
关键词 跨媒体信息检索 语义关联 集成学习 词向量 残差网络
在线阅读 下载PDF
基于记忆增强潜在扩散模型的异常检测
9
作者 张吉陈 张智 《计算机工程与设计》 北大核心 2025年第9期2592-2598,共7页
为解决传统基于重构的异常检测方法重建图像质量低导致异常检测准确度不高的问题,提出了一种基于记忆增强扩散模型的异常检测方法。考虑到时间成本以及计算资源有限,使用潜在扩散模型作为基础架构。同时为更好的避免异常部分的直接重建... 为解决传统基于重构的异常检测方法重建图像质量低导致异常检测准确度不高的问题,提出了一种基于记忆增强扩散模型的异常检测方法。考虑到时间成本以及计算资源有限,使用潜在扩散模型作为基础架构。同时为更好的避免异常部分的直接重建,引入了记忆增强模块记住正常数据的典型特征,从而使异常数据的重构误差更大,提高了异常检测的准确性。为了在保证正常区域相同的情况下重建异常区域,提出了一种噪声条件嵌入的方法,提高了重建的稳定性。在MVTec-AD上的实验结果表明,与相关方法相比,所提方法有更好的检测和定位性能。 展开更多
关键词 异常检测 扩散模型 记忆增强 潜在空间 自编码器 噪声条件嵌入 生成模型
在线阅读 下载PDF
基于论文题名的知识驱动关系分析方法研究——以信息与知识传播研究领域为例 被引量:1
10
作者 张运良 《情报杂志》 CSSCI 北大核心 2022年第1期170-176,共7页
[研究目的]基于论文题名快速梳理特定研究领域中的概念,并确定概念所代表的知识之间驱动关系,有助于科学了解研究领域状况,为进一步寻找研究方向提供可能。[研究方法]以信息与知识传播研究领域为例,收集整理题名中包含“知识”研究论文... [研究目的]基于论文题名快速梳理特定研究领域中的概念,并确定概念所代表的知识之间驱动关系,有助于科学了解研究领域状况,为进一步寻找研究方向提供可能。[研究方法]以信息与知识传播研究领域为例,收集整理题名中包含“知识”研究论文元数据,在Stanford Parser的短语结构分析结果基础上,对驱动关系进行人工审定,并做边界调整、拆分和规范化,得到概念间的真实驱动关系数据,定义若干分析指标,以上述数据为基础构建加权有向图,并基于复杂网络分析和可视化技术分析展示在知识驱动方面具有不同特点的概念及驱动路径。[研究结论]该研究借鉴和发展共词分析方法,提出并实现了一种能够揭示研究领域概念之间有方向的知识驱动关系的方法,利用本方法可以发现不同概念在某一领域的驱动强度大小、特定的驱动路径和若干稳定或脆弱的概念团组。 展开更多
关键词 知识驱动关系 论文题名 短语结构分析 复杂网络分析
在线阅读 下载PDF
利用知识强化语言模型的口语理解方法
11
作者 刘高军 王岳 +2 位作者 段建勇 何丽 王昊 《计算机工程》 CAS CSCD 北大核心 2023年第3期73-79,共7页
基于预训练的语言模型在口语理解(SLU)任务中具有优异的性能表现。然而,与人类理解语言的方式相比,单纯的语言模型只能建立文本层级的上下文关联,缺少丰富的外部知识来支持其完成更为复杂的推理。提出一种针对SLU任务的基于Transformer... 基于预训练的语言模型在口语理解(SLU)任务中具有优异的性能表现。然而,与人类理解语言的方式相比,单纯的语言模型只能建立文本层级的上下文关联,缺少丰富的外部知识来支持其完成更为复杂的推理。提出一种针对SLU任务的基于Transformer的双向编码器表示(BERT)的联合模型。引入单词级别的意图特征并使用注意力机制为BERT融合外部知识。此外,由于SLU包含意图检测和槽填充2个相互关联的子任务,模型通过联合训练捕捉2个子任务间的关联性,充分运用这种关联性增强外部知识对于SLU任务的性能提升效果,并将外部知识转化为可用于特定子任务的特征信息。在ATIS和Snips 2个公开数据集上的实验结果表明,该模型句子级别的语义准确率分别为89.1%和93.3%,与BERT模型相比,分别提升了0.9和0.4个百分点,能够有效利用外部知识提升自身性能,在SLU任务中拥有比BERT更为优秀的性能表现。 展开更多
关键词 口语理解 外部知识 语言模型 意图检测 槽填充 联合训练
在线阅读 下载PDF
基于多角度交叉注意力机制的知识库问答方法 被引量:2
12
作者 代发扬 符海东 +1 位作者 高峰 顾进广 《计算机应用与软件》 北大核心 2023年第12期33-40,共8页
近些年知识库问答的方法通常利用多视角信息来表示候选答案,忽略了这些信息间的相互影响,将问题的单词与候选答案的多视角信息计算相关性,忽略了二者在整体与细节上的信息。基于上述问题,提出一个多角度交叉注意力模型,通过多视角交叉... 近些年知识库问答的方法通常利用多视角信息来表示候选答案,忽略了这些信息间的相互影响,将问题的单词与候选答案的多视角信息计算相关性,忽略了二者在整体与细节上的信息。基于上述问题,提出一个多角度交叉注意力模型,通过多视角交叉注意力机制获取候选答案多视角信息间的交叉影响;将问题与候选答案信息进行整体表示,运用双向交叉注意力机制来计算其二者在整体级别上的关联性,最终提高获取答案的正确率。利用FreeBase知识库与WebQuestions数据集进行实验,F1值达到55.84%,优于最近表现较好的方法。 展开更多
关键词 知识库问答 多视角信息 多视角交叉注意力机制 双向交叉注意力机制
在线阅读 下载PDF
基于知识表示学习的协同矩阵分解方法 被引量:6
13
作者 刘琼昕 覃明帅 《北京理工大学学报》 EI CAS CSCD 北大核心 2021年第7期752-757,共6页
针对协同过滤算法中用户反馈数据的稀疏性问题,提出一种基于知识库的协同矩阵分解方法.该方法从物品的知识图谱中学习其向量表示,并在此基础上联合地分解反馈矩阵和物品关联度矩阵,两种矩阵共享物品向量,利用物品的语义信息弥补反馈数... 针对协同过滤算法中用户反馈数据的稀疏性问题,提出一种基于知识库的协同矩阵分解方法.该方法从物品的知识图谱中学习其向量表示,并在此基础上联合地分解反馈矩阵和物品关联度矩阵,两种矩阵共享物品向量,利用物品的语义信息弥补反馈数据的缺失.实验结果表明,该方法显著地提升了矩阵分解模型的推荐效果,在一定程度上解决了协同过滤的冷启动问题. 展开更多
关键词 推荐系统 矩阵分解 知识表示学习
在线阅读 下载PDF
基于图结构特征采样数据摘要的联邦知识图谱查询 被引量:1
14
作者 高峰 李秋 顾进广 《计算机工程》 CAS CSCD 北大核心 2023年第1期73-81,共9页
联邦SPARQL查询是通过构建查询计划来指导查询执行,数据摘要索引文件捕获了RDF数据集的结构和语义信息,对查询计划生成过程中子查询基数评估至关重要。现有的数据摘要生成方法需要远程遍历每个数据源的完整数据,该过程成本消耗较高,且... 联邦SPARQL查询是通过构建查询计划来指导查询执行,数据摘要索引文件捕获了RDF数据集的结构和语义信息,对查询计划生成过程中子查询基数评估至关重要。现有的数据摘要生成方法需要远程遍历每个数据源的完整数据,该过程成本消耗较高,且在大部分环境中联邦查询无法完成对大数据集的统计工作。为在减少数据摘要索引文件生成时间和内存开销的同时捕获尽可能真实的计数信息,考虑主语和谓语的分布偏差,提出利用样图生成原始图近似数据摘要的方法。使用对RDF图出度特征加权的采样方法获取原始图的典型样图,通过改进的映射函数将样图中的信息映射到原始图上,从而生成原始图的近似数据摘要。实验结果表明,该方法相比于基线方法至少节省了70%的数据摘要索引文件生成时间,并且仅采样0.5%的原始图生成的近似数据摘要即可在查询正确率上与基线方法保持高度一致。 展开更多
关键词 数据摘要 数据源索引 RDF图采样 联邦查询 查询性能
在线阅读 下载PDF
结合规则学习与深度学习的诊疗关系抽取
15
作者 高峰 杨佳欣 顾进广 《计算机应用与软件》 北大核心 2024年第3期56-62,93,共8页
诊疗关系的自动识别和抽取有助于医生进行诊疗决策。传统的关系抽取模型对部分数据没有良好的解释性,因此,以神经网络进行规则学习和泛化,设计打分机制,通过规则匹配实现关系抽取,而后对未正确匹配数据进行针对性深度学习模型训练,完成... 诊疗关系的自动识别和抽取有助于医生进行诊疗决策。传统的关系抽取模型对部分数据没有良好的解释性,因此,以神经网络进行规则学习和泛化,设计打分机制,通过规则匹配实现关系抽取,而后对未正确匹配数据进行针对性深度学习模型训练,完成最终的诊疗关系抽取。使用以疾病为中心的诊疗流程相关文本展开实验验证该方法的效果。实验结果表明,该方法不仅通过少量人工规则使关系抽取增加了可解释性,还可以显著提高关系抽取的效果。 展开更多
关键词 人工智能 医疗领域 关系抽取 深度学习 规则学习
在线阅读 下载PDF
基于特征进化选择随机森林的MCI自动诊断
16
作者 高峰 郑丽丽 顾进广 《计算机应用与软件》 北大核心 2024年第6期250-256,共7页
近年来,作为正常与阿尔茨海默病过渡阶段的轻度认知障碍(Mild Cognitive Impairment,MCI)病症的研究备受关注。但目前的医学MCI人工诊断不仅参考的特征局限性较大,且依靠人工判定,易产生主观上的误差。因此,提出一种基于随机森林的MCI... 近年来,作为正常与阿尔茨海默病过渡阶段的轻度认知障碍(Mild Cognitive Impairment,MCI)病症的研究备受关注。但目前的医学MCI人工诊断不仅参考的特征局限性较大,且依靠人工判定,易产生主观上的误差。因此,提出一种基于随机森林的MCI自动诊断方法,通过机器学习的方式,高效准确地判定MCI;同时应用遗传算法更高效地搜索求解模型的最优参数。结果表明,该方法与医学人工诊断方式相比准确率提高约5%,且在求取随机森林的最优参数问题上,与网格搜索相比,遗传算法所用时间约为其1/45。 展开更多
关键词 MCI 随机森林 遗传算法 最优参数
在线阅读 下载PDF
结合多尺度融合和图匹配的行人重识别
17
作者 李冬 张智 《计算机工程与设计》 北大核心 2024年第7期2180-2186,共7页
由于行人遮挡、视角变化等因素影响,传统的行人重识别并不能准确表达遮挡行人的信息。针对该问题,提出一种基于多尺度融合和图匹配的网络模型。分为提取不同尺度的特征和基于拓扑结构匹配图像两个部分,将主干网络分为两个子分支分别提... 由于行人遮挡、视角变化等因素影响,传统的行人重识别并不能准确表达遮挡行人的信息。针对该问题,提出一种基于多尺度融合和图匹配的网络模型。分为提取不同尺度的特征和基于拓扑结构匹配图像两个部分,将主干网络分为两个子分支分别提取全局特征并融合多个网络层面的局部特征;使用多头注意力机制学习相邻关键点的关系,基于拓扑结构匹配图像并预测相似度结果。使用ResNet-50作为主干网络,在Occluded-Duke数据集上的Rank-1和mAP分别是64.8%和59.9%,验证该模型在遮挡行人重识别中有一定程度的准确率提升。 展开更多
关键词 行人重识别 目标检测 局部特征 多尺度特征融合 图注意力机制 图匹配 卷积神经网络
在线阅读 下载PDF
基于BiLSTM-CRF的中医文言文文献分词模型研究 被引量:17
18
作者 王莉军 周越 +1 位作者 桂婕 翟云 《计算机应用研究》 CSCD 北大核心 2020年第11期3359-3362,3367,共5页
由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,构建了基于BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并... 由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,构建了基于BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并在中医领域文献上对比了BiLSTM-CRF模型、BiLSTM模型及主流通用中文分词器jieba、Ansj的分词结果。结果表明基于Bi-LSTM-CRF模型的分词取得了更优秀的分类性能和鲁棒性。 展开更多
关键词 中医 分词 条件随机场 双向长短时记忆
在线阅读 下载PDF
大规模主题词自动标引方法 被引量:5
19
作者 韩红旗 桂婕 +3 位作者 张运良 翁梦娟 薛陕 悦林东 《情报学报》 CSSCI CSCD 北大核心 2022年第5期475-485,共11页
现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献... 现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。 展开更多
关键词 主题标引 分布式词向量 多标签文本分类 关键词抽取 语义标签
在线阅读 下载PDF
HDVM:基于关系矩阵的关联数据压缩查询模型 被引量:3
20
作者 符海东 彭燊 +1 位作者 黄莉 顾进广 《电子学报》 EI CAS CSCD 北大核心 2018年第3期721-729,共9页
随着大数据时代的到来,大量的RDF数据充斥着整个数据网络.RDF(Resource Description Framework)后台引擎管理巨大的数据集时,数据集索引不能全部加载到内存中,导致系统需要执行缓慢的磁盘访问来解决SPARQL查询.本文提出了一种HDVM(Heade... 随着大数据时代的到来,大量的RDF数据充斥着整个数据网络.RDF(Resource Description Framework)后台引擎管理巨大的数据集时,数据集索引不能全部加载到内存中,导致系统需要执行缓慢的磁盘访问来解决SPARQL查询.本文提出了一种HDVM(Header Dictionary Vector Matrix)压缩查询模型,通过在关联数据集中提取潜在的三元组关系矩阵,以主语向量、谓语向量和宾语矩阵的模型序列化存储来减少关联数据重复出现的次数,允许SPARQL查询在压缩状态下全内存执行.实验结果表明,本文提出的模型比常用的HDT(Header-Dictionary Triples)压缩方式提高了3%~20%的压缩率,同时在三元组个数达到十亿级别的数据集上平均查询时间在400ms左右. 展开更多
关键词 关系矩阵 关联数据 查询 压缩
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部