期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于Sentence-BERT与孤立森林算法的专利新颖性评估
1
作者 邓娜 王雨佳 +1 位作者 杨洋 陈旭 《情报杂志》 北大核心 2025年第2期174-182,共9页
[研究目的]面对专利数量的迅猛增长,采用人工方法评估专利新颖性变得愈发困难,且目前专利新颖性评估研究过度聚焦于技术层面,未能综合考虑专利的其他信息因素。因此,实现更高效、客观的专利新颖性评估具有重要的现实意义。[研究方法]提... [研究目的]面对专利数量的迅猛增长,采用人工方法评估专利新颖性变得愈发困难,且目前专利新颖性评估研究过度聚焦于技术层面,未能综合考虑专利的其他信息因素。因此,实现更高效、客观的专利新颖性评估具有重要的现实意义。[研究方法]提出一种基于Sentence-BERT与孤立森林算法的专利新颖性评估方法。首先,使用专利标题与IPC分类号分别作为专利的应用方向与功能分类特征,再通过BiLSTM-CRF模型对专利摘要进行关键技术抽取作为实施方法特征;其次,采用Sentence-BERT对上述特征进行文本向量化表示后组合输入至孤立森林算法获得离群专利集;最后,通过技术量权值过滤法提高专利新颖性评估的精度。[研究结果/结论]以金融科技领域专利进行实证研究,结果表明,该评估方法准确率相较专业专利分析平台方法提升了9%~11%。证明了该方法在专利新颖性评估中的有效性,能为后续专利审核工作和高价值专利分析提供参考。 展开更多
关键词 专利评估 专利新颖性 BiLSTM-CRF sentence-bert 孤立森林算法 机器学习
在线阅读 下载PDF
融合Sentence-BERT和LDA的评论文本主题识别 被引量:22
2
作者 阮光册 黄韵莹 《现代情报》 CSSCI 2023年第5期46-53,共8页
[目的/意义]为了解决评论文本主题识别时语义描述不充分以及学习到的主题语义连贯性不强等问题。本文将Sentence-BERT句子嵌入模型和LDA模型相结合,提升评论文本主题的语义性。[方法/过程]采用Sentence-BERT模型获取评论文本句子层面的... [目的/意义]为了解决评论文本主题识别时语义描述不充分以及学习到的主题语义连贯性不强等问题。本文将Sentence-BERT句子嵌入模型和LDA模型相结合,提升评论文本主题的语义性。[方法/过程]采用Sentence-BERT模型获取评论文本句子层面的向量特征,同时,采用LDA模型获取评论文本的概率主题向量,随后使用自动编码器连接两组向量,运用K-means算法对潜在空间向量进行聚类,从类簇中获取上下文主题信息。[结果/结论]通过对评论文本数据集的实验,本文方法可以较好地获得具有语义信息的主题词。Sentence-BERT模型与LDA结合,增加了模型的复杂性。通过对比,本文方法获得的主题一致性指标(Coherence)优于目前常见的评论文本主题识别方法。 展开更多
关键词 sentence-bert LDA模型 评论文本 主题识别
在线阅读 下载PDF
基于Sentence-BERT语义表示的咨询问题提示列表自动构建方法研究——以糖尿病咨询为例 被引量:17
3
作者 唐晓波 刘亚岚 《现代情报》 CSSCI 2021年第8期3-15,共13页
[目的/意义]咨询问题提示列表能引导咨询者在智能问答和智能咨询系统进行咨询并为动态咨询引导提供基础。目前,关于问题提示列表构建的研究大多采用专家咨询法、访谈法,这些方法无法满足智能咨询服务要求,本文以有问必答网中糖尿病问答... [目的/意义]咨询问题提示列表能引导咨询者在智能问答和智能咨询系统进行咨询并为动态咨询引导提供基础。目前,关于问题提示列表构建的研究大多采用专家咨询法、访谈法,这些方法无法满足智能咨询服务要求,本文以有问必答网中糖尿病问答为例,提出了基于Sentence-BERT语义表示的咨询问题提示列表自动构建模型。[方法/过程]本文首先在糖尿病相关文献调查和分析的基础上确定糖尿病类目体系,并人工标注咨询问题类别;其次使用LDA模型对每类问题集进行主题聚类;然后各主题下通过Sentence-BERT预训练模型进行问题语义表示,textRank算法计算问题重要性并排序;最终冗余处理后构建出咨询问题提示列表。[结果/结论]实验结果表明,本文提出的模型能有效构建出信息质量较高的、内容丰富的咨询问题提示列表,对咨询引导有促进作用。 展开更多
关键词 问题提示列表 智能问答 智能咨询 问答社区 糖尿病咨询 LDA sentence-bert
在线阅读 下载PDF
基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例 被引量:15
4
作者 阮光册 周萌葳 《情报杂志》 CSSCI 北大核心 2024年第2期110-117,共8页
[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法... [研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。 展开更多
关键词 sentence-bert 专利文本 主题识别 文本聚类
在线阅读 下载PDF
PLSGA:阶段式长文本摘要生成方法 被引量:1
5
作者 方缙 李宝安 +1 位作者 游新冬 吕学强 《计算机工程与应用》 北大核心 2025年第2期170-178,共9页
针对现有方法在处理长文本时,存在冗余信息处理困难和无法筛选出最高质量摘要的问题,提出了一种阶段式长文本摘要生成方法(PLSGA)。将样本数据的文本和参考摘要分割,利用Sentence-BERT获取语义向量并进行相似度比对,从中抽取文本的关键... 针对现有方法在处理长文本时,存在冗余信息处理困难和无法筛选出最高质量摘要的问题,提出了一种阶段式长文本摘要生成方法(PLSGA)。将样本数据的文本和参考摘要分割,利用Sentence-BERT获取语义向量并进行相似度比对,从中抽取文本的关键信息;通过关键信息和非关键信息训练抽取模型,以尽可能地保留原文本的语义信息;将抽取的关键信息和参考摘要作为样本输入骨干模型BART进行生成模型训练;通过生成模型生成多条候选摘要,并使用无参考摘要评分模型筛选出质量最好的摘要。提出的阶段式长文本摘要生成方法在多个中文长文本数据集上进行实验,结果表明相对于目前主流的方法以及ChatGPT,其效果均有提升,具有领域优势,生成的摘要质量更好,更具可读性。 展开更多
关键词 文本摘要 sentence-bert 关键信息 BART 无参考摘要评分模型
在线阅读 下载PDF
引入语义引用信息的专利创新性测度研究 被引量:1
6
作者 吴海婷 唐晓波 董克 《现代情报》 北大核心 2025年第9期140-149,共10页
[目的/意义]专利的创新性测度是专利技术质量评价的关键。基于传统引用的专利创新性测度仅考虑物理引用的外部特征,无法充分反映发明创造过程中真实的知识吸收过程。引入语义引用信息的专利创新性测度有助于更为全面、准确地揭示专利的... [目的/意义]专利的创新性测度是专利技术质量评价的关键。基于传统引用的专利创新性测度仅考虑物理引用的外部特征,无法充分反映发明创造过程中真实的知识吸收过程。引入语义引用信息的专利创新性测度有助于更为全面、准确地揭示专利的知识和技术基础,为细粒度的专利创新评价提供支持。[方法/过程]本研究首先运用规则和句法分析抽取相关专利和论文中的知识元;其次,利用Sentence-BERT和Word2vec模型进行知识元的向量化,并计算向量的余弦相似度以确定专利语义引用;然后,从科学和技术知识吸收的数量、质量、广度维度,以及技术影响的数量和质量维度实现专利创新性测度;最后,选取量子计算领域进行了实证研究。[结果/结论]实验结果表明,本研究提出的方法能够提升专利创新性测度的准确性和有效性,为专利审核和评估提供支持。 展开更多
关键词 专利创新性 语义引用识别 知识元 sentence-bert Word2vec
在线阅读 下载PDF
基于语义相似度的协议转换方法
7
作者 杨定木 倪龙强 +3 位作者 梁晶 邱照原 张永真 齐志强 《计算机应用》 北大核心 2025年第4期1263-1270,共8页
协议转换通常用于解决不同协议之间的数据交互问题,它的本质是寻找不同协议字段之间的映射关系。传统的协议转换方法存在以下缺点:转换大多是在特定协议的基础上设计的,因而这些转换是静态的,灵活性较差,不适用于多协议转换的场景;一旦... 协议转换通常用于解决不同协议之间的数据交互问题,它的本质是寻找不同协议字段之间的映射关系。传统的协议转换方法存在以下缺点:转换大多是在特定协议的基础上设计的,因而这些转换是静态的,灵活性较差,不适用于多协议转换的场景;一旦协议发生改变,就需要再次分析协议的结构和字段语义以重新构建字段之间的映射关系,从而产生指数级的工作量,降低了协议转换的效率。因此,提出基于语义相似度的通用协议转换方法,旨在通过智能的方法发掘字段间的映射关系,进而提高协议转换的效率。首先,通过BERT(Bidirectional Encoder Representations from Transformers)模型分类协议字段,并排除“不应该”存在映射关系的字段;其次,通过计算字段之间的语义相似度,推理字段之间的映射关系,进而构建字段映射表;最后,提出基于语义相似度的通用协议转换框架,并定义相关协议以进行验证。仿真实验结果表明:所提方法的字段分类精准率达到了94.44%;映射关系识别精准率达到了90.70%,相较于基于知识抽取的方法提高了13.93%。以上结果验证了所提方法的有可行性,该方法可以快速识别不同协议字段之间的映射关系,适用于无人协同中多协议转换的场景。 展开更多
关键词 语义相似度 字段映射 协议转换 BERT模型 sentence-bert模型
在线阅读 下载PDF
基于专利异构数据融合的技术演化路径识别方法 被引量:3
8
作者 侯艳辉 荆明月 王家坤 《情报杂志》 CSSCI 北大核心 2024年第9期188-195,147,共9页
[研究目的]针对目前技术演化分析中多关注专利文本,忽略专利引文信息的问题,提出一种基于专利异构数据融合的技术演化路径识别方法。[研究方法]首先,使用Sentence-BERT模型提取专利文本语义特征;其次,使用图卷积神经网络模型将文本语义... [研究目的]针对目前技术演化分析中多关注专利文本,忽略专利引文信息的问题,提出一种基于专利异构数据融合的技术演化路径识别方法。[研究方法]首先,使用Sentence-BERT模型提取专利文本语义特征;其次,使用图卷积神经网络模型将文本语义特征与引文结构特征融合,实现异构数据融合构建专利向量;最后,划分时间窗,使用k-means算法对各时间窗进行技术主题聚类,基于相邻时间窗技术主题相似度构建技术演化路径。[研究结论]以人工智能领域为例进行实证研究,共发现4条技术演化路径。与相关权威报告进行比对,结果表明识别结果与人工智能技术领域的发展现状一致,验证了模型的有效性和科学性。 展开更多
关键词 专利 技术演化 技术演化路径识别 异构数据融合 人工智能 sentence-bert 图卷积神经网络
在线阅读 下载PDF
基于密度Canopy的评论文本主题识别方法 被引量:1
9
作者 刘滨 詹世源 +7 位作者 刘宇 雷晓雨 杨雨宽 陈伯轩 刘格格 高歆 皇甫佳悦 陈莉 《河北科技大学学报》 CAS 北大核心 2023年第5期493-501,共9页
融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进... 融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进Kmeans算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。 展开更多
关键词 自然语言处理 主题识别 评论文本 sentence-bert LDA
在线阅读 下载PDF
基于双粒度语义特征与异质性网络的知识共创价值识别
10
作者 王松 骆莹 刘新民 《情报杂志》 CSSCI 北大核心 2024年第5期123-131,共9页
[研究目的]旨在优化虚拟社区中知识共创价值的识别方法,缓解因信息过载和关联复杂性等导致的高价值性知识资源识别效果不佳的问题。[研究方法]从知识共创的动态协同过程入手,构建集成双粒度语义与异质性网络的知识共创价值识别模型(DGSH... [研究目的]旨在优化虚拟社区中知识共创价值的识别方法,缓解因信息过载和关联复杂性等导致的高价值性知识资源识别效果不佳的问题。[研究方法]从知识共创的动态协同过程入手,构建集成双粒度语义与异质性网络的知识共创价值识别模型(DGSHAN)。首先利用BERT、Sentence-BERT并行获取词、句双粒度知识单元的语义信息,继而引入CNN、BiLSTM差异化提炼协同知识的局部内核特征与动态时序特征;同时采用HAN处理异质性关联网络,挖掘用户交互下多类型实体与拓扑结构中的关联规律,最后融合知识资源组合和用户行为互动双链路特征,实现知识共创价值的有效识别。[研究结论]经魅族社区Flyme数据验证,该模型的识别准确度、宏F1、加权F1分别为82.16%、73.56%、81.39%,相较于其他基线模型,各评估指标都有显著提高,可以有效提升知识共创价值的识别效果。 展开更多
关键词 知识共创 动态协同 双粒度语义 异质性网络 价值识别 识别模型 BERT sentence-bert
在线阅读 下载PDF
面向科研基金项目名称短文本的学科交叉主题识别方法 被引量:1
11
作者 黄月 张昕 《情报杂志》 CSSCI 北大核心 2023年第10期157-162,80,共7页
[研究目的]针对科研基金项目名称,挖掘学科间的交叉主题,发现新的学科增长点,是一项具有实际意义的研究任务。基金名称构成的短文本数据集具有稀疏性和不规则性,已有方法在处理短文本数据上效果不佳。[研究方法]使用预训练模型BERT结合... [研究目的]针对科研基金项目名称,挖掘学科间的交叉主题,发现新的学科增长点,是一项具有实际意义的研究任务。基金名称构成的短文本数据集具有稀疏性和不规则性,已有方法在处理短文本数据上效果不佳。[研究方法]使用预训练模型BERT结合传统的共词分析方法,获得潜在的学科交叉词集,筛选出具有学科交叉性质的基金项目名称,再利用句向量模型Sentence-BERT获得项目名称的句向量表示,最后使用聚类算法k-means得到学科交叉主题。[研究结论]通过对国家社会科学基金“图书馆、情报与文献学”和“新闻学与传播学”两个学科的项目名称进行分析,并与已有基于词向量模型word2vec和聚类算法DBSCAN的学科交叉主题挖掘方法进行对比,实验结果表明本研究提出的基于Sentence-BERT的学科交叉主题识别方法得到的结果可解读性更强,研究主题更明确,为学科交叉主题识别贡献新思路。 展开更多
关键词 学科交叉 主题识别 科研基金项目 BERT sentence-bert 国家社会科学基金 共词分析法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部