期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
两阶段式专利技术问题抽取方法
1
作者 吕学强 刘兆楠 +1 位作者 游新冬 罗艺雄 《中文信息学报》 北大核心 2025年第1期56-64,78,共10页
专利技术问题阐明了当前专利所在技术主题下存在的具体问题,同时也是当前专利需要解决的问题。专利中已有的摘要虽然实现了对整体专利文本的信息压缩,但部分专利文本的摘要中缺失了对专利技术问题的描述。针对专利技术问题缺失的情况,... 专利技术问题阐明了当前专利所在技术主题下存在的具体问题,同时也是当前专利需要解决的问题。专利中已有的摘要虽然实现了对整体专利文本的信息压缩,但部分专利文本的摘要中缺失了对专利技术问题的描述。针对专利技术问题缺失的情况,该文将专利技术问题挖掘转换为专利技术问题描述句抽取,提出了一种基于BERT的专利技术问题描述句两阶段式抽取方法,从专利说明书中挖掘对应描述专利技术问题的句子集合。第一阶段通过BERT获取专利说明书中各语句的向量表示,进一步通过Sigmoid函数获取各语句评分,筛选出评分高的若干句子作为候选技术问题描述句。第二阶段,取第一阶段抽取的句子集合的子集得到若干候选技术问题描述句集合,通过BERT得到候选句集合与专利说明书的向量表示,使用余弦相似度计算两者之间的语义相似度,语义相似度最高的候选句集合作为技术问题输出。实验结果表明,基于BERT的两阶段式抽取方法Rouge-L达到34.38,且与传统方法相比更加简练。 展开更多
关键词 专利技术问题 句子抽取 神经网络
在线阅读 下载PDF
基于多层语言特征的辞格多标签分类方法研究
2
作者 黄欢 李宝安 +2 位作者 张凯 滕尚志 吕学强 《中文信息学报》 北大核心 2025年第8期31-41,共11页
多标签辞格自动分类研究深受中文篇章智能评测的密切关注。传统辞格自动识别方法存在仅考虑句子语义忽略字词语义信息,以及仅使用单一类别的标签描述等问题。针对以上两个问题,该文提出了一种联合多层次语法、语义和标签信息的多标签辞... 多标签辞格自动分类研究深受中文篇章智能评测的密切关注。传统辞格自动识别方法存在仅考虑句子语义忽略字词语义信息,以及仅使用单一类别的标签描述等问题。针对以上两个问题,该文提出了一种联合多层次语法、语义和标签信息的多标签辞格分类模型,该模型利用BERT提取修辞文本的字粒度语义向量,通过句法依存树和图卷积神经网络提取词粒度语法、语义向量并进行交互融合。将字粒度向量表示、词粒度向量表示拼接,并通过自注意力机制捕获两者间的语义信息,利用注意力机制融合文本信息和标签信息实现分类。实验表明,该模型在公开数据集AAPD和构建的辞格数据集CRTD上与其他模型相比具有更好的辞格多标签分类性能,在F1评价指标上分别提升了3%和2%。 展开更多
关键词 多标签分类 辞格识别 句法依存分析 文本标签融合
在线阅读 下载PDF
一种两阶段的中文专利语义检索方法 被引量:1
3
作者 吕学强 梁虎 +1 位作者 赵颖 游新冬 《小型微型计算机系统》 CSCD 北大核心 2024年第10期2378-2383,共6页
专利检索系统主要以传统的术语匹配方式提供检索服务,语义扩展性不足,使得具有语义相似的专利在Top_N的检出率较低.为了提升相似专利的Top_N检出率,该文提出了一种两阶段的中文专利语义检索方法.第1阶段基于Sentence-BERT进行语义编码,... 专利检索系统主要以传统的术语匹配方式提供检索服务,语义扩展性不足,使得具有语义相似的专利在Top_N的检出率较低.为了提升相似专利的Top_N检出率,该文提出了一种两阶段的中文专利语义检索方法.第1阶段基于Sentence-BERT进行语义编码,然后基于近似最近邻算法进行语义匹配,能够从海量专利文献库中快速匹配到语义相似的专利.第2阶段以BERT为基础模型,基于交叉编码器(Cross-Encoder)捕获专利文本之间更细粒度的语义相关性,对第1阶段的候选专利集进行重新排序.此外,该文还提出了难负例(hard negative)采样和白化转换(whitening)两种简单有效的模型训练优化策略,使模型从简单的训练数据逐渐过度到复杂的训练数据,提高模型区分相似专利的能力.实验表明,该文提出的方法相比于主流的方法在检出率上均有提升,且相比市面上现有的检索系统同样具有优势. 展开更多
关键词 专利检索 语义检索 难负例采样 白化转换
在线阅读 下载PDF
多特征融合的专利功效短语抽取
4
作者 游新冬 赵颖 +1 位作者 刘佳琦 吕学强 《计算机工程与设计》 北大核心 2024年第5期1413-1419,共7页
为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到B... 为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到BiLSTM或Transformer进行编码,使用CRF解码得到对应输入的标签序列,得到专利功效短语。实验采用新能源汽车领域的专利文本作为训练数据,尝试组合不同的特征进行实验,实验结果表明,所提模型在准确率、召回率、F1值上均取得了明显提升,验证了多特征融合在功效短语抽取任务上的有效性。 展开更多
关键词 多特征融合 专利功效短语 深度学习 词语抽取 双向长短期记忆模型 条件随机场模型 词向量模型
在线阅读 下载PDF
基于边界标记集的专利文献术语抽取方法 被引量:7
5
作者 丁杰 吕学强 刘克会 《计算机工程与科学》 CSCD 北大核心 2015年第8期1591-1598,共8页
目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提... 目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提出了一种基于专利术语边界标记集的术语抽取方法。方法中提出了边界标记集的概念,并结合专利文献中术语边界的特点构建专利术语边界标记集;提出了一种种子术语权重计算方法抽取种子术语;使用人民日报语料作为对比语料抽取专利文献术语部件词库,提高候选术语的术语度;最后采用左右边界熵的方法对识别出的术语进行过滤。实验表明,所提出的方法具有较好的实验结果,正确率81.67%,召回率71.92%,F值0.765,较对比实验有较大提高。 展开更多
关键词 边界标记集 种子术语 部件库 左右边界熵
在线阅读 下载PDF
流式文档排版效果自动化测试方法 被引量:2
6
作者 左阔 李宁 +1 位作者 田英爱 侯霞 《计算机工程与应用》 CSCD 北大核心 2021年第2期273-278,共6页
为提高流式文档格式的标准符合性和兼容性测试效率,面向基于XML的流式文档,提出了一种排版效果自动化测试方法。结合流式文档特点和图像分析技术,通过逆向关联分析和排版格式分析实现对流式文档的排版效果分析,通过统计和层次分析法构... 为提高流式文档格式的标准符合性和兼容性测试效率,面向基于XML的流式文档,提出了一种排版效果自动化测试方法。结合流式文档特点和图像分析技术,通过逆向关联分析和排版格式分析实现对流式文档的排版效果分析,通过统计和层次分析法构建评价模型,对分析结果进行评价,给出量化的测试结果。相比人工测试可以大幅提高测试的自动化程度和准确率,对于文档格式标准的研制以及提高文字处理软件的质量均有重要的作用。 展开更多
关键词 自动化测试 文档格式 标准符合性测试 兼容性测试 版面效果分析
在线阅读 下载PDF
基于查询热度和实体识别的查询推荐 被引量:1
7
作者 任育伟 吕学强 +1 位作者 李卓 徐丽萍 《计算机应用研究》 CSCD 北大核心 2016年第3期657-660,共4页
查询推荐已经成为改善用户搜索体验和提高搜索引擎服务质量的重要方法,提高查询推荐串的质量和用户满意度显得尤为迫切。已有研究方法在相似度计算上忽略了命名实体的重要性和搜索日志整体的信息量度,通过对查询串进行聚类后的热度评估... 查询推荐已经成为改善用户搜索体验和提高搜索引擎服务质量的重要方法,提高查询推荐串的质量和用户满意度显得尤为迫切。已有研究方法在相似度计算上忽略了命名实体的重要性和搜索日志整体的信息量度,通过对查询串进行聚类后的热度评估,提取查询串中的命名实体;然后融合查询串热度信息和命名实体特征到相似度计算公式中,提出了一种新的查询推荐方法。该方法所得结果的满意度平均值均比最新的三种方法的推荐结果值高,表明了该方法的有效性;该方法在相似度计算上利用了识别出的命名实体,同时考虑了推荐串在全局日志中的热度,提高了推荐词的总体质量,但方法局限于提取特征的精确度,有赖于特征进一步的丰富和优化。 展开更多
关键词 聚类 特征提取 热度 命名实体 模板权重 查询推荐
在线阅读 下载PDF
融合多特征的专利功效短语识别 被引量:9
8
作者 罗艺雄 吕学强 游新冬 《中文信息学报》 CSCD 北大核心 2022年第12期139-148,共10页
专利功效短语是专利文本的关键信息,专利功效短语的识别是构建技术功效图的重要一环。针对现有功效短语识别方法精度较低的问题,该文提出融合多特征的专利功效短语识别方法。特征根据粒度大小,分为字符级特征和单词级特征,其中字符级特... 专利功效短语是专利文本的关键信息,专利功效短语的识别是构建技术功效图的重要一环。针对现有功效短语识别方法精度较低的问题,该文提出融合多特征的专利功效短语识别方法。特征根据粒度大小,分为字符级特征和单词级特征,其中字符级特征包括字符、字符拼音和字符五笔,单词级特征为包含当前字符的单词的集合。字符级特征使用Word2Vec或BERT进行向量化,单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量。在嵌入层融合各特征向量并将其输入到BiLSTM或Transformer进行编码,最后使用CRF解码得到对应输入序列的标签序列。该文使用新能源汽车领域的专利作为语料,分析了不同的特征组合和神经网络模型对功效短语识别效果的影响。实验结果表明,最优特征组合为Word2Vec字向量、BERT字向量、五笔特征向量和单词级特征向量。在最优特征组合的基础上,使用BiLSTM+CRF识别专利功效词短语的F_(1)值达到91.15%,识别效果优于现有方法,证明了该方法的有效性。 展开更多
关键词 专利功效短语 多特征融合 神经网络 注意力机制
在线阅读 下载PDF
搜索日志中热点查询的内容抽取 被引量:1
9
作者 任育伟 吕学强 +1 位作者 李卓 徐丽萍 《计算机应用与软件》 CSCD 2015年第12期16-21,共6页
搜索日志中蕴含海量的信息,利用搜索日志进行挖掘以及分析热点查询内容,对于提高搜索服务的质量有很大的价值和意义。在融合K-means聚类中心迭代优点和查询词向量长度信息的基础上,提出SKHC(类K-means层次聚类)方法,并以该方法对搜索日... 搜索日志中蕴含海量的信息,利用搜索日志进行挖掘以及分析热点查询内容,对于提高搜索服务的质量有很大的价值和意义。在融合K-means聚类中心迭代优点和查询词向量长度信息的基础上,提出SKHC(类K-means层次聚类)方法,并以该方法对搜索日志聚类。然后,分析聚类后的查询用户数、查询频次、查询累计时间、查询数、统计量特征与热点查询的关系,提出基于各类热度值进行热点查询内容抽取的方法,同时融合了日志热度值和倒排日志频率统计特征。通过对抽取出的结果进行统计分析,并和日志所在月份发生的热点事件进行相关性比较,发现四川地震和北京奥运月平均热度分别达到最高的0.89和0.81,证明了该方法的有效性。 展开更多
关键词 搜索日志 聚类 热点查询 热度
在线阅读 下载PDF
基于聚类和双向门控循环单元-条件随机场的多类型流式文档结构识别
10
作者 王娟 李宁 +1 位作者 姜雨彤 田英爱 《科学技术与工程》 北大核心 2021年第17期7208-7216,共9页
流式文档结构识别对于文档自动排版和优化、信息检索等领域有着重要作用。以往针对流式文档结构识别主要集中于学术论文领域,对于其他诸如公文、报告等多类型的文档结构识别研究较少。针对此现状,使用聚类的方法对文档进行分类,在此基... 流式文档结构识别对于文档自动排版和优化、信息检索等领域有着重要作用。以往针对流式文档结构识别主要集中于学术论文领域,对于其他诸如公文、报告等多类型的文档结构识别研究较少。针对此现状,使用聚类的方法对文档进行分类,在此基础上提出了针对不同文档分类的、基于双向门控循环单元-条件随机场(bidirectional gated recurrent unit-conditional random field,BIGRU-CRF)的文档结构识别方法,以此来解决多类型文档结构识别的问题。实验结果表明,该方法不仅能够提高学术论文结构识别的效果,对其他类型的文档结构也能够进行较好地识别。 展开更多
关键词 流式文档 结构识别 聚类 多类型文档
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部