期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
GITG:面向Gitee平台的issue标题自动生成方法
1
作者 杨君 刘诗凡 +1 位作者 陈翔 崔展齐 《电子学报》 北大核心 2025年第5期1559-1570,共12页
在开源软件和开源平台中,开发人员可以通过提交issue来记录所发现的软件错误或提出新功能需求.由于缺乏经验、专业水平有限等原因,用户可能无法对issue内容进行准确有效地总结,导致issue标题质量较低,进而降低issue的解决效率.此外,现有... 在开源软件和开源平台中,开发人员可以通过提交issue来记录所发现的软件错误或提出新功能需求.由于缺乏经验、专业水平有限等原因,用户可能无法对issue内容进行准确有效地总结,导致issue标题质量较低,进而降低issue的解决效率.此外,现有的issue标题自动生成方法主要面向GitHub等英文开源平台,当应用在Gitee等国产开源平台时表现不佳.同时,现有方法主要使用issue主体描述作为输入,忽略了issue中的代码片段等重要信息.为此,本文提出一种面向Gitee平台的issue标题自动生成方法GITG(Gitee Issue Title Generation),针对包含中文和英文文本的issue,使用构建的Gitee issue数据集对支持中文的预训练模型Chinese BART(Bidirectional and Auto-Regressive Transformers)进行微调,利用issue主体描述和代码片段的双模态信息来自动生成issue标题.为验证GITG的有效性,构建了包含18242个Gitee issue样本的数据集.实验结果表明,GITG在ROUGE-1、ROUGE-2和ROUGE-L指标上相较于iTAPE和iTiger分别至少提升了13.09%、10.18%和12.84%,在BLEU和METEOR指标上同样取得了性能提升.人工评价结果表明,GITG生成标题的平均得分在整体分数、流畅性、信息性和简洁性4个评价指标上相较iTAPE和iTiger分别至少提升了26.7%、20.8%、24.2%和20.0%. 展开更多
关键词 Gitee issue标题 主体描述 代码片段 预训练模型 软件维护
在线阅读 下载PDF
一种结合代码片段和混合主题模型的软件数据聚类方法 被引量:2
2
作者 魏林林 沈国华 +2 位作者 黄志球 蔡梦男 郭菲菲 《计算机科学》 CSCD 北大核心 2024年第6期44-51,共8页
使用主题模型进行文档聚类是众多文本挖掘任务中一种常见的做法。许多研究针对软件问答网站的数据,利用主题模型进行聚类来分析不同领域在社区的发展情况。然而,这些软件相关数据往往包含代码片段且文本长度分布不均,使用传统单一的主... 使用主题模型进行文档聚类是众多文本挖掘任务中一种常见的做法。许多研究针对软件问答网站的数据,利用主题模型进行聚类来分析不同领域在社区的发展情况。然而,这些软件相关数据往往包含代码片段且文本长度分布不均,使用传统单一的主题模型对文本数据建模,易得到不稳定的聚类结果。文中提出了一种结合代码片段和混合主题模型的聚类方法,并使用Stack Overflow作为数据源,构造了在该平台上被提问数量排名前60的Python第三方库数据集,经过建模,该数据集最终划分为以下6个不同的领域:网络安全、数据分析、人工智能、文本处理、软件开发和系统终端。实验结果表明,在自动评估和人工评估的指标上,使用代码片段结合文本进行主题建模,在聚类结果划分的质量上表现良好,而联合多个模型进行实验,一定程度上提高了聚类结果的稳定性和准确性。 展开更多
关键词 代码片段 主题模型 Stack Overflow PYTHON 聚类
在线阅读 下载PDF
基于用户意图识别的查询推荐研究 被引量:14
3
作者 罗成 刘奕群 +3 位作者 张敏 马少平 茹立云 张阔 《中文信息学报》 CSCD 北大核心 2014年第1期64-72,共9页
信息检索的效果很大程度上取决于用户能否输入恰当的查询来描述自身信息需求。很多查询通常简短而模糊,甚至包含噪音。查询推荐技术可以帮助用户提炼查询、准确描述信息需求。为了获得高质量的查询推荐,在大规模"查询-链接"... 信息检索的效果很大程度上取决于用户能否输入恰当的查询来描述自身信息需求。很多查询通常简短而模糊,甚至包含噪音。查询推荐技术可以帮助用户提炼查询、准确描述信息需求。为了获得高质量的查询推荐,在大规模"查询-链接"二部图上采用随机漫步方法产生候选集合。利用摘要点击信息对候选列表进行重排序,使得体现用户意图的查询排在比较高的位置。最终采用基于学习的算法对推荐查询中可能存在的噪声进行过滤。基于真实用户行为数据的实验表明该方法取得了较好的效果。 展开更多
关键词 查询推荐 用户意图挖掘 摘要点击模型
在线阅读 下载PDF
基于结点权重模型的XML片段检索策略 被引量:5
4
作者 刘德喜 万常选 +2 位作者 刘喜平 钟敏娟 江腾蛟 《计算机学报》 EI CSCD 北大核心 2013年第8期1729-1744,共16页
当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的... 当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的片段,用户可以通过该片段判断片段所在的XML文档或结点与查询的真实相关性,以决定是否有必要进一步阅读,从而有效地提高从XML文档中获取信息的效率.该文提出了基于结点权重模型的XML片段检索策略.该策略先利用结点权重模型ATG(平均主题概括强度)对XML文档集中的标签或路径设置权重,再将该权重用于BM25模型,得到BM25NW检索模型.在利用BM25NW检索出XML结点后,对结点中定长窗口进行评分,考察其是否适合作为片段内容.最后在保证信息冗余较小的条件下,选择得分较高的窗口内容组成片段返回给用户.INEX 2011片段检索任务上的评测结果显示,基于结点权重模型ATG的XML片段检索策略具有很强的竞争力,性能明显优于其它参赛系统. 展开更多
关键词 XML片段检索 结点权重模型 平均主题概括强度 窗口
在线阅读 下载PDF
高分辨率多波束声纳系统海底目标物检测技术 被引量:13
5
作者 丁继胜 董立峰 +1 位作者 唐秋华 李杰 《海洋测绘》 2014年第5期62-64,71,共4页
结合近几年出现的高分辨率多波束测深系统的性能特点,通过检测实例,介绍其在海底管道(尤其是裸露管道)检测中的相关技术及及检测成果。结果证实,高分辨率多波束测深系统可以准确检测海底小尺寸目标物,为其新特性的推广应用提供技术参考。
关键词 多波束测深系统 高分辨率 海底管道 水体数据 片段测量
在线阅读 下载PDF
基于滑动窗口的动态摘要算法 被引量:4
6
作者 蔡建山 迟呈英 +1 位作者 战学刚 王丫 《计算机工程》 CAS CSCD 北大核心 2007年第6期213-215,238,共4页
动态摘要是根据查询检索词从文章中动态提取的摘要。用户仅仅浏览动态摘要之后就能了解文章中与查询相关的部分,进而判断是否值得详细阅读整篇文章。该文根据搜索引擎对摘要速度和质量的要求,提出了一种使用滑动窗口抽取片断的算法,接... 动态摘要是根据查询检索词从文章中动态提取的摘要。用户仅仅浏览动态摘要之后就能了解文章中与查询相关的部分,进而判断是否值得详细阅读整篇文章。该文根据搜索引擎对摘要速度和质量的要求,提出了一种使用滑动窗口抽取片断的算法,接着构造了摘要评测模型,使用同一个测试集对新动态摘要算法和Google、百度作对比实验。结果证明使用新方法生成的摘要能够言简意赅地概括文章的相关内容,在摘要指标的分项测试中取得了和Google基本相同的效果,但明显要比百度好,综合评价分别提高了5%和11%。 展开更多
关键词 动态摘要 文本摘要 片断抽取 滑动窗口
在线阅读 下载PDF
基于RDF句子的语义网文档搜索 被引量:4
7
作者 吴鸿汉 瞿裕忠 李慧颖 《计算机研究与发展》 EI CSCD 北大核心 2010年第2期255-263,共9页
语义网文档搜索是发现语义网数据的重要手段.针对传统信息检索方法的不足,提出基于RDF句子的文档词向量构建方法.首先,文档被看作RDF句子的集合,从而在文档分析和索引时能够保留基于RDF句子的结构信息.其次,引入资源的权威描述的定义,... 语义网文档搜索是发现语义网数据的重要手段.针对传统信息检索方法的不足,提出基于RDF句子的文档词向量构建方法.首先,文档被看作RDF句子的集合,从而在文档分析和索引时能够保留基于RDF句子的结构信息.其次,引入资源的权威描述的定义,能够跨越文档边界搜索到语义网中互连的数据.此外,扩展了传统的倒排索引结构,使得系统能够提取出更加便于阅读和理解的片段.在大规模真实数据集上的实验表明,该方法可以显著地提高文档检索的效率,在可用性上具有明显的提升. 展开更多
关键词 语义网 搜索引擎 语义网文档搜索 RDF句子 片段提取
在线阅读 下载PDF
基于网络搜索引擎的网络话题分析框架 被引量:2
8
作者 王巍 曾剑平 +1 位作者 吴承荣 张世永 《计算机工程》 CAS CSCD 北大核心 2009年第3期257-259,262,共4页
为了解网络话题内容组成和演化情况,提出基于有向图的在线分类(OCBDG)方法,并设计一个基于网络搜索引擎的话题分析框架。通过搜索引擎查询话题内容,OCBDG将查询结果分成若干子话题,分析子话题间的关系和演变。结果证明,该方法能够以大约... 为了解网络话题内容组成和演化情况,提出基于有向图的在线分类(OCBDG)方法,并设计一个基于网络搜索引擎的话题分析框架。通过搜索引擎查询话题内容,OCBDG将查询结果分成若干子话题,分析子话题间的关系和演变。结果证明,该方法能够以大约70%的正确率分析出子话题,并能准确、及时地反映话题在网络上任意时间跨度的变化情况。 展开更多
关键词 有向图 分类 网络搜索引擎 网页摘要 快照
在线阅读 下载PDF
基于Word2Vec模型特征扩展的Web搜索结果聚类性能的改进 被引量:5
9
作者 杨楠 李亚平 《计算机应用》 CSCD 北大核心 2019年第6期1701-1706,共6页
对于用户泛化和模糊的查询,将Web搜索引擎返回的列表内容聚类处理,便于用户有效查找感兴趣的内容。由于返回的列表由称为片段(snippet)的短文本组成,而传统的单词频率-逆文档频率(TF-IDF)特征选择模型不能适用于稀疏的短文本,使得聚类... 对于用户泛化和模糊的查询,将Web搜索引擎返回的列表内容聚类处理,便于用户有效查找感兴趣的内容。由于返回的列表由称为片段(snippet)的短文本组成,而传统的单词频率-逆文档频率(TF-IDF)特征选择模型不能适用于稀疏的短文本,使得聚类性能下降。一个有效的方法就是通过一个外部的知识库对短文本进行扩展。受到基于神经网络词表示方法的启发,提出了通过词嵌入技术的Word2Vec模型对短文本扩展,即采用Word2Vec模型的TopN个最相似的单词用于对片段(snippet)的扩展,扩展文档使得TF-IDF模型特征选择得到聚类性能的提高。同时考虑到通用性单词造成的噪声引入,对扩展文档的TF-IDF矩阵进行了词频权重修正。实验在两个公开数据集ODP239和SearchSnippets上完成,将所提方法和纯snippet无扩展的方法、基于Wordnet的特征扩展方法和基于Wikipedia的特征扩展方法进行了对比。实验结果表明,所提方法在聚类性能方面优于对比方法。 展开更多
关键词 特征扩展 片段 词嵌入技术 搜索结果聚类
在线阅读 下载PDF
金线蛙种群年龄划分方法研究 被引量:3
10
作者 高维平 韩曜平 《四川动物》 CSCD 2004年第1期3-7,共5页
本文通过对 315号金线蛙标本 ,利用体长数理统计法、椎骨面轮带法、骨骼切片法 3种方法对金线蛙种群年龄进行划分 ,分析讨论 3种不同方法的结论 ,阐明 3种方法的优缺点 ,并对金线蛙种群结构进行了分析 ,提出了一些有意义的观点。
关键词 金线蛙 种群 年龄 体长 年轮 椎骨 切片
在线阅读 下载PDF
Web检索结果快速聚类方法的研究与实现 被引量:2
11
作者 王志梅 张俊林 李秋山 《计算机工程与设计》 CSCD 2004年第12期2231-2233,2290,共4页
为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,在对聚类过程研究分析的基础上给出了一种Web检索结果快速聚类方法。它通过分析聚类过程,从建立索引模型、相似性的计算到聚类结果的形成等环节,都做了分析和简... 为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,在对聚类过程研究分析的基础上给出了一种Web检索结果快速聚类方法。它通过分析聚类过程,从建立索引模型、相似性的计算到聚类结果的形成等环节,都做了分析和简化,并利用检索结果的标题、Url以及文档片断3部分所含信息计算返回结果之间的相似度,将首先返回的部分检索结果利用无向图映射法进行部分聚类后,将其余返回结果分配到与之最相近的集簇中最终形成聚类结果。该方法实现简单。实验证明该方法响应速度快,聚类相关性较高,空间占用少。 展开更多
关键词 聚类方法 文档 WEB检索 相似度 搜索引擎 快速 集簇 检索结果 标题 环节
在线阅读 下载PDF
基于代码片段复用的安卓应用组装技术研究 被引量:2
12
作者 朱亚迪 吴毅坚 赵文耘 《计算机应用与软件》 CSCD 2016年第11期164-168,共5页
安卓系统的开放性和安卓应用开发的较低的技术门槛,吸引了大量开发者加入到安卓应用开发阵营中来。在编码过程中,开发者需要兼顾界面设计和业务逻辑,并手工维护他们的一致性;相似的界面、类似的逻辑也需要开发者手工进行"复制-粘贴... 安卓系统的开放性和安卓应用开发的较低的技术门槛,吸引了大量开发者加入到安卓应用开发阵营中来。在编码过程中,开发者需要兼顾界面设计和业务逻辑,并手工维护他们的一致性;相似的界面、类似的逻辑也需要开发者手工进行"复制-粘贴"式的开发。提出安卓应用界面和业务逻辑的结构模型,以统一的方式描述安卓应用的界面元素、业务逻辑以及两者的关联,支持将安卓应用的界面代码和业务逻辑代码对应起来。提出可配置的安卓应用结构化描述和组装方法,使得开发人员可以以书写配置文件的方式从业务层面描述应用,并支持界面和业务逻辑代码片段的组装,从而快速构建符合需求的安卓应用。设计了安卓应用开发实验来验证所提方法及技术的有效性。 展开更多
关键词 安卓应用 结构模型 代码片段 复用
在线阅读 下载PDF
基于序列到序列模型的代码片段推荐 被引量:4
13
作者 闫鑫 周宇 黄志球 《计算机科学与探索》 CSCD 北大核心 2020年第5期731-739,共9页
在软件开发过程中,开发者经常会以复用代码的方式,提高软件开发效率。已有的研究通常采用传统的信息检索技术来实现代码推荐。这些方法存在自然语言查询的高层级的意图与代码的低层级的实现细节不匹配的问题。提出了一种基于序列到序列... 在软件开发过程中,开发者经常会以复用代码的方式,提高软件开发效率。已有的研究通常采用传统的信息检索技术来实现代码推荐。这些方法存在自然语言查询的高层级的意图与代码的低层级的实现细节不匹配的问题。提出了一种基于序列到序列模型的代码片段推荐方法DeepCR。该方法结合程序静态分析技术与序列到序列模型,训练自然语言查询生成模型,为代码片段生成查询,通过计算生成的查询和开发者输入的自然语言查询的相似度得分来实现代码片段推荐。所构建的代码库的数据来源于Stack Overflow问答网站,确保了数据的真实性。通过计算代码片段推荐结果的平均倒数排名(MRR)和Hit@K来验证方法的有效性。实验结果表明,DeepCR优于现有研究工作,能够有效提高代码片段推荐效果。 展开更多
关键词 程序静态分析 序列到序列模型 代码片段推荐
在线阅读 下载PDF
文档检索中文本片段化机制的研究 被引量:4
14
作者 李宇 刘波 《计算机科学与探索》 CSCD 北大核心 2020年第4期578-589,共12页
文档检索是自然语言处理的研究热点,相对于短文本文档具有信息丰富且冗长的特征。在长文本检索中,查询语句与长文本中的句子往往不是全部相关,可能会出现某些高相似片段的强干扰,因此查询语句与文档之间的相关性评分不能简单采用基于词... 文档检索是自然语言处理的研究热点,相对于短文本文档具有信息丰富且冗长的特征。在长文本检索中,查询语句与长文本中的句子往往不是全部相关,可能会出现某些高相似片段的强干扰,因此查询语句与文档之间的相关性评分不能简单采用基于词语或字符串之间的相似度计算。提出了一种文本片段化机制(TSM)进行文档检索,首先将每个候选文档划分成片段,再计算查询语句与文档片段之间的相关度,所使用的相关度匹配方案考虑了语义和词频等因素,筛选出关键的文本片段并得出相关片段比率,综合这些片段信息计算查询与文档之间的相关性得分,从而获取Top-K文档集。针对Glasgow信息检索专用数据集的实验结果表明,利用文本片段化机制进行文本匹配可以提高信息检索的性能。 展开更多
关键词 文本片段化机制 文档检索 相关性评分 相关片段比例 片段整合计算
在线阅读 下载PDF
软件开发问答网站代码片段自动分类方法研究 被引量:1
15
作者 谢文凯 彭鑫 赵文耘 《计算机应用与软件》 北大核心 2021年第8期1-6,共6页
诸如Stack Overflow这种软件开发问答网站已成为开发者在编程中寻找问题解决方案的主要手段,它们通过众包的方式为开发者提供解决方案和代码片段作为参考。自动识别代码片段的用途将为软件开发问答网站的知识抽取提供支持。通过对Stack ... 诸如Stack Overflow这种软件开发问答网站已成为开发者在编程中寻找问题解决方案的主要手段,它们通过众包的方式为开发者提供解决方案和代码片段作为参考。自动识别代码片段的用途将为软件开发问答网站的知识抽取提供支持。通过对Stack Overflow上的问题及代码片段进行研究,总结出4种问题类型和8种代码片段类型。在此基础上,实现基于朴素贝叶斯的自动分类方法。实验表明,8个类型代码片段的分类准确率都在50%以上,整体准确率达到70%以上。 展开更多
关键词 软件开发问答网站 代码片段 经验研究 分类 机器学习
在线阅读 下载PDF
搜索引擎结果展示效果自动评价方法 被引量:1
16
作者 张辉 马少平 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第6期1378-1383,共6页
根据用户调查结果,提出包括视觉力、信息力、有效力这3个维度15个因素的搜索结果展示效果评估体系,并自动评估传统的文本结果展示效果。实验结果表明:该方法能够与人工测评和用户受控实验取得一致的评价效果,大大减少评价所需的人力资源... 根据用户调查结果,提出包括视觉力、信息力、有效力这3个维度15个因素的搜索结果展示效果评估体系,并自动评估传统的文本结果展示效果。实验结果表明:该方法能够与人工测评和用户受控实验取得一致的评价效果,大大减少评价所需的人力资源,缩短评价反馈周期。 展开更多
关键词 搜索引擎结果页面 搜索结果 展示效果 自动评价
在线阅读 下载PDF
基于Web的重复属性自动识别方法
17
作者 胡嘉琪 陈群 +3 位作者 刘海龙 杜晶 徐曜 李战怀 《计算机工程与应用》 CSCD 北大核心 2015年第9期125-128,共4页
在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。... 在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。 展开更多
关键词 重复属性识别 WEB搜索 摘要 查询探针
在线阅读 下载PDF
基于Cover级别的中文信息检索技术的研究
18
作者 包刚 关毅 +1 位作者 王强 赵健 《计算机工程与应用》 CSCD 北大核心 2005年第25期165-167,196,共4页
信息检索系统如果能较精确地定位于文章中用户关心的部分必将提高用户的检索效率。基于Cover级别的检索策略就是针对上述问题提出的。基于Cover级别的检索策略以用户查询的关键词集合作为输入,在被检索文档中找到包含关键词集合的最短... 信息检索系统如果能较精确地定位于文章中用户关心的部分必将提高用户的检索效率。基于Cover级别的检索策略就是针对上述问题提出的。基于Cover级别的检索策略以用户查询的关键词集合作为输入,在被检索文档中找到包含关键词集合的最短文本片断集作为输出。文章采用了一种经过改进的基于Cover级别的检索策略,对系统返回的文本片断作了限制,并在检索过程中使用了贪心算法(Greedy Algorithm)的思想,最后将其应用到中文信息检索系统中。实验证明,采用改进的策略比原有的基于Cover级别的检索策略在返回有效结果个数和平均排序倒数(MRR)等指标上都有了提高。 展开更多
关键词 基于Cover的检索 贪心算法 最短文本片断
在线阅读 下载PDF
融合知识的小片段代码相似性比较模型
19
作者 夏冰 周鑫 +2 位作者 庞建民 岳峰 单征 《计算机工程与设计》 北大核心 2023年第8期2360-2366,共7页
二进制小片段代码指令序列较短,基本块逻辑调用图结构简单,有限语义信息影响代码相似性比较结果,为此提出一种融合知识表示学习的二进制代码小片段相似性比较模型(BSM)。分别提取小片段代码的函数知识和函数代码,利用注意力机制和双向... 二进制小片段代码指令序列较短,基本块逻辑调用图结构简单,有限语义信息影响代码相似性比较结果,为此提出一种融合知识表示学习的二进制代码小片段相似性比较模型(BSM)。分别提取小片段代码的函数知识和函数代码,利用注意力机制和双向长短记忆得到知识嵌入,使用序列学习模型或图神经网络得到函数嵌入,融合知识嵌入和函数嵌入作为小片段代码向量表示。实验结果表明,BSM模型在跨平台比较上优于其它对比模型,说明模型能提升小片段代码比较的准确度。 展开更多
关键词 二进制代码 跨平台 小片段比较 神经网络 自然语言处理 知识表示学习 代码表示学习
在线阅读 下载PDF
搜索引擎动态摘要算法
20
作者 树柏涵 闫宏飞 《郑州大学学报(理学版)》 CAS 北大核心 2009年第2期56-59,共4页
搜索引擎摘要的选取原则、算法规则一直没有明确的框架或算法,以形成用户查询为中心的动态摘要为出发点,给出了动态摘要算法实现的形式化原则,并具体实现了一种动态摘要算法.与百度搜索引擎的动态摘要相比较,实验结果表明,算法一致性比... 搜索引擎摘要的选取原则、算法规则一直没有明确的框架或算法,以形成用户查询为中心的动态摘要为出发点,给出了动态摘要算法实现的形式化原则,并具体实现了一种动态摘要算法.与百度搜索引擎的动态摘要相比较,实验结果表明,算法一致性比百度搜索引擎的一致性高出6%. 展开更多
关键词 动态摘要 相关性 查询词
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部