-
题名中文专利文献术语抽取
被引量:10
- 1
-
-
作者
徐川
施水才
房祥
吕学强
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京拓尔思信息技术股份有限公司
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第6期2175-2179,共5页
-
基金
国家自然科学基金项目(61171159)
国家科技支撑计划课题基金项目(2011BAH11B03)
+1 种基金
北京市教委科技发展计划基金项目(KM201110772021
KM201211232023)
-
文摘
为了有效解决专利文献中术语抽取问题,提出采用字符串之间的结合强度融合词性过滤法抽取术语的方法。根据专利文献中术语出现的特点,提出了字符串之间的边界结合度方法和字符串之间的串边结合度方法,度量了字符串间的结合强度。在此基础之上,根据术语内部结构中词性的组成特点,提出了术语双字词性过滤的方法,并与结合强度的计算方法进行融合。实验结果表明,该方法对中文专利术语抽取有很好的效果,平均正确率为80.24%,平均召回率为80.61%。
-
关键词
术语
边界结合度
串边结合度
双字词性过滤法
-
Keywords
terminology extraction
combination degree of boundary-to-boundary of strings
combination degree of string-to- boundary of strings
two character terms filtering
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种面向软件特征定位问题的语义相似度集成方法
被引量:5
- 2
-
-
作者
何云
李彤
王炜
李响
兰微
-
机构
云南大学软件学院
云南省软件工程重点实验室(云南大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第2期394-409,共16页
-
基金
国家自然科学基金项目(61462092
61379032
+3 种基金
61662085)
云南省自然科学基金重点项目(2015FA014)
云南省数据驱动的软件工程创新团队项目(2017HC012)
云南大学研究生科研创新基金项目(YDY17094)~~
-
文摘
特征是软件系统中被需求所定义的可执行功能实体.识别软件特征与源代码间映射关系的过程被称作特征定位.基于信息检索的特征定位方法由于高易用性和低开销等优点,被广泛应于软件维护、代码搜索等领域.所有基于信息检索的特征定位方法均建立在语义相似度计算基础之上,当前语义相似度计算存在2个主要问题:第一,源代码数据中大量噪声信息对相似度计算的干扰;第二,不同索引方法局限性导致的相似度计算结果失准.针对这2个问题,提出了一种面向软件特征定位问题的语义相似度集成方法.该方法在预处理过程引入词性过滤,有效过滤源代码中噪声数据,提升相似性计算的准确度.然后,以源代码数据自身结构特性为依据,集成不同索引方法进行相似度计算.在公开数据集上进行了实验,与现有方法相比,词性过滤和相似度集成在平均排序倒数性能上分别带来了30.88%和10.28%的提升,验证了所提方法的有效性.
-
关键词
特征定位
信息检索
语义相似度
词性过滤
索引方法
集成
-
Keywords
feature location
information retrieval
semantic similarity
POS filtering
index method
integration
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-