-
题名中文专利文献术语抽取
被引量:10
- 1
-
-
作者
徐川
施水才
房祥
吕学强
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京拓尔思信息技术股份有限公司
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第6期2175-2179,共5页
-
基金
国家自然科学基金项目(61171159)
国家科技支撑计划课题基金项目(2011BAH11B03)
+1 种基金
北京市教委科技发展计划基金项目(KM201110772021
KM201211232023)
-
文摘
为了有效解决专利文献中术语抽取问题,提出采用字符串之间的结合强度融合词性过滤法抽取术语的方法。根据专利文献中术语出现的特点,提出了字符串之间的边界结合度方法和字符串之间的串边结合度方法,度量了字符串间的结合强度。在此基础之上,根据术语内部结构中词性的组成特点,提出了术语双字词性过滤的方法,并与结合强度的计算方法进行融合。实验结果表明,该方法对中文专利术语抽取有很好的效果,平均正确率为80.24%,平均召回率为80.61%。
-
关键词
术语
边界结合度
串边结合度
双字词性过滤法
-
Keywords
terminology extraction
combination degree of boundary-to-boundary of strings
combination degree of string-to- boundary of strings
two character terms filtering
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-