-
题名基于改进的TF-IDF文本特征词提取算法研究
被引量:8
- 1
-
-
作者
贾强
冯锡炜
王志峰
朱睿
秦航
-
机构
辽宁石油化工大学计算机与通信工程学院
辽宁省抚顺市望花区教师进修学校
-
出处
《辽宁石油化工大学学报》
CAS
2017年第4期61-64,69,共5页
-
基金
辽宁省教育科学"十三五"规划课题资助项目(JG16DB253)
辽宁石油化工大学教育教学改革研究项目(20165230060003)
-
文摘
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。
-
关键词
TF-IDF
特征词提取
词长
文本预处理
文本分类
-
Keywords
TF-IDF
Keyword extraction
Word length
Text preprocessing
Text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语法模式的评论特征词提取
- 2
-
-
作者
林岚岚
-
机构
广东水利电力职业技术学院
-
出处
《广东水利电力职业技术学院学报》
2014年第4期24-26,63,共4页
-
文摘
评论挖掘是近年来自然语言处理领域研究的热点,为此重点研究评论挖掘技术中的评论特征词提取,采用基于语法模式的抽取方法从中抽取特征词,并采用相似度计算方法去除冗余特征词,用词频统计方法去除低频词,最终生成特征词集。经实验证明,该方法能取得较好的准确率和召回率。
-
关键词
评论挖掘
语法模式
特征词提取
-
Keywords
opinion mining
syntax pattern
feature words extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名北京官话区方言特征词说略
被引量:1
- 3
-
-
作者
李薇薇
-
机构
渤海大学国际交流学院
-
出处
《渤海大学学报(哲学社会科学版)》
2017年第4期83-86,共4页
-
基金
辽宁省教育厅人文社会科学研究一般项目"辽宁方言区特征词研究"(项目编号:W201416)
渤海大学博士启动项目"北京官话区方言特征词研究"(项目编号:0516bs042-01)
辽宁省社科基金项目"移民与东北方言的形成与演化"(项目编号:L15DYY005)的阶段性成果
-
文摘
利用《北京官话区方言特征词词表》(116条)在70个方言点内进行北京官话区方言特征词的调查,对所提取出的14条北京官话区方言特征词进行了释义,并揭示了北京官话区方言特征词在山东方言与河北方言中的地理分布特征。
-
关键词
北京官话区特征词
特征词的提取
特征词释义
地理分布特征
-
分类号
H172.1
[语言文字—汉语]
-
-
题名基于NLP的文本相似度检测方法
被引量:8
- 4
-
-
作者
代晓丽
刘世峰
宫大庆
-
机构
北京交通大学经济管理学院
北京信通传媒有限责任公司
-
出处
《通信学报》
EI
CSCD
北大核心
2021年第10期173-181,共9页
-
基金
国家自然科学基金资助项目(No.J1824031)。
-
文摘
针对当前的文本相似度检测方法忽略文档结构信息、缺乏语义关联性的问题,提出了面向文本的相似度检测方法。首先,采用层次分析法(AHP)计算词语位置权重以提取特征词。其次,引入Pearson相关系数度量词语间的语义关联,并将其作为广义Dice系数的权重计算相似度。实验表明,所提方法在提高特征词提取的精确度、相似度计算结果的准确率方面表现良好。
-
关键词
文本相似度
词语位置权重
层次分析法
特征词提取
Pearson相关系数
-
Keywords
text similarity
word position weight
analytic hierarchy process
feature word extraction
Pearson correlation coefficient
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-