期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
融合TF-IDF和LDA的中文FastText短文本分类方法
被引量:
32
1
作者
冯勇
屈渤浩
+2 位作者
徐红艳
王嵘冰
张永刚
《应用科学学报》
CAS
CSCD
北大核心
2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio...
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率.
展开更多
关键词
中文短
文本
分类
FastText
词频-逆文本频率
词向量
隐含狄利克雷分布
在线阅读
下载PDF
职称材料
基于Laplacian图谱的短文本聚类算法
被引量:
2
2
作者
孟海宁
冯锴
+3 位作者
朱磊
张贝贝
童新宇
黑新宏
《电子学报》
EI
CAS
CSCD
北大核心
2021年第9期1716-1723,共8页
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用...
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性.
展开更多
关键词
Laplacian图谱
词频-逆文本频率
指数
短
文本
聚类
向量空间模型
数据降维
特征权值
在线阅读
下载PDF
职称材料
题名
融合TF-IDF和LDA的中文FastText短文本分类方法
被引量:
32
1
作者
冯勇
屈渤浩
徐红艳
王嵘冰
张永刚
机构
辽宁大学信息学院
吉林大学符号计算与知识工程教育部重点实验室
出处
《应用科学学报》
CAS
CSCD
北大核心
2019年第3期378-388,共11页
基金
国家自然科学基金(No.71771110)
中国博士后科学基金(No.2018M631814)
+1 种基金
辽宁省社会科学规划基金(No.L18AGL007)
符号计算与知识工程教育部重点实验室项目基金(No.93K172018K01)资助
文摘
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率.
关键词
中文短
文本
分类
FastText
词频-逆文本频率
词向量
隐含狄利克雷分布
Keywords
Chinese short text classification
FastText
term frequency
-
inverse document frequency(TF
-
IDF)
word vector
latent Dirichlet allocation(LDA)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于Laplacian图谱的短文本聚类算法
被引量:
2
2
作者
孟海宁
冯锴
朱磊
张贝贝
童新宇
黑新宏
机构
西安理工大学计算机科学与工程学院
陕西省网络计算与安全技术重点实验室
出处
《电子学报》
EI
CAS
CSCD
北大核心
2021年第9期1716-1723,共8页
基金
国家自然科学基金(No.61602375,No.61773313)。
文摘
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性.
关键词
Laplacian图谱
词频-逆文本频率
指数
短
文本
聚类
向量空间模型
数据降维
特征权值
Keywords
laplacian graph
term frequency
-
inverse document frequency
short
-
text clustering
vector space model
data dimensionality reduction
feature weight
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
融合TF-IDF和LDA的中文FastText短文本分类方法
冯勇
屈渤浩
徐红艳
王嵘冰
张永刚
《应用科学学报》
CAS
CSCD
北大核心
2019
32
在线阅读
下载PDF
职称材料
2
基于Laplacian图谱的短文本聚类算法
孟海宁
冯锴
朱磊
张贝贝
童新宇
黑新宏
《电子学报》
EI
CAS
CSCD
北大核心
2021
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部