期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
1
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
基于Laplacian图谱的短文本聚类算法 被引量:2
2
作者 孟海宁 冯锴 +3 位作者 朱磊 张贝贝 童新宇 黑新宏 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1716-1723,共8页
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用... 提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性. 展开更多
关键词 Laplacian图谱 词频-逆文本频率指数 文本聚类 向量空间模型 数据降维 特征权值
在线阅读 下载PDF
自然语言语义库构建方法研究 被引量:2
3
作者 杨菊英 江兵 罗佳 《重庆理工大学学报(自然科学)》 CAS 北大核心 2019年第10期103-108,共6页
自然语言语义语料库构建是智能云计算环境中实现信息交换的关键步骤,对语义语料库构造技术进行了分析,提出了一种基于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)和字向量距离的新型网页去重复算法,该方法专注... 自然语言语义语料库构建是智能云计算环境中实现信息交换的关键步骤,对语义语料库构造技术进行了分析,提出了一种基于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)和字向量距离的新型网页去重复算法,该方法专注于解决语音识别中的存储问题,为分词和句法分析提供功能支持。该方法可以直接用于语义语料库构建,能提高网页重复数据删除的效率。实验结果表明:该方法能实现云计算平台的语义库构建,且性能优于其他方法,说明了该方法的可行性和有效性。 展开更多
关键词 自然语言 语义库 词频-逆文本频率 字向量距离
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部