期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于SIFT,K-Means和LDA的图像检索算法 被引量:12
1
作者 汪宇雷 毕树生 +1 位作者 孙明磊 蔡月日 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2014年第9期1317-1322,共6页
图像检索一直是信息检索领域的难题.提出了一种基于尺度不变特征变换(SIFT,Scale Invariant Feature Transform),K-Means和潜在狄利克雷分布(LDA,Latent Dirichlet Allocation)的图像检索算法.算法主要分为两个阶段.预备工作得到分类完... 图像检索一直是信息检索领域的难题.提出了一种基于尺度不变特征变换(SIFT,Scale Invariant Feature Transform),K-Means和潜在狄利克雷分布(LDA,Latent Dirichlet Allocation)的图像检索算法.算法主要分为两个阶段.预备工作得到分类完成的图库、概率分配参数表和基本词库;实现检索是在预备工作的基础上归类测试图片,然后在该类下搜索最相似图片.对比传统的基于文本或内容的检索方法,该算法在检索之前将图片库中所有图片按其本身特征进行自动分类,取代人工标注图像信息的过程,同时由于整个算法完全基于图像特征,故此方法不会引入人工因素的干扰.实验结果表明,该算法能够较为准确地将要检索的图片归为图片库对应的类别中,有效地提高图像检索效率. 展开更多
关键词 尺度不变特征变换(SIFT) K-MEANS 潜在狄利克雷分布(lda) 基于内容的图像检索 图像匹配
在线阅读 下载PDF
Stack Overflow上机器学习相关问题的大规模实证研究 被引量:4
2
作者 万志远 陶嘉恒 +4 位作者 梁家坤 才振功 苌程 乔林 周巧妮 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第5期819-828,共10页
为了调查机器学习相关主题分布和发展趋势,从在线问答网站Stack Overflow上,利用过滤标签,从4 178多万帖子中提取出60 028个与机器学习相关的问题帖.通过分析问题帖,统计各个机器学习平台的讨论量,发现Scikit-learn、TensorFlow、Keras... 为了调查机器学习相关主题分布和发展趋势,从在线问答网站Stack Overflow上,利用过滤标签,从4 178多万帖子中提取出60 028个与机器学习相关的问题帖.通过分析问题帖,统计各个机器学习平台的讨论量,发现Scikit-learn、TensorFlow、Keras是前3位频繁被讨论的机器学习平台,占总讨论量的58%.为了进一步分析机器学习相关讨论主题,进行潜在狄利克雷分布(LDA)主题模型训练,提出自适应LDA中的主题数渐进搜索方法,采用主题一致性系数评估输出结果,获得主题最佳数量,从而发现9个讨论主题,分属3个类别:代码相关、模型相关、理论相关.基于主题中问题帖的浏览数、评论数,分析不同主题的流行度和回答困难程度. 展开更多
关键词 实证研究 机器学习 STACK OVERFLOW 潜在狄利克雷分布(lda) 主题一致性
在线阅读 下载PDF
基于层次聚类的子话题检测算法 被引量:11
3
作者 代翔 黄细凤 +4 位作者 唐瑞 蒋梦婷 陈兴蜀 王海舟 罗梁 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第8期84-95,共12页
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对... 使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性. 展开更多
关键词 话题模型 子话题 层次聚类 狄利克雷分布 话题检测
在线阅读 下载PDF
基于词-标签概率的多标签文本分类研究 被引量:3
4
作者 赵宏 郑厚泽 郭岚 《兰州理工大学学报》 CAS 北大核心 2023年第1期103-109,共7页
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM(bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征... 针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM(bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值. 展开更多
关键词 多标签文本分类 卷积神经网络 双向长短期记忆网络 标签的狄利克雷分布
在线阅读 下载PDF
面向共享单车需求预测的多模型可视比较分析 被引量:1
5
作者 张奇奇 饶宁 +2 位作者 朱素佳 查梦 孙国道 《高技术通讯》 CAS 2023年第12期1323-1332,共10页
针对不同的区域如何比较不同的模型并选择最佳模型进行预测以及是否存在普遍适用的最佳预测模型等问题,本文设计了一套面向共享单车需求预测的多模型可视比较分析系统。首先,使用隐含狄利克雷分布(LDA)模型,选择具有代表性的预测区域,... 针对不同的区域如何比较不同的模型并选择最佳模型进行预测以及是否存在普遍适用的最佳预测模型等问题,本文设计了一套面向共享单车需求预测的多模型可视比较分析系统。首先,使用隐含狄利克雷分布(LDA)模型,选择具有代表性的预测区域,并在预测区域之间设计相应的字形,通过字形比较多个模型的预测性能。其次,提出一种计算城市空间区域相似度的新方法area2vec,用于比较相似区域模型预测性能的差异;设计使用网格布局算法,有效地缓解了地图中字形遮挡的问题。最后,通过案例分析和用户调查验证了该系统的有效性和实用性。 展开更多
关键词 需求预测 狄利克雷分布(lda)模型 词嵌入 模型比较 可视分析
在线阅读 下载PDF
浙江省农创客培育政策主题及演变过程分析 被引量:1
6
作者 傅嘉艺 厉海林 +1 位作者 苏飞 曹轶蓉 《浙江农业科学》 2022年第3期632-637,共6页
以2016—2021年浙江省农创客培育政策为研究对象,运用隐合狄利克雷分布(LDA)主题模型,提取和收集政策文本中的潜在语义信息。研究得到高频词汇包括发展、培训、支持、资金等;提取出社会组织协作发展、创业重点项目建设、农业建设经营用... 以2016—2021年浙江省农创客培育政策为研究对象,运用隐合狄利克雷分布(LDA)主题模型,提取和收集政策文本中的潜在语义信息。研究得到高频词汇包括发展、培训、支持、资金等;提取出社会组织协作发展、创业重点项目建设、农业建设经营用地、人员技能组织培训、园区服务平台支持、新型人才队伍建设、创业资金补贴扶助7个主题,各主题在不同时间窗口呈现不同强度;浙江省农创客培育政策侧重于人才培育、资金扶持、技能提升等方面。分析表明浙江省对农创客的政策支持应重点加强资源整合、地域联系与组织协作,推动营造有利于农创客发展的氛围。 展开更多
关键词 农创客 狄利克雷分布(lda) 主题挖掘 政策文本 浙江省
在线阅读 下载PDF
面向工程建设领域的电子投标文件主题识别 被引量:1
7
作者 田云峰 陈晨 +1 位作者 李志杰 朱利刚 《信息技术与信息化》 2022年第8期61-65,共5页
近年来,国家大力发展工程建设领域的招投标采购全流程电子化,以及各地方的贯彻落实,使得全国的招投标效率比传统的线下模式提高了一个档次。但同时也面临着需要处理的投标文件数目庞大、技术含量高导致的专家评标效率低、质量差等问题,... 近年来,国家大力发展工程建设领域的招投标采购全流程电子化,以及各地方的贯彻落实,使得全国的招投标效率比传统的线下模式提高了一个档次。但同时也面临着需要处理的投标文件数目庞大、技术含量高导致的专家评标效率低、质量差等问题,使得有限的专家资源无法充分利用。为了解决这一问题,提出了WL-CNN主题识别模型架构进行投标文件段落级的主题词识别,采用了改进CBOW与LDA模型表征更加丰富的文本信息,融合了TF-IDF算法以及相似度加权算法优化主题词的识别,考虑了局部、次局部以及全局的语义信息,使得专家评标效率大大提高。针对山东高速集团有限公司提供的大规模投标文件数据集进行了实验,结果表明WL-CNN模型优于其余同类模型。 展开更多
关键词 电子招投标 主题识别 WL-CNN 狄利克雷分布(lda) Word2vec TF-IDF
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部