期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于概率主题的物品万维网资源管理机制 被引量:1
1
作者 李养群 《计算机应用与软件》 北大核心 2024年第8期84-91,共8页
针对物品万维网(WoT)资源管理复杂度高、效率低的问题,提出一种基于概率主题模型的WoT资源智能化管理机制。从资源描述中自动提取主题信息;利用分类算法对该主题进行分类;根据分类结果将资源发布在WoT网关构建的P2P网络中。仿真实验表明... 针对物品万维网(WoT)资源管理复杂度高、效率低的问题,提出一种基于概率主题模型的WoT资源智能化管理机制。从资源描述中自动提取主题信息;利用分类算法对该主题进行分类;根据分类结果将资源发布在WoT网关构建的P2P网络中。仿真实验表明,该方法与基于文本及语义的方法相比,具有较高的管理效率以及准确率,同时,基于相同主题的资源分布式存储也提高了应用的可用性。最后,给出一个WoT资源优化管理的实例分析。 展开更多
关键词 物品万维网 智能化资源管理 概率主题模型 资源发现 机器学习
在线阅读 下载PDF
一种基于概率主题模型的命名实体链接方法 被引量:32
2
作者 怀宝兴 宝腾飞 +1 位作者 祝恒书 刘淇 《软件学报》 EI CSCD 北大核心 2014年第9期2076-2087,共12页
命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数... 命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求.考虑到文档中的词和实体往往具有不同的语义主题(如"苹果"既能表示水果又可以是某电子品牌),而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想.基于此设计一种完整的、基于概率主题模型的命名实体链接方法.首先,利用维基百科(Wikipedia)构建知识库;然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体;最后,在真实的数据集上进行大量实验,并与标准方法进行对比.实验结果表明:所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度. 展开更多
关键词 命名实体链接 概率主题模型 维基百科
在线阅读 下载PDF
改进Corr-LDA的图像标注概率主题模型 被引量:4
3
作者 曹洁 罗菊香 李晓旭 《小型微型计算机系统》 CSCD 北大核心 2017年第3期615-619,共5页
对标有文本词的图像数据进行调研,发现真实图像中被标注的事物往往占整个画面的部分较大,而现有的图像标注工作没有考虑这一信息,本文基于此,在Corr-LDA的基础上提出一种文本主题选择是依照图像主题分布的图像标注概率主题模型.同时,为... 对标有文本词的图像数据进行调研,发现真实图像中被标注的事物往往占整个画面的部分较大,而现有的图像标注工作没有考虑这一信息,本文基于此,在Corr-LDA的基础上提出一种文本主题选择是依照图像主题分布的图像标注概率主题模型.同时,为该模型推导了一个基于变分EM的参数估计算法,并给出使用该模型标注图像的方法.在Label Me和UIUC-Sport两个真实数据集上验证了提出模型的标注性能要高于其它相比较模型. 展开更多
关键词 图像标注 概率主题模型 变分EM Corr-LDA模型
在线阅读 下载PDF
文本分类中基于概率主题模型的噪声处理方法 被引量:9
4
作者 林洋港 陈恩红 《计算机工程与科学》 CSCD 北大核心 2010年第7期89-92,119,共5页
训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集... 训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响。这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍能保持较好的分类结果。 展开更多
关键词 噪声数据 文本分类 概率主题模型 类别熵
在线阅读 下载PDF
基于概率主题模型的京津冀协同发展研究主题演化分析 被引量:8
5
作者 赵杰 李海峰 李纯果 《科学技术与工程》 北大核心 2019年第36期225-234,共10页
京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为... 京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为指标确定最优主题数,结合文献发表时间挖掘期刊论文潜在主题,从主题强度和主题相似度等多个角度分析主题演化趋势。通过数据分析,挖掘10个潜在主题,生成主题强度年度变化趋势,构建主题内容演化路径,分析主题演化规律。以期为深刻认识京津冀协同发展和科学决策提供理论依据。 展开更多
关键词 京津冀协同发展 概率主题模型 主题提取 主题演化
在线阅读 下载PDF
基于概率主题模型的文献知识挖掘 被引量:26
6
作者 王萍 《情报学报》 CSSCI 北大核心 2011年第6期583-590,共8页
对海量的科技文献资源进行知识挖掘能够发现大量有价值的、潜在的知识,有效地提高文献信息的可用性。作者前期研究验证了使用LDA主题模型进行文献知识挖掘的可行性。本文提出了一种新的概率主题模型:Topic-Author模型,该模型对文献的... 对海量的科技文献资源进行知识挖掘能够发现大量有价值的、潜在的知识,有效地提高文献信息的可用性。作者前期研究验证了使用LDA主题模型进行文献知识挖掘的可行性。本文提出了一种新的概率主题模型:Topic-Author模型,该模型对文献的文本信息和作者信息进行联合建模,在分析文献主题同时,发现相关主题方向的研究者分布。基于Topic-Author模型,提出了多维度文献知识挖掘的方法,包括主题挖掘,专家发现,文献标注,重要文献挖掘,文献相似度分析,研究趋势分析和主题关系挖掘。基于教育技术学文献数据集,进行了实验研究。 展开更多
关键词 概率主题模型 Topic-Author模型 文献 文献知识挖掘
在线阅读 下载PDF
一种基于概率主题模型的恶意代码特征提取方法 被引量:14
7
作者 刘亚姝 王志海 +1 位作者 侯跃然 严寒冰 《计算机研究与发展》 EI CSCD 北大核心 2019年第11期2339-2348,共10页
在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意... 在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意代码检测构成了巨大挑战.提出了一种无监督的恶意代码识别方法,通过分析反汇编PE文件给出汇编指令标准化规则,结合潜在狄立克雷分布(latent Dirichlet allocation,LDA)获得汇编指令中潜在的“文档主题”、“主题词”的分布.再以“主题分布”构造恶意样本特征,产生一个全新的恶意代码检测框架.结合“困惑度”和变化的步长给出了最优“主题”数目的快速评价和自动确定方法,解决了LDA模型中主题数目需要预先指定的问题.同时解析了“文档主题”、“主题词”聚集结果的语义可解释性,说明了该方法获得的样本特征具有潜在的语义.实验结果表明:与其他方法相比该方法具有相当的或更好的恶意代码鉴别能力,同时能够准确地识别恶意代码的新变体. 展开更多
关键词 恶意代码检测 狄立克雷分布 概率主题模型 困惑度 Gibbs
在线阅读 下载PDF
基于概率主题的文本层次分类(英文) 被引量:2
8
作者 权小军 林洋港 +1 位作者 罗奇鸣 陈恩红 《中国科学技术大学学报》 CAS CSCD 北大核心 2009年第8期875-879,共5页
概率主题模型是一种统计生成模型,它从文档集合中抽取一系列主题,并将这些文档表示为不同主题依照一定概率混合而成.通过这种模型发现的主题,能揭示文档的语义信息,在很多领域都有着广泛的应用.为此基于概率主题模型,提出了一种新的层... 概率主题模型是一种统计生成模型,它从文档集合中抽取一系列主题,并将这些文档表示为不同主题依照一定概率混合而成.通过这种模型发现的主题,能揭示文档的语义信息,在很多领域都有着广泛的应用.为此基于概率主题模型,提出了一种新的层次文本分类方法.该方法首先利用Gibbs抽样提取一系列主题,然后计算测试文档和每个类的基于主题的相似度.在20 News Groups数据集上的实验结果表明,该方法的分类性能明显超越支持向量机分类方法. 展开更多
关键词 层次分类 概率主题模型 GIBBS抽样
在线阅读 下载PDF
基于概率主题模型的景点知识挖掘及其可视化 被引量:2
9
作者 徐洁 范玉顺 白冰 《计算机应用》 CSCD 北大核心 2016年第8期2103-2108,共6页
针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点-主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入"全局景点"过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目... 针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点-主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入"全局景点"过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目的地景点的主题分布。实验通过对景点主题特征进行聚类,评估聚类效果从而间接评价模型训练效果,并定性分析"全局景点"对模型的作用。实验结果表明,该模型对旅游文本的建模效果优于基准算法TF-IDF与隐含狄利克雷分布(LDA),且"全局景点"的引入对建模效果有明显的改善作用。最后通过景点关联图的方式对实验结果进行可视化展示。 展开更多
关键词 概率主题模型 旅游文本 噪声 GIBBS采样 可视化
在线阅读 下载PDF
利用概率主题模型的遥感影像半监督分类 被引量:2
10
作者 易文斌 冒亚明 慎利 《计算机工程与应用》 CSCD 2013年第10期1-4,31,共5页
土地覆盖是自然环境与人类活动相互作用的中心,而土地覆盖信息主要是通过遥感影像分类来获取,因此影像分类是遥感影像分析的最基本问题之一。在参考基于概率主题模型的高分辨率遥感影像聚类分析的基础上,通过半监督学习最典型的生成模... 土地覆盖是自然环境与人类活动相互作用的中心,而土地覆盖信息主要是通过遥感影像分类来获取,因此影像分类是遥感影像分析的最基本问题之一。在参考基于概率主题模型的高分辨率遥感影像聚类分析的基础上,通过半监督学习最典型的生成模型方法引出了基于概率主题模型的半监督分类(SS-LDA)算法。借鉴SS-LDA模型在文本识别应用的流程,构建了基于SS-LDA算法的高分辨率遥感影像分类的基本流程。通过实验证明,相对于传统的非监督分类与监督分类算法,SS-LDA算法能够获取较高精度的影像分类结果。 展开更多
关键词 概率主题模型 高分辨率影像 半监督模型 影像分类
在线阅读 下载PDF
基于PAM概率主题模型的赌博网站检测方法 被引量:5
11
作者 李国静 尹天阳 张兴睿 《计算机应用与软件》 北大核心 2021年第9期167-172,共6页
鉴于传统方法在赌博网站检测上时效性低、准确度低,提出基于PAM概率主题模型的赌博网站检测方法。抽取网站及其关联网页的文本内容,并参考网站的结构化信息给不同的文本内容赋予不同的权重;利用PAM模型对网页文本信息进行主题挖掘,分析... 鉴于传统方法在赌博网站检测上时效性低、准确度低,提出基于PAM概率主题模型的赌博网站检测方法。抽取网站及其关联网页的文本内容,并参考网站的结构化信息给不同的文本内容赋予不同的权重;利用PAM模型对网页文本信息进行主题挖掘,分析其是否大概率倾向于“赌博”主题;综合计算所抽取的各个网页的主题信息,判断该网站是否属于赌博网站,从而实现对赌博网站的有效检测。通过实验分析,该方法在赌博网站检测上的准确度达到72.3%。 展开更多
关键词 概率主题模型 PAM 赌博网络检测 网络安全
在线阅读 下载PDF
基于隐藏主题概率模型的图像结构感知SISR重建方法
12
作者 马丽红 王小娥 +1 位作者 田菁 张宇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第4期1-9,共9页
在基于示例学习的单幅图像超分辨率(SISR)重建中,假设从低分辨率(LR)到高分辨率(HR)图像块的映射关系是一对一的,但同一LR块会与多个HR块对应,导致了LR与HR块的匹配误差.为解决HR复原块的失配问题,文中首先导出了LR块主题模式的概率模型... 在基于示例学习的单幅图像超分辨率(SISR)重建中,假设从低分辨率(LR)到高分辨率(HR)图像块的映射关系是一对一的,但同一LR块会与多个HR块对应,导致了LR与HR块的匹配误差.为解决HR复原块的失配问题,文中首先导出了LR块主题模式的概率模型,引入信号的隐藏主题这一种新的观察信息.然后提出了一种基于块主题差异和上下文最大概率的结构感知复原机制,通过主题模式与邻域块内容的关联,形成LR块的流形描述;在重构中通过自适应主题决策树选择和节点回归矩阵映射,从相似的LR流形信号中准确区分和复原HR信号.主题模型优化实验结果表明,文中基于主题约束信息的算法比未引入隐藏主题的决策树SISR方法的峰值信噪比(PSNR)值提升了0.25 dB;在5种算法的对比实验中,相对于稀疏字典SISR方法,文中方法的PSNR值平均提升了0.92 dB,表明引入隐藏的主题信息和主题流形结构辨识是可行的. 展开更多
关键词 超分辨率重建 主题概率模型 结构感知 流形约束 节点回归映射
在线阅读 下载PDF
社会网络下的基于主题概率的影响从众性模型和分析 被引量:1
13
作者 万路康 章倩雯 谢瑾奎 《小型微型计算机系统》 CSCD 北大核心 2017年第2期277-281,共5页
在社会网络中,量化分析用户影响力及用户之间的影响关系已经变得越来越有必要,对精度的要求也越来越高.网络模型构建的好坏,模型预测用户行为的好坏对商业营销、社会影响最大化等应用都有着至关重要的意义.如何从不同方面量化社会影响力... 在社会网络中,量化分析用户影响力及用户之间的影响关系已经变得越来越有必要,对精度的要求也越来越高.网络模型构建的好坏,模型预测用户行为的好坏对商业营销、社会影响最大化等应用都有着至关重要的意义.如何从不同方面量化社会影响力?如何量化不同方面下的用户之间的影响力强弱?如何在社会网络中构造这样一个模型?为了解决这些问题,提出一个基于主题概率的从众性模型(Topical Conformity Model,简称TCM),模型从主题层对社会网络进行建模,考虑不同主题概率下的用户影响力以及用户之间的影响关系.将该模型应用在学术网络中的用户关键词预测上,并与前人的方法进行实验对比,各项预测指标都有一定的提升,其中AUC值提高了4.3%,验证了本文提出的模型对于用户行为预测的有效性.此外,本文的工作还解决了如下两个问题:1、寻找某个主题下最可能选择某行为的用户;2、寻找某个用户选择某个行为受影响最大的主题. 展开更多
关键词 社会网络 影响从众性 主题概率 机器学习
在线阅读 下载PDF
数字化公共服务何以降本增效:基于消费诉求的实证研究
14
作者 曹海军 许子贤 《新视野》 北大核心 2025年第3期66-76,共11页
公共服务数字化转型是新时代政府治理体系效能提升的重要驱动力。如何实现数字化公共服务降本增效?理论层面需突破单一时间成本局限,对服务过程中不同的必要执行成本、关注成本、行政成本等进行系统分析。实证层面通过LDA概率主题模型,... 公共服务数字化转型是新时代政府治理体系效能提升的重要驱动力。如何实现数字化公共服务降本增效?理论层面需突破单一时间成本局限,对服务过程中不同的必要执行成本、关注成本、行政成本等进行系统分析。实证层面通过LDA概率主题模型,挖掘S市政务服务热线中消费维权的诉求数据,分析诉求处理过程的关键要素,量化公共服务成本对效率的影响。研究表明,必要执行成本、维权关注成本和行政成本对公共服务效率均具有负向影响,精准削减三类成本能够有效提升公共服务的效率。 展开更多
关键词 数字化公共服务 成本效率 LDA概率主题模型 消费维权
在线阅读 下载PDF
基于主题的文本句情感分析 被引量:8
15
作者 王磊 苗夺谦 +1 位作者 张志飞 余鹰 《计算机科学》 CSCD 北大核心 2014年第3期32-35,共4页
近年来,针对互联网在线信息的情感分析已经成为自然语言处理领域的一个研究热点。提出一个基于主题的情感向量空间模型,它将文本的潜在主题特征融入情感模型中,结合情感词典,利用多标签分类算法,对文本中句的情感极性进行分析与研究。... 近年来,针对互联网在线信息的情感分析已经成为自然语言处理领域的一个研究热点。提出一个基于主题的情感向量空间模型,它将文本的潜在主题特征融入情感模型中,结合情感词典,利用多标签分类算法,对文本中句的情感极性进行分析与研究。实验结果表明,基于主题的情感向量空间模型在句的情感极性判断上取得了令人满意的效果。 展开更多
关键词 情感词典 概率主题 多标签分类 情感分析
在线阅读 下载PDF
基于词对主题模型的中分辨率遥感影像土地利用分类 被引量:4
16
作者 邵华 李杨 +1 位作者 丁远 刘凤臣 《农业工程学报》 EI CAS CSCD 北大核心 2016年第22期259-265,共7页
利用遥感影像数据进行土地利用/覆被分类是多学科共同关注的热点问题,但传统自动分类方法仍然难以满足应用需求,以隐狄利克雷分配模型(latent dirichlet allocation,LDA)为代表的概率主题模型能够建立底层特征和高层语义之间的桥梁,近... 利用遥感影像数据进行土地利用/覆被分类是多学科共同关注的热点问题,但传统自动分类方法仍然难以满足应用需求,以隐狄利克雷分配模型(latent dirichlet allocation,LDA)为代表的概率主题模型能够建立底层特征和高层语义之间的桥梁,近年来也被引入了遥感影像分析领域,但多集中于针对高空间分辨遥感影像的分析。该文分析了一般概率主题模型在遥感影像空间分辨率降低后面临的问题,在此基础上借鉴词对主题模型(biterm topic model,BTM)对单词稀疏文档的推理能力,将其引入中空间分辨率遥感影像的分类中,并提出使用空间相邻的视觉单词对作为模型的观测数据。试验结果表明,BTM模型的分类性能优于LDA模型,并且使用空间相邻视觉单词对可以比标准BTM模型使用更少的观测数据,取得更高的分类精度。 展开更多
关键词 土地利用 遥感 模型 概率主题模型 中空间分辨率 遥感影像分类 词对主题模型
在线阅读 下载PDF
基于主题模型的位置感知订阅发布系统 被引量:3
17
作者 鲜学丰 崔志明 +2 位作者 赵朋朋 刘昭斌 顾才东 《计算机科学》 CSCD 北大核心 2018年第3期165-170,共6页
随着移动互联网的迅速发展和智能手机的普及,基于位置感知的订阅发布系统在工业界和学术界引起了广泛重视。现有系统主要处理海量空间数据下订阅与事件的查询匹配问题,其匹配模型主要是基于空间关键字之间的相似性,鲜有研究考虑语义相... 随着移动互联网的迅速发展和智能手机的普及,基于位置感知的订阅发布系统在工业界和学术界引起了广泛重视。现有系统主要处理海量空间数据下订阅与事件的查询匹配问题,其匹配模型主要是基于空间关键字之间的相似性,鲜有研究考虑语义相关性。为了探索并实现订阅发布系统在语义上的查询与匹配,提出了一种基于主题模型的位置感知订阅发布系统。首先,该系统利用主题模型对订阅发布系统中的关键字进行主题映射。然后,设计了一种两步分区索引结构RP^(TM)-trees,并使用该索引结构为订阅的主题集合和空间信息建立索引。RP^(TM)-trees根据主题集合的主题个数及关键主题对订阅进行两步分区索引,使其对订阅的分区能力更强,从而显著提升查询匹配的效率。最后,在高流速的事件流、千万级订阅数据集上进行了实验,实验结果表明所提方案是稳定和高效的。 展开更多
关键词 订阅/发布 概率主题模型 主题映射 索引
在线阅读 下载PDF
《中国安全科学学报》载文特点及研究主题变化分析 被引量:14
18
作者 佟瑞鹏 梁明添 李春旭 《中国安全科学学报》 CAS CSCD 北大核心 2016年第1期8-14,共7页
为了解《中国安全科学学报》所刊载论文的特点及其研究主题变化趋势,基于中国知网,统计安全科学领域中10种主要期刊近5年的论文数据,利用Cite Space软件对比分析各期刊载文的关键词;采用概率主题模型对《学报》近10年的3 268篇论文进行... 为了解《中国安全科学学报》所刊载论文的特点及其研究主题变化趋势,基于中国知网,统计安全科学领域中10种主要期刊近5年的论文数据,利用Cite Space软件对比分析各期刊载文的关键词;采用概率主题模型对《学报》近10年的3 268篇论文进行主题分类分析。结果表明:《学报》与安全领域其他期刊相比,在体现学术研究热点及趋势方面有较好的同步性,且能从侧面反映该领域的主流研究进展;得到的19个主题中,安全管理、理论及工程方法研究、工程建设及结构设计、系统安全、事故预防与应急救援和道路交通6个主题包涵的论文数量相对较多,而危险化学品、电力装备、铁路安全、职业健康防护、矿井通风和管道泄漏6个主题的论文数量相对较少。 展开更多
关键词 《中国安全科学学报》(CSSJ) 知识图谱 概率主题模型 主题分类 统计分析
在线阅读 下载PDF
基于受限玻尔兹曼机的分布式主题特征提取 被引量:5
19
作者 江雨燕 桂伟 《计算机工程与应用》 CSCD 北大核心 2017年第23期108-112,共5页
随着大数据时代的来临,如何有效从海量的文本数据中挖掘和分析主题特征已成为学者们的研究重点。隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)作为经典的概率主题模型,因其自身优越的文本分析能力被广泛应用。然而,该模型大多以... 随着大数据时代的来临,如何有效从海量的文本数据中挖掘和分析主题特征已成为学者们的研究重点。隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)作为经典的概率主题模型,因其自身优越的文本分析能力被广泛应用。然而,该模型大多以包含隐含主题变量的有向图的形式存在,实现文档的表达具有局限性。而分布式表示方法定义文档的语义分布在多个主题中并由多主题特征相乘得到;且由于传统的无监督特征提取模型无法有效处理含类别标记的文档数据,故在研究受限玻尔兹曼机(Restricted Bolzmann Machine,RBM)的基础上,结合文本主题的分布式特性,提出了基于RBM的分布式主题特征提取模型NRBM,其自身作为典型的半监督模型能够有效利用文档中的多标记信息。最终与标准LDA主题模型的对比实验证明了NRBM模型的优越性。 展开更多
关键词 文本数据 概率主题模型 隐含狄利克雷分配 受限玻尔兹曼机
在线阅读 下载PDF
融合潜在主题信息和卷积语义特征的文本主题分类 被引量:9
20
作者 陈培新 郭武 《信号处理》 CSCD 北大核心 2017年第8期1090-1096,共7页
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流,卷积神经网络(Convol... 经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流,卷积神经网络(Convolutional Neural Network,CNN)已成为目前一种主流的文本分类模型。本文通过CNN和概率主题模型PLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent Dirichlet Allocation)在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了让文本特征向量更好地刻画文本的主题信息,本文将卷积语义特征和文本的潜在主题向量分别归一化以消除两者量级上的差异,然后将两者融合,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征向量能显著地提升文本主题分类任务的F1值。 展开更多
关键词 概率主题模型 词向量 卷积神经网络 文本分类
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部