期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于ICE-LDA模型的中英文跨语言话题发现研究 被引量:7
1
作者 陈兴蜀 罗梁 +2 位作者 王海舟 王文贤 高悦 《工程科学与技术》 EI CAS CSCD 北大核心 2017年第2期100-106,共7页
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分... 近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。 展开更多
关键词 话题发现 跨英汉文本 icE-LDA模型 TF-IDF特征提取 共现话题
在线阅读 下载PDF
产业链核心技术堵点识别与分析研究——以芯片产业为例 被引量:7
2
作者 张桐赫 何海燕 +1 位作者 孙磊华 张亚东 《中国科技论坛》 CSSCI 北大核心 2024年第1期38-49,共12页
大国竞争格局下,全球产业链技术合作受限,进行技术堵点识别与分析对防范重大科技风险,突破技术封锁,实现产业链自主可控具有重要作用。本研究从专利视角出发,结合美国出口管制清单,采用文本分析法、对比分析法、LDA主题建模,将产业链技... 大国竞争格局下,全球产业链技术合作受限,进行技术堵点识别与分析对防范重大科技风险,突破技术封锁,实现产业链自主可控具有重要作用。本研究从专利视角出发,结合美国出口管制清单,采用文本分析法、对比分析法、LDA主题建模,将产业链技术竞争情报进行对比,构建了集成不同数据源开展关联分析的研究框架,对亟待突破却受到技术限制的核心技术堵点进行产业链定位,深度剖析核心专利竞争与出口管制政策的内在关系。在芯片领域实证研究发现在数字计算设备、印片设备与光刻工艺领域中国存在核心技术堵点,对应的产业链环节为制造设备与材料,存在核心专利被提前卡位问题,研发材料与创新技术路线可作为突破技术封锁实现自主可控的途径。本研究为复杂国际竞争下产业核心技术堵点发现与分析提供了一种新框架。 展开更多
关键词 技术堵点 专利识别 LDA主题建模 芯片产业链
在线阅读 下载PDF
面向增量同生主题的维吾尔文爬虫的研究 被引量:1
3
作者 赵永霄 哈力旦.阿布都热依木 张振东 《计算机应用研究》 CSCD 北大核心 2014年第11期3269-3272,共4页
针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的... 针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。 展开更多
关键词 网络爬虫 网页分类 ic主题模型 锚文本 维吾尔文
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部