期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于ICE-LDA模型的中英文跨语言话题发现研究
被引量:
7
1
作者
陈兴蜀
罗梁
+2 位作者
王海舟
王文贤
高悦
《工程科学与技术》
EI
CAS
CSCD
北大核心
2017年第2期100-106,共7页
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分...
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。
展开更多
关键词
话题发现
跨英汉文本
ic
E-LDA模型
TF-IDF特征提取
共现话题
在线阅读
下载PDF
职称材料
产业链核心技术堵点识别与分析研究——以芯片产业为例
被引量:
7
2
作者
张桐赫
何海燕
+1 位作者
孙磊华
张亚东
《中国科技论坛》
CSSCI
北大核心
2024年第1期38-49,共12页
大国竞争格局下,全球产业链技术合作受限,进行技术堵点识别与分析对防范重大科技风险,突破技术封锁,实现产业链自主可控具有重要作用。本研究从专利视角出发,结合美国出口管制清单,采用文本分析法、对比分析法、LDA主题建模,将产业链技...
大国竞争格局下,全球产业链技术合作受限,进行技术堵点识别与分析对防范重大科技风险,突破技术封锁,实现产业链自主可控具有重要作用。本研究从专利视角出发,结合美国出口管制清单,采用文本分析法、对比分析法、LDA主题建模,将产业链技术竞争情报进行对比,构建了集成不同数据源开展关联分析的研究框架,对亟待突破却受到技术限制的核心技术堵点进行产业链定位,深度剖析核心专利竞争与出口管制政策的内在关系。在芯片领域实证研究发现在数字计算设备、印片设备与光刻工艺领域中国存在核心技术堵点,对应的产业链环节为制造设备与材料,存在核心专利被提前卡位问题,研发材料与创新技术路线可作为突破技术封锁实现自主可控的途径。本研究为复杂国际竞争下产业核心技术堵点发现与分析提供了一种新框架。
展开更多
关键词
技术堵点
专利识别
LDA主题建模
芯片产业链
在线阅读
下载PDF
职称材料
面向增量同生主题的维吾尔文爬虫的研究
被引量:
1
3
作者
赵永霄
哈力旦.阿布都热依木
张振东
《计算机应用研究》
CSCD
北大核心
2014年第11期3269-3272,共4页
针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的...
针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。
展开更多
关键词
网络爬虫
网页分类
ic
主题模型
锚文本
维吾尔文
在线阅读
下载PDF
职称材料
题名
基于ICE-LDA模型的中英文跨语言话题发现研究
被引量:
7
1
作者
陈兴蜀
罗梁
王海舟
王文贤
高悦
机构
四川大学网络空间安全研究院
四川大学计算机学院
出处
《工程科学与技术》
EI
CAS
CSCD
北大核心
2017年第2期100-106,共7页
基金
国家科技支撑计划资助项目(2012BAH18B05)
国家自然科学基金资助项目(61272447)
四川大学青年教师启动基金(2015SCU11079)
文摘
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。
关键词
话题发现
跨英汉文本
ic
E-LDA模型
TF-IDF特征提取
共现话题
Keywords
topic
model
cross language
ic
E-LDA
model
TF-IDF feature word extraction
co-occurrence
topic
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
产业链核心技术堵点识别与分析研究——以芯片产业为例
被引量:
7
2
作者
张桐赫
何海燕
孙磊华
张亚东
机构
北京理工大学管理与经济学院
出处
《中国科技论坛》
CSSCI
北大核心
2024年第1期38-49,共12页
基金
国家自然科学基金项目“关键核心技术贸易壁垒与产业安全:作用机制、政策选择与模拟仿真”(72074027)
北京社科基金重点项目基金项目“贸易摩擦背景下北京市高技术产业核心技术的风险与对策研究”(19JDGLA007)。
文摘
大国竞争格局下,全球产业链技术合作受限,进行技术堵点识别与分析对防范重大科技风险,突破技术封锁,实现产业链自主可控具有重要作用。本研究从专利视角出发,结合美国出口管制清单,采用文本分析法、对比分析法、LDA主题建模,将产业链技术竞争情报进行对比,构建了集成不同数据源开展关联分析的研究框架,对亟待突破却受到技术限制的核心技术堵点进行产业链定位,深度剖析核心专利竞争与出口管制政策的内在关系。在芯片领域实证研究发现在数字计算设备、印片设备与光刻工艺领域中国存在核心技术堵点,对应的产业链环节为制造设备与材料,存在核心专利被提前卡位问题,研发材料与创新技术路线可作为突破技术封锁实现自主可控的途径。本研究为复杂国际竞争下产业核心技术堵点发现与分析提供了一种新框架。
关键词
技术堵点
专利识别
LDA主题建模
芯片产业链
Keywords
Technology blockage
Patten identif
ic
ation
LDA
topic
model
ing
ic
industrial chain
分类号
G353.1 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
面向增量同生主题的维吾尔文爬虫的研究
被引量:
1
3
作者
赵永霄
哈力旦.阿布都热依木
张振东
机构
新疆大学电气工程学院
出处
《计算机应用研究》
CSCD
北大核心
2014年第11期3269-3272,共4页
基金
国家自然科学基金资助项目(61163026
60865001)
文摘
针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。
关键词
网络爬虫
网页分类
ic
主题模型
锚文本
维吾尔文
Keywords
Web crawler
pages classif
ic
ation
ic topic model
anchor text
Uyghur
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于ICE-LDA模型的中英文跨语言话题发现研究
陈兴蜀
罗梁
王海舟
王文贤
高悦
《工程科学与技术》
EI
CAS
CSCD
北大核心
2017
7
在线阅读
下载PDF
职称材料
2
产业链核心技术堵点识别与分析研究——以芯片产业为例
张桐赫
何海燕
孙磊华
张亚东
《中国科技论坛》
CSSCI
北大核心
2024
7
在线阅读
下载PDF
职称材料
3
面向增量同生主题的维吾尔文爬虫的研究
赵永霄
哈力旦.阿布都热依木
张振东
《计算机应用研究》
CSCD
北大核心
2014
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部