题名 基于条件随机场方法的开放领域新词发现
被引量:45
1
作者
陈飞
刘奕群
魏超
张云亮
张敏
马少平
机构
智能 技术与 系统 国家 重点 实验室 (清华大学 )
清华大学 清华 信息科学与技术 国家 实验室 (清华大学 )(筹)
清华大学 计算机科学与技术 系
出处
《软件学报》
EI
CSCD
北大核心
2013年第5期1051-1060,共10页
基金
国家自然科学基金(60903107
61073071)
国家高技术研究发展计划(863)(2011AA01A205)
文摘
开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果.
关键词
新词发现
CONDITION
RANDOM
field(CRF)
中文分词
Keywords
new word detection
conditional random field
Chinese word segmentation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 知识表示学习研究进展
被引量:268
2
作者
刘知远
孙茂松
林衍凯
谢若冰
机构
清华大学 计算机科学与技术 系
智能 技术与 系统 国家 重点 实验室 (清华大学 )
清华 信息科学与技术 国家 实验室 (筹)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第2期247-261,共15页
基金
国家"九七三"重点基础研究发展计划基金项目(2014CB340501)
国家自然科学基金项目(61572273
+1 种基金
61532010)
清华大学自主科研计划基金项目(2015THZ)~~
文摘
人们构建的知识库通常被表示为网络形式,节点代表实体,连边代表实体间的关系.在网络表示形式下,人们需要设计专门的图算法存储和利用知识库,存在费时费力的缺点,并受到数据稀疏问题的困扰.最近,以深度学习为代表的表示学习技术受到广泛关注.表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习.该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升.介绍知识表示学习的最新进展,总结该技术面临的主要挑战和可能解决方案,并展望该技术的未来发展方向与前景.
关键词
知识表示
表示学习
知识图谱
深度学习
分布式表示
Keywords
knowledge representation
representation learning
knowledge graph
deep learning
distributed representation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种基于图像灰度的快速匹配算法
被引量:112
3
作者
李强
张钹
机构
清华大学 计算机科学与技术 系
智能 技术与 系统 国家 重点 实验室 (清华大学 )
出处
《软件学报》
EI
CSCD
北大核心
2006年第2期216-222,共7页
基金
国家自然科学基金
国家重点基础研究发展规划(973)~~
文摘
在图像模板匹配问题中,基于像素灰度值的相关算法尽管已经十分普遍,并得到广泛的应用,但目前此类算法都还存在有时间复杂度高、对图像亮度与尺寸变化敏感等缺点.为了克服这些缺点,提出一种新的基于图像灰度值的编码表示方法.这种方法将图像分割为一定大小的方块(称为R-块),计算每个R-块图像的总灰度值,并根据它与相邻R-块灰度值的排序关系进行编码.然后通过各个R-块编码值的比较,实现图像与模板的匹配.新算法中各个R-块编码的计算十分简单;匹配过程只要对编码值进行相等比较,而且可以采用快速的比较算法.新算法对像素灰度的变化与噪声具有鲁棒性,其时间复杂度是O(M2log(N)).实验结果表明,新算法比现有的灰度相关算法的计算时间快了两个数量级.
关键词
图像处理
模板匹配
图像配准
不变性
时间复杂度
Keywords
image processing
template matching
image registratio n
invariance
time complexity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 神经机器翻译前沿进展
被引量:116
4
作者
刘洋
机构
清华大学 计算机科学与技术 系
清华 信息科学与技术 国家 实验室 (筹)
智能 技术与 系统 国家 重点 实验室 (清华大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2017年第6期1144-1149,共6页
基金
国家自然科学基金优秀青年科学基金项目(61522204)~~
文摘
机器翻译研究如何利用计算机实现自然语言之间的自动翻译,是人工智能和自然语言处理领域的重要研究方向之一.近年来,基于深度学习的神经机器翻译方法获得迅速发展,目前已取代传统的统计机器翻译成为学术界和工业界新的主流方法.首先介绍神经机器翻译的基本思想和主要方法,然后对最新的前沿进展进行综述,最后对神经机器翻译的未来发展方向进行展望.
关键词
人工智能
深度学习
神经机器翻译
编码器-解码器架构
注意力机制
Keywords
artificial intelligence
deep learning
neural machine translation
encoder-decoder framework
attention mechanism
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 新型定子永磁式容错电机的工作原理和性能分析
被引量:17
5
作者
吉敬华
孙玉坤
朱纪洪
赵文祥
机构
江苏大学 电气信息工程学院
智能 技术与 系统 国家 重点 实验室 (清华大学 )
出处
《中国电机工程学报》
EI
CSCD
北大核心
2008年第21期96-101,共6页
基金
国家863高技术基金项目(2003AA255023)
国家自然科学基金项目(60774044)~~
文摘
为满足电机驱动系统在多种高可靠性领域的应用,提出一种新型的定子永磁式容错电机结构——双凸极容错(doubly salient fault tolerant,DSFT)电机。DSFT电机在结构上集中了开关磁阻电机和转子永磁式容错电机的特点,具有结构简单、可靠性高、功率密度高等优点。以一台四相8/10极DSFT电机为例,分析其结构特点、容错齿作用和运行原理。在此基础上,研究DSFT电机在正常和短路时的磁场特性,计算磁链、自感、互感等电磁特性,从理论上分析DSFT电机的容错性能。运用电路、磁路瞬态联合仿真的方法,建立DSFT电机驱动系统的场路耦合分析模型,分别对电机在正常和缺相运行状态下的转矩输出性能进行计算分析。研究结果表明,DSFT电机相与相间的独立性好,具有较强的带故障运行能力,适用于一些工作环境恶劣且要求高可靠性、高能量密度的场合。
关键词
联合仿真
双凸极电机
电磁特性
容错
永磁电机
Keywords
co-simulation
doubly salient machine
electromagnetic performance
fault tolerance
permanent magnet machine
分类号
TM351
[电气工程—电机]
题名 基于深度学习的作曲家分类问题
被引量:21
6
作者
胡振
傅昆
张长水
机构
清华大学 自动化系
清华 信息科学与技术 国家 实验室 (筹)
智能 技术与 系统 国家 重点 实验室 (清华大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第9期1945-1954,共10页
基金
国家"九七三"重点基础研究发展计划基金项目(2013CB329503)
北京市教委科技发展计划重点项目(KZ201210005007)
文摘
在音乐信息检索领域,作曲家分类是一个十分重要的问题,这一问题的目标是通过音频数据来识别相应的作曲家信息.传统的分类算法都是通过提取复杂的特征来进行分类的,而深层神经网络在特征学习上具有比较强的能力,因此提出用深层神经网络来解决这一问题.为了结合不同深层神经网络模型的优点,设计了一种混合模型,该模型基于深度置信网络(deep belief network,DBN)和级联去噪自编码器(stacked denoising autoencoder,SDA),可以较好地解决作曲家分类问题.实验表明,该模型取得了76.26%的正确率,这一结果比单纯用某一种模型搭建的深层神经网络以及支持向量机要好.和图像数据类似,人脑在提取音乐特征也是分层的,每一层对信号的处理不一样,因此混合模型在解决作曲家分类问题上具有一定的优势.
关键词
作曲家分类
深层神经网络
混合模型
特征学习
过学习
Keywords
ACC(audio classical composer identification)
deep neural network
hybrid model
feature learning
over-fitting
分类号
TP278
[自动化与计算机技术—检测技术与自动化装置]
题名 基于用户行为的竞价广告效果分析
被引量:10
7
作者
王家卓
刘奕群
马少平
张敏
机构
智能 技术与 系统 国家 重点 实验室 (清华大学 )
清华 信息科学与技术 国家 实验室 (筹)(清华大学 )
清华大学 计算机科学与技术 系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第1期133-138,共6页
基金
国家自然科学基金项目(60736044
60903107)
高等学校博士学科点专项科研基金项目(20090002120005)
文摘
随着互联网数据的爆炸性增长,搜索引擎成为人们生活和工作中不可缺少的信息获取工具.作为搜索引擎盈利的主要商业模式之一,竞价排名的赞助商广告链接以其高效、低风险、灵活方便的特点受到传统营销方式下处于劣势的中小企业的青睐.然而搜索引擎结果页面上出现大量的广告链接是否影响用户体验?这些广告链接的实际收效如何?加入赞助商广告链接的搜索引擎如何影响用户的点击行为?开展面向这些问题的研究将对研究用户使用搜索引擎的行为特点、改进搜索引擎改进竞价排名的开展方式和指导中小企业如何更加有效地购买广告链接具有非常重要的指导意义.在总结国内外已经开展的相关研究的基础上,利用某商业搜索引擎提供的互联网用户点击日志和搜索引擎使用日志,采用数据挖掘和信息统计的方法,试图在全互联网的规模和商业搜索引擎的级别上提取用户和广告链接点击相关的信息,加以分析讨论,并对广告链接和非广告链接的相关性作深入分析.
关键词
竞价排名
搜索引擎
用户日志挖掘
效果分析
互联网广告
Keywords
sponsored search
search engine
user log mining
performance analysis
Web advertising
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
题名 基于改进决策树算法的网络关键资源页面判定
被引量:12
8
作者
刘奕群
张敏
马少平
机构
智能 技术与 系统 国家 重点 实验室 (清华大学 )
出处
《软件学报》
EI
CSCD
北大核心
2005年第11期1958-1966,共9页
基金
国家自然科学基金
国家重点基础研究发展规划(973)
国家教育部科学技术研究重大项目资助~~
文摘
关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(TextRetrievalConference,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径.
关键词
网络信息检索
关键资源页面
机器学习
决策树
Keywords
Web information retrieval
key resource page
machine learning
decision tree
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 贝叶斯机器学习前沿进展综述
被引量:72
9
作者
朱军
胡文波
机构
智能 技术与 系统 国家 重点 实验室 (清华大学 )
清华 信息科学与技术 国家 实验室 (筹)
清华大学 计算机科学技术 系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第1期16-26,共11页
基金
国家"九七三"重点基础研究发展计划基金项目(2013CB329403
2012CB316301)
+1 种基金
国家自然科学基金项目(61322308
61332007)
文摘
随着大数据的快速发展,以概率统计为基础的机器学习在近年来受到工业界和学术界的极大关注,并在视觉、语音、自然语言、生物等领域获得很多重要的成功应用,其中贝叶斯方法在过去20多年也得到了快速发展,成为非常重要的一类机器学习方法.总结了贝叶斯方法在机器学习中的最新进展,具体内容包括贝叶斯机器学习的基础理论与方法、非参数贝叶斯方法及常用的推理方法、正则化贝叶斯方法等.最后,还针对大规模贝叶斯学习问题进行了简要的介绍和展望,对其发展趋势作了总结和展望.
关键词
贝叶斯机器学习
非参数方法
正则化方法
大数据学习
大数据贝叶斯学习
Keywords
Bayesian machine learning
nonparametric methods
regularized methods
learning withbig data
big Bayesian learning
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于网络资源与用户行为信息的领域术语提取
被引量:8
10
作者
闫兴龙
刘奕群
方奇
张敏
马少平
茹立云
机构
智能 技术与 系统 国家 重点 实验室 (清华大学 )
清华大学 信息科学与技术 国家 实验室
清华大学 计算机科学与技术 系
总参陆航研究所
出处
《软件学报》
EI
CSCD
北大核心
2013年第9期2089-2100,共12页
基金
国家自然科学基金(60736044
60903107
+1 种基金
61073071)
高等学校博士学科点专项科研基金(20090002120005)
文摘
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果.
关键词
领域术语自动抽取
新词发现
WEB数据挖掘
用户行为分析
Keywords
automatic domain-specific term extraction
novel term extraction
Web data mining
user behavior analysis
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 搜索引擎索引网页集合选取方法研究
被引量:9
11
作者
茹立云
李智超
马少平
机构
智能 技术与 系统 国家 重点 实验室 (清华大学 )
清华 信息科学与技术 国家 实验室 (筹)
清华大学 计算机科学与技术 系
北京搜狗科技发展有限公司
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第10期2239-2247,共9页
基金
国家"九七三"重点基础研究发展计划基金项目(2015CB358700)
国家自然科学基金项目(60903107
61073071)
文摘
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.
关键词
搜索引擎
内容签名
文本聚类
机器学习
线性回归模型
Keywords
model search engine
content signature
text clustering
machine learning
linear regression
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 基于查询子主题分类的多样性搜索评价方法
被引量:1
12
作者
陈飞
刘奕群
张敏
马少平
机构
智能 技术与 系统 国家 重点 实验室 (清华大学 )
清华 信息科学与技术 国家 实验室 (筹)(清华大学 )
清华大学 计算机科学与技术 系
出处
《软件学报》
EI
CSCD
北大核心
2015年第12期3130-3139,共10页
基金
国家自然科学基金(61532011
61472206)
国家重点基础研究发展计划(973)(2015CB358700)~~
文摘
多样化检索结果的评测通常假设一个查询词包含多个权重各不相同的用户子意图,并在此假设的基础上对检索结果进行评测.虽然大多数已经存在的多样化检索评测方法利用了这些特性对检索结果进行评测,但在评测过程中,它们都忽略了查询子意图的类型信息;而不同类型的查询子意图对信息需求具有不同的特点.首先,通过引入衰减函数对这种特点进行描述,进而对用户子意图的分类方法进行抽象;在此基础上,提出了利用查询子意图类型信息进行多样化检索结果评测的框架,该框架定义了利用查询子意图类型信息进行多样化检索评测的方法应该具有的结构;然后,讨论了在用信息类和导航类作为子意图分类方法的前提下,其对应的衰减函数的形式;最后,在TREC与NTCIR测试集上的实验结果表明了所提出方法的有效性.
关键词
多样化检索评测分类
检索结果多样化
Keywords
diversity evaluation
taxonomy
diversified search
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 卷积神经网络特征重要性分析及增强特征选择模型
被引量:35
13
作者
卢泓宇
张敏
刘奕群
马少平
机构
智能 技术与 系统 国家 重点 实验室 (清华大学 )
清华大学 计算机科学与技术 系
出处
《软件学报》
EI
CSCD
北大核心
2017年第11期2879-2890,共12页
基金
国家自然科学基金(61622208,61532011,61672311)
国家重点基础研究发展计划(973)(2015CB358700)~~
文摘
卷积神经网络等深度神经网络凭借着其强大的表达能力、突出的分类性能,已在不同领域内得到了广泛应用.当面对高维特征时,深度神经网络通常被认为具有较好的鲁棒性,能够隐含地对特征进行选择,但由于网络参数巨大,如果数据量达不到足够的规模,则会导致学习不充分,因而可能无法达到最优的特征选择.而神经网络的黑箱特性使得无法观测神经网络选择了哪些特征,也无法评估其特征选择的能力.为此,以卷积神经网络为例,首先研究如何显式地表达神经网络中的特征重要性,提出了基于感受野的特征贡献度分析方法;其次,将神经网络特征选择与传统特征评价方法进行对比分析发现,在非海量样本的情况下,传统特征评价方法对高重要性特征和噪声特征的识别能力反而能够超过神经网络.因此,进一步地提出了卷积神经网络增强特征选择模型,将传统特征评价方法对特征重要性的理解结合到神经网络的学习过程中,以辅助深度神经网络进行特征选择.在基于文本的社交媒体用户属性建模任务下进行了对比实验,结果验证了该模型的有效性.
关键词
卷积神经网络
特征重要性分析
特征选择
文本分类
Keywords
convolution neural network
feature importance analysis
feature selection
text categorization
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于用户行为的色情网站识别
被引量:5
14
作者
曹建勋
刘奕群
岑荣伟
马少平
茹立云
机构
智能 技术与 系统 国家 重点 实验室 (清华大学 )
清华 信息科学与技术 国家 实验室 (筹)
清华大学 计算机科学与技术 系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第2期430-436,共7页
基金
国家"八六三"高技术研究发展计划基金项目(2011AA01A205)
国家自然科学基金项目(60903107
+1 种基金
61073071)
高等学校博士学科点专项科研基金项目(20090002120005)
文摘
以色情网站为代表的万维网非法资源已经成为互联网应用普及过程中的重大挑战.由于色情网站与普通网站的内容特征、结构形式和访问者群体都有显著的差异,这造成了用户对色情网站和普通网站的访问行为的差异.在某商业搜索引擎的协助下,收集了海量规模互联网用户访问日志,基于对日志中所记载用户行为的挖掘,验证了用户访问色情网站与普通网站时的行为确实具有明显的差异.基于此类差异设计了一系列用户行为特征,并结合机器学习方法,设计了基于用户行为的色情网站识别方法.实验表明,该方法可以较准确、高效地从网站中识别色情网站.
关键词
色情网站
网络非法资源
用户行为分析
搜索引擎
网络浏览
Keywords
pornography site
illegal Web resources
user behavior analysis
search engine
Web browsing
分类号
TP391
[自动化与计算机技术—计算机应用技术]