题名 词义刻画与词义识别
1
作者
范冬梅
卢志茂
张汝波
机构
哈尔滨工程大学模式识别与自然计算研究室
出处
《计算机工程与设计》
CSCD
北大核心
2011年第1期270-273,共4页
基金
国家自然科学基金项目(60603092
60975042)
国家教育部博士点专向基金项目(20070217043)
文摘
为了改善词义识别的效果,使词义识别技术水平获得实质性的提高,需要考察词义刻画与词义理解之间的关系,确定是否有必要重新刻画词语的词义,需要从理论和实验角度进行探讨。从语言学角度分析了影响词义刻画的各种因素,并设计和实现了人机词义识别的对比实验,借以揭示词义刻画粒度大小与词义识别精度之间的关系,进而说明调整词义刻画粒度的必要性。实验结果表明,科学控制词义刻画的粒度可以增强词义的可计算性,提高词义识别的精度。
关键词
词义刻画
词义识别
计算语言学
自然语言理解
人工智能
Keywords
semantic depiction
word sense discrimination
computational linguistic
natural language understanding
artificial intelligence
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于极值域均值模式分解的语音增强方法
被引量:5
2
作者
卢志茂
孙美玲
张春祥
金辉
机构
哈尔滨工程大学模式识别与自然计算研究室
哈尔滨 理工大学 软件学院
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2011年第7期1680-1684,共5页
基金
国家自然科学基金(60975042
60903082)资助课题
文摘
增强低信噪比(signal to noise ratio,SNR)下的语音质量是语音识别需要解决的问题。在众多增强方法中,经验模态分解(empirical mode decomposition,EMD)是目前应用最为广泛的一种方法。针对EMD在对语音进行增强时存在端点效应的问题,研究了极值域均值模式分解(extremum field mean mode decomposition,EMMD)方法。该方法改变了EMD只利用信号的极值点信息的单一做法,充分考虑输入信号所有信息,计算信号极值点间所有数据的均值,可以有效解决EMD中的端点效应问题。因此,提出了基于EMMD的语音增强方法,实验结果表明EMMD方法的引入,消除局部数据中隐含的支流分量,避免了EMD方法的端点效应问题,明显提高了带噪语音的SNR,改善了语音的质量。
关键词
语音增强
极值域均值模式分解
经验模态分解
固有模态函数
Keywords
speech enhancement
extremum field mean mode decomposition(EMMD)
empirical mode decomposition(EMD)
intrinsic mode function(IMF)
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 使用“分裂-合并'策略改进文本聚类集成算法的研究
被引量:1
3
作者
卢志茂
徐森
刘远超
顾国昌
机构
哈尔滨工程大学模式识别与自然计算研究室
盐城工学院计算 机工程 系
哈尔滨 工业大学 智能技术与自然 语言处理实验室
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2010年第7期714-718,共5页
基金
863计划(2007AA01Z172)
国家自然科学基金(60975042
+1 种基金
60603092)
高等学校博士学科点专项科研基金(20070217043)资助项目
文摘
探讨了'分裂-合并'(DM)策略对文本聚类集成算法改进的效果。首先在聚类成员生成阶段运行使用DM策略的超球K均值(SKM)算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用凝聚层次聚类方法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用两个快速的谱聚类算法进行集成。在6组真实文本集上进行了实验,使用DM策略的两个聚类集成算法获得的平均标准化互信息(NMI)分别比改进前的算法提高了4.6和7.9个百分点,证明了DM策略可以有效提高文本聚类集成算法的聚类质量。
关键词
聚类集成
谱聚类
文本聚类
分裂-合并(DM)
标准化互信息(NMI)
Keywords
cluster ensemble, spectral clustering, document clustering, divide and merge (DM), normalized mutual information (NMI)
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 面向大数据处理的划分聚类新方法
被引量:22
4
作者
卢志茂
冯进玫
范冬梅
杨朋
田野
机构
哈尔滨工程大学模式识别与自然计算研究室
大连理工大学 计算 机科学与技术学院
黑龙江科技大学 电子与信息工程 学院
哈尔滨 师范大学 物理与电子工程 学院
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2014年第5期1010-1015,共6页
基金
国家自然科学基金(60975042)
黑龙江省教育厅科学技术项目(12511166)资助课题
文摘
大数据处理是物联网研究和应用上不可回避的难题之一,针对常用聚类方法在大数据处理上的不足,设计了一种划分聚类新方法。该方法采用了大数据集的抽样技术,对多次抽取的规模足够大的样本进行聚类以确定自然簇质心的初始位置,在此基础上采用抽样后剩余数据样本对质心的初始位置进行更新,以便校正偏离理想位置的初始质心。该划分聚类算法具有线性空间复杂度和时间复杂度。实验结果表明所提的新聚类算法不仅能得到比常用聚类算法更理想的结果,而且运行速度快,适合处理大规模数据的聚类任务。
关键词
大数据
物联网
划分聚类
抽样
质心
Keywords
large data
internet of things
partitional clustering
sampling
centroid
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 使用谱聚类算法解决文本聚类集成问题
被引量:15
5
作者
徐森
卢志茂
顾国昌
机构
哈尔滨工程大学模式识别与自然计算研究室
盐城工学院信息工程 学院
出处
《通信学报》
EI
CSCD
北大核心
2010年第6期58-66,共9页
基金
国家自然科学基金资助项目(60603092
60903082
+1 种基金
60975042)
高等学校博士学科点专项科研基金资助项目(20070217043)~~
文摘
采用2个不同的谱聚类算法解决文本聚类集成问题。为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度。分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性。在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题。
关键词
聚类集成
文本聚类
谱聚类
矩阵扰动理论
图上的随机游动
Keywords
cluster ensemble
document clustering
spectral clustering
matrix perturbation theory
random walk on graph
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向词义消歧的指示词扩展技术
被引量:1
6
作者
范冬梅
卢志茂
张汝波
机构
哈尔滨工程大学模式识别与自然计算研究室
出处
《计算机工程与应用》
CSCD
北大核心
2010年第15期10-12,共3页
基金
国家自然科学基金No.60603092
No.60975042~~
文摘
词语的歧义问题给语言的自动理解造成了困难,词义消歧研究是解决该问题的方法。当前统计学习的方法在该问题的研究上得到了普遍的应用,然而限于训练语料的规模,统计词义消歧方法还不能获得十分满意的结果。如何在有限规模的训练语料的条件下,提高统计学习的效率,改善学习效果,是有监督词义消歧方法研究上的热点问题。在词语扩展思想的基础上,设计了一种以基于指示词扩展的词义消歧新方法,并通过实验证明该方法可以在不增大训练语料规模的前提下提高有监督词义消歧的精度。
关键词
词义消歧
人工智能
自然语言理解
模式识别
Keywords
word sense disambiguation
artificial intelligence
natural language understanding
pattern recognition
分类号
TP311
[自动化与计算机技术—计算机软件与理论]