-
题名基于最大熵模型的本体概念获取方法
被引量:17
- 1
-
-
作者
韦小丽
孙涌
张书奎
苗艳军
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第24期114-116,120,共4页
-
文摘
本体是语义检索的核心。本体构建主要包括领域概念获取和概念间关系获取,其中领域概念获取是本体构建的基础。采用基于最大熵模型的方法来获取概念,通过对领域文本进行挖掘而得到名词性短语,使用改进的TF-IDF公式从中抽取具有领域性的短语,并经人工修正后得到本体概念。实验表明该方法提高了概念的准确性和完整性。
-
关键词
本体
最大熵模型
自然语言处理
-
Keywords
ontology
maximum entropy model
natural language processing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于最大熵方法的统计语言模型
被引量:4
- 2
-
-
作者
徐延勇
郭忠伟
周献中
-
机构
南京理工大学自动控制系
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第5期53-55,121,共4页
-
基金
国防科工委跨行业基金项目资助
-
文摘
针对现有统计语言模型中存在计算量过大和系统负担过重的问题,该文提出了一种基于最大熵方法的统计语言模型。模型在参数估计阶段,引入约束最优化理论中拉格朗日乘数定理和牛顿迭代算法,以确保模型在多个约束条件中可求出最优化参数值;在特征选择阶段,采用计算近似增益的平行算法,解决模型计算量过大和系统开销问题。将该模型用于汉语句子分析的软件实验中表明:模型具有较高的计算效率和鲁棒性。
-
关键词
自然语言处理
统计语言模型
最大熵方法
鲁棒性
计算机
-
Keywords
natural language processing,statistics language model,maximum entropy approach
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多层最大熵模型的句子主干分析
被引量:4
- 3
-
-
作者
葛斌
封孝生
谭文堂
肖卫东
-
机构
国防科技大学C
-
出处
《计算机科学》
CSCD
北大核心
2010年第12期156-160,共5页
-
基金
国家自然科学基金项目(60903225
60172012)
湖南省自然科学基金项目(03JJY3110)资助
-
文摘
句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大熵模型,它的底层最大熵利用句子的上下文特征识别主干词候选项,高层最大熵利用底层最大熵模型的计算结果,结合句子内的远距离特征和句子之间的关系,对底层最大熵模型识别出的主干词候选集进行分析。实验证明,该模型对于简单的主干成分识别正确率较高,对训练语料有一定的依赖;随着语料规模的增长,模型性能缓慢提升。
-
关键词
最大熵
多层最大熵模型
主干词
主干分析
自然语言理解
-
Keywords
maximum entropy
Multi-layer maximum entropy model
Skeleton word
Skeleton parsing
natural language processing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于统计分析的蒙汉自然语言的机器翻译
被引量:4
- 4
-
-
作者
苏依拉
乌尼尔
刘婉婉
-
机构
内蒙古工业大学信息工程学院
-
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2017年第1期36-42,共7页
-
基金
国家自然科学基金资助项目(61363052)
内蒙古自治区自然科学基金资助项目(2012MS0904
2016MS0605)
-
文摘
为改变内蒙古地区蒙汉机器翻译发展相对落后的现状,采用基于统计的机器翻译方法将短语作为翻译的最基本单元,并基于最大熵模型提出了一种分词方法和词对齐方法,通过调序结果来输出译文.实验结果表明:改进后的翻译系统BLEU值在一定程度上有所提高,所提方法可为蒙汉应用研究提供参考.
-
关键词
自然语言
蒙汉翻译
统计机器翻译
最大熵模型
短语
-
Keywords
natural language
Mongolian and Chinese translation
statistical machine translation
maximum entropy model
phrase
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名应用二叉树剪枝识别韵律短语边界
被引量:4
- 5
-
-
作者
荀恩东
钱揖丽
郭庆
宋柔
-
机构
北京语言大学语言信息处理研究所
富士通研究开发中心
-
出处
《中文信息学报》
CSCD
北大核心
2006年第3期1-5,28,共6页
-
基金
国家自然科学基金资助项目(60573184)
-
文摘
句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。
-
关键词
人工智能
自然语言处理
统计语言模型
二叉树
韵律短语
最大熵
-
Keywords
artificial intelligence
natural language processing
statistical language model
binary tree
prosodic phrase
Maximal entropy model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于自然语言处理的通用信息模型自动调试
被引量:1
- 6
-
-
作者
项炜
-
机构
乐山师范学院计算机科学学院
乐山师范学院智能信息处理及应用实验室
-
出处
《计算机应用》
CSCD
北大核心
2013年第5期1446-1449,共4页
-
基金
四川省教育厅青年基金资助项目(11ZB134)
-
文摘
通用信息模型(CIM)是工业界的一种公开标准,并已实现于很多产品中,大量的bug被发现和修复。为了减少了人工查找错误根源所需的时间和精力,提出一种基于自然语言处理的方法对CIM的bug进行自动调试。首先使用最大熵模型对已解决bug的文档描述进行分词,然后基于构建的词典使用simHash找出那些重复性很大的已修复的bug,最后使用文档处理的方法分析客户提供的trace找出问题所在和解决方法。实验结果取得了87.5%准确率,表明了该方法的有效性。
-
关键词
通用信息模型
自然语言处理
最大熵模型
调试
文档处理
-
Keywords
Common Information model (CIM)
natural language processing
maximum entropy model
debug
text processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名关于对数线性模型在词性标注中的应用
被引量:1
- 7
-
-
作者
王保芳
张瑞强
-
机构
河南大学医学院
日本先端基础技术研究所
-
出处
《计算机科学》
CSCD
北大核心
2008年第5期163-166,共4页
-
文摘
词性标注是自然语言理解中很长期的问题,但对于大词性标注集的词性标注,它的标注精度还很低。为此我们应用隐含马尔可夫方法(HMM)和最大熵方法对大词性标注集的词性标注问题进行了研究,并在此基础上提出了关于词性标注的最新方法——对数线性模型,以此来提高词性标注精度。此次实验分别在运用HMM模型时,提出了新的光滑算法;在运用最大熵模型上,集成了详细的局部和远距离的上下文特征信息;在对数线性模型中,集成了HMM模型和最大熵模型,并进行了对比。结果表明综合了多源信息的对数线性模型标注精度达81.52%,取得了比传统的HMM模型更好的结果。
-
关键词
对数线性模型
最大熵模型
词性标注
自然语言理解
-
Keywords
Log-linear model, maximum entropy, natural language processing, Part-of-speech tagging
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
O212
[理学—概率论与数理统计]
-
-
题名基于最大熵模型的QA系统置信度评分算法
被引量:9
- 8
-
-
作者
游斓
周雅倩
黄萱菁
吴立德
-
机构
复旦大学计算机科学与工程系
-
出处
《软件学报》
EI
CSCD
北大核心
2005年第8期1407-1414,共8页
-
基金
No.60435020国家自然科学基金
No.035115028上海市科委重点项目~~
-
文摘
置信度指的是一个问题回答系统(QA系统)对其所作回答的自信程度.描述了一种基于最大熵模型的算法.首先,从训练语料中提取若干因素来训练最大熵模型;然后应用训练好的模型在测试集上计算置信度.在2002年度的文本检索会议(TREC)中,QA系统用该算法计算每个问题答案的置信度,并依此排序,获得了显著的成绩.
-
关键词
自然语言处理
信息检索
问答系统
最大熵模型
置信度
-
Keywords
natural language processing
information retrieval
question-answering system
maximum entropy model
confidence score
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名中文时间表达式及类型识别
被引量:9
- 9
-
-
作者
李君婵
谭红叶
王风娥
-
机构
山西大学计算机与信息技术学院
-
出处
《计算机科学》
CSCD
北大核心
2012年第S3期191-194,211,共5页
-
基金
国家自然科学基金(61100138
61005053)
+2 种基金
山西省高校科技开发项目(20091001)
山西省自然科学基金(2011011016-2)
山西省青年科技基金(2012021012-1)资助
-
文摘
目前,时间信息识别在信息抽取、问答系统、摘要生成、话题跟踪和检测等领域中有着广泛应用,同时也是自然语言处理的重要研究任务之一。针对TempEval-2会议评测任务中的时间表达式识别和类型识别任务:1)句内时间表达式识别,2)时间表达式类型识别,分别提出了基于词性构建时间单元规则库的识别方法以及基于最大熵的类型识别方法。实验对象为中文,结果显示时间表达式识别的准确率为85.16%,时间表达式类型识别的准确率为93.02%。
-
关键词
时间表达式
规则
时间表达式类型
最大熵
自然语言处理
-
Keywords
Temporal expression
Rule
Time expression type
maximum entropy model
natural language processing
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于最大熵的哈萨克语词性标注模型
被引量:4
- 10
-
-
作者
桑海岩
古丽拉.阿东别克
牛宁宁
-
机构
新疆大学信息科学与工程学院
国家语言资源监测与研究中心少数民族语言中心哈萨克和柯尔克孜语文基地
-
出处
《计算机工程与应用》
CSCD
2013年第11期126-129,165,共5页
-
基金
国家自然科学基金(No.61063025)
-
文摘
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。
-
关键词
自然语言处理
词性标注
最大熵模型
哈萨克语
-
Keywords
natural language processing
part-of-speech tagging
maximum entropy model
Kazakh
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-