-
题名基于HowNet概念获取的中文自动文摘系统
被引量:22
- 1
-
-
作者
王萌
何婷婷
姬东鸿
王晓荣
-
机构
华中师范大学计算机科学系
新加坡信息通讯研究所
-
出处
《中文信息学报》
CSCD
北大核心
2005年第3期87-93,共7页
-
基金
国家自然科学基金项目 (6 0 4 42 0 0 5 )
教育部科学技术研究资助项目 (10 5 117)
+1 种基金
国家语言文字应用委员会资助项目 (ZDI10 5 - 43B)
国家重点基础研究 973资助项目 (2 0 0 4CB 31810 4 )
-
文摘
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。
-
关键词
计算机应用
中文信息处理
HOWNET
自动文摘
概念向量空间模型
-
Keywords
computer application
Chinese information processing
HowNet
automatic text summarization
conceptual vector space model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于k-means聚类的无导词义消歧
被引量:16
- 2
-
-
作者
陈浩
何婷婷
姬东鸿
-
机构
华中师范大学计算机科学系
新加坡信息通讯研究所
-
出处
《中文信息学报》
CSCD
北大核心
2005年第4期10-16,共7页
-
基金
国家语言文字应用委员会"十五"应用项目资助(ZDI105-43B)
湖北省自然科学基金资助项目(2001ABB012)
-
文摘
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景。这篇文章提出了一种无导词义消歧的方法,该方法采用二阶context构造上下文向量,使用k-means算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在多个汉语高频多义词的两组测试中取得了平均准确率82·67%和80·87%的较好的效果。
-
关键词
计算机应用
中文信息处理
词义消歧
HOWNET
二阶context
K-MEANS聚类
-
Keywords
computer application
Chinese information processing
word sense disambiguation
HowNet
second-order context
clustering of k-means
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于基本要素向量空间的英文多文档自动摘要
被引量:2
- 3
-
-
作者
刘德喜
何炎祥
姬东鸿
杨华
-
机构
襄樊学院物理学系
武汉大学计算机学院
新加坡信息通讯研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第14期166-167,170,共3页
-
基金
国家自然科学基金资助重大项目(90104005)
-
文摘
在基于基本要素(BE)向量空间的英文多文档自动文摘中,句子不再用术语向量或词向量来表达,而是用基本要素向量来表示。在用k-均值聚类算法时,采用一种自动探测k值的技术。实验表明,基于基本要素的多文档自动文摘MSBEC比基于词更优越。
-
关键词
多文档自动文摘
基本要素
K-均值聚类
-
Keywords
multi-document summarization
basic element
k-means clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于MDL聚类的无导词义消歧
被引量:2
- 4
-
-
作者
陈浩
何婷婷
姬东鸿
-
机构
华中师范大学计算机科学系
新加坡信息通讯研究所
-
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第10期1846-1849,共4页
-
基金
国家自然科学基金(60442005)资助教育部科学技术研究重点项目(105117)资助国家语言文字应用"十五"科研项目(ZDI 105-43B)资助国家"九七三"基金项目(2004CB318104)资助.
-
文摘
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景.提出了 一种无导词义消歧的方法.该方法以hownet词库为词典,采用二阶上下文构造上下文向量,使用MDL算法进行聚类,最后通 过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在8个汉语高频多义词的测试中取得了平均准确率81. 12%的较好的效果.
-
关键词
词义消歧
HOWNET
二阶上下文
MDL
-
Keywords
word sense disambiguation
hownet
second-order context
MDL
-
分类号
TP317
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于同步树序列替换文法的统计机器翻译模型
被引量:2
- 5
-
-
作者
蒋宏飞
李生
张民
赵铁军
杨沐昀
-
机构
哈尔滨工业大学计算机科学与技术学院机器智能与翻译研究室
新加坡信息通讯研究所
-
出处
《自动化学报》
EI
CSCD
北大核心
2009年第10期1317-1326,共10页
-
基金
国家自然科学基金重点项目(60736014)
国家高技术研究发展计划(863计划)重点项目(2006AA010108)资助~~
-
文摘
基于短语的模型是目前发展相对成熟的一种统计机器翻译(Statistical machine translation,SMT)模型.但基于短语的模型不包含任何结构信息,因而缺乏有效的全局调序能力,同时不能对非连续短语进行建模.基于句法的模型因具有结构信息而具有解决以上问题的潜力,因而越来越受到研究者们的重视.然而现有的大多数基于句法的模型都因严格的句法限制而制约了模型的描述能力.为突破这种限制并将基于短语的模型的优点融入到句法模型中,本文提出一种基于同步树序列替换文法(Synchronous tree sequence substitution grammar,STSSG)的统计机器翻译模型.在此模型中,树序列被用作为基本的翻译单元.在这种框架下,不满足句法限制的翻译等价对和满足句法限制的翻译等价对都可以融入句法信息并被翻译模型所使用.从而,两种模型的优点均得到充分利用.在2005年度美国国家标准与技术研究所(NIST)举办的机器翻译评比的中文翻译任务语料上的实验表明,本文提出的模型显著地超过了两个基准系统:基于短语的翻译系统Moses和一个基于严格树结构的句法翻译模型.
-
关键词
统计机器翻译
句法限制
同步文法
同步树替换文法
同步树序列替换文法
-
Keywords
Statistical machine translation (SMT), syntactic constraint, synchronous grammar, synchronous tree substitution grammar, synchronous tree sequence substitution grammar (STSSG)
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-