-
题名口语对话系统中的语句主题提取
- 1
-
-
作者
王彬
江铭虎
-
机构
清华大学中文系计算语言研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第18期58-60,98,共4页
-
文摘
语句的主题提取是口语对话系统中话语分析部分的工作。目前的口语对话系统大多将自然语言处理的重点放在语法和语义平面,而忽视了对上下文语境的分析,该文提出一种基于规则的语句主题提取方法,通过自底向上与自顶向下两种分析器完成主题与用户意图的提取,为系统的自然语言生成提供更准确的领域知识,从而大大提高了系统的整体性能。
-
关键词
主题提取
口语对话系统
自然语言理解
-
Keywords
topic extraction,spoken dialog system,natural language understanding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名边界模板和局部统计相结合的中国人名识别
被引量:13
- 2
-
-
作者
李中国
刘颖
-
机构
清华大学中文系计算语言学研究室
-
出处
《中文信息学报》
CSCD
北大核心
2006年第5期44-50,共7页
-
基金
清华大学亚洲研究中心2005年度青年项目资助(2005C-2)
-
文摘
本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。
-
关键词
计算机应用
中文信息处理
人名识别
命名实体识别
边界模板
局部统计量
词法分析
-
Keywords
computer application
Chinese information processing
person name recognition
named entity recognition
boundary template
local frequency
lexical analysis
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-