-
题名一种基于框架结构的专有名词自动识别方法
- 1
-
-
作者
王蕾
李培峰
朱巧明
杨季文
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机工程与科学》
CSCD
2007年第7期141-144,154,共5页
-
文摘
本文提出了一种基于框架结构的专有名词统一识别方法。该方法首先根据专有名词的成词特点及出现的上下文环境,重新定义语料属性;然后,提出了属性标注点(AP)的概念,对训练语料进行初次标注,并采用错误驱动的学习方法来获取规则;最后,结合规则和实例对文本进行专名识别。实验表明,该方法在测试样本集上准确率最高可以达到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。
-
关键词
专有名词识别
框架结构
属性标注
错误驱动
规则和实例
-
Keywords
proper noun recognition
framework structure
attribute tagging
error-driven leaming
rule and instance
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于动态规划算法的专有名词切分
被引量:2
- 2
-
-
作者
李成城
赵述芳
刘建毅
钟义信
-
机构
北京邮电大学智能科学技术中心
中国人民解放军军械工程学院军械技术研究所
-
出处
《计算机应用研究》
CSCD
北大核心
2005年第7期78-80,共3页
-
文摘
提出了一种对专有名词字串进行自动切分的方法,该方法对大量通用形式的专有名词进行统计分析,根据专有名词用字的出现位置和出现次数来分析,并把出现概率转换为估价值。则根据中文专有名词的特点,将中文专有名词的切分问题转换为决策树求最优解问题。采用动态规划法选取最优路径,从而确保结果的整体估价值最优。以中文姓名为例,实验表明该方法具有很快的速度和很高的正确率,用10个名字的字符串进行测试正确率为99.66%以上。
-
关键词
人工智能
自然语言处理
专有名词识别
动态规划
-
Keywords
Artificial Intelligence
Natural La nguage Processing
Named Entity Recognition
Dynamic Programming
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于最大熵的汉语人名地名识别方法研究
被引量:26
- 3
-
-
作者
钱晶
张杰
张涛
-
机构
复旦大学计算机科学与工程系
上海财经大学信息管理与工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第9期1761-1765,共5页
-
基金
国家自然科学基金项目(60203010)资助.
-
文摘
构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识别.达到了比较满意的识别效果.最后对实验结果进行了分析.
-
关键词
最大熵模型
专有名词识别
特征提取
语言学规则
-
Keywords
maximum entropy (ME) model
named entity recognition (NER)
feature extraction
linguistic rules
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语未登录词识别现状及一种新识别方法介绍
被引量:3
- 4
-
-
作者
王蕾
杨季文
-
机构
苏州卫生职业技术学院
苏州大学计算机科学与技术学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2007年第8期213-215,共3页
-
文摘
未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。在大规模中文文本的自动分词中,未被识别的未登录词是造成分词错误的一个重要原因,也成为许多自动分词系统走向应用的瓶颈。首先对未登录词的研究现状及现有方法做了一个综合的介绍,分析了目前方案的利弊。在此基础上提出了一个基于框架结构的未登录词专有名词识别方法。
-
关键词
专有名词识别
属性标注
错误驱动
规则和实例
-
Keywords
Proper noun recognition Attribute tagging Error-driving Rules and instance
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于实例和错误驱动的规则学习方法及其应用
被引量:1
- 5
-
-
作者
王蕾
朱巧明
李培峰
杨季文
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室
-
出处
《计算机应用与软件》
CSCD
北大核心
2008年第1期162-164,共3页
-
文摘
提出了一种基于实例和错误驱动相结合的规则学习方法。该方法首先将提取的文本中的语法结构信息作为实例,然后采用基于转换的错误驱动学习方法找出这些实例的适用上下文环境,从而建立相应的规则库。此方法提取出的规则完全采用机器学习的方式,避免了人工提取规则的主观性缺点。可用于诸如词性标注、未登录词识别、命名实体抽取等自然语言研究课题。
-
关键词
规则学习
中文信息处理
专有名词识别
-
Keywords
Rule learning Chinese information processing Proper noun recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-