-
题名基于前后文词形特征的生物医学文献句子边界识别
被引量:1
- 1
-
-
作者
于中华
张容
唐常杰
左劼
张天庆
-
机构
四川大学计算机学院
四川大学网络教育学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第1期180-184,共5页
-
基金
国家自然科学基金项目(60073046)资助
高等学校博士学科点专项科研基金项目(20020610007)资助.
-
文摘
针对生物医学文献的特点及信息抽取的特殊要求,提出了基于前后文词形特征和有教师学习的句子边界识别算法.与针对一般英语书面语设计的句子边界识别算法不同,本文提出的算法不使用特殊的辅助词表和语法层面的特征信息,只使用前后文单词的词形信息作为句子边界识别和消歧的依据.利用这些特征设计了最大信息熵识别器和支持向量机识别器,并在Medline摘要上进行了实验,达到了超过99%的正确率.实验结果表明,最大信息熵法和支持向量机法在句子边界消歧问题上具有相近的性能,同时还表明,对生物医学文献句子边界识别,只使用词法层面的特征,不使用辅助词表和词性等语法层面的信息,仍可达到其它算法在一般英语书面语上利用辅助词表和词性信息所达到的性能.
-
关键词
自然语言处理
生物信息抽取
句子边界识别
机器学习
-
Keywords
natural language processing
biomedical information extraction
sentence boundary detection
machine learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名统计与规则相结合的维吾尔语句子边界识别
被引量:7
- 2
-
-
作者
艾山.吾买尔
吐尔根.依步拉音
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第14期162-165,共4页
-
基金
国家自然科学基金No.60663006
新疆维吾尔自治区高新技术计划项目No.200712109~~
-
文摘
句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后使用最大熵模型对有歧义段落进行句子边界识别。该方法有效利用规则弥补最大熵模型因数据稀疏而误判不存在任何歧义情况的不足,使用最大熵模型有效地消除歧义,提高算法的鲁棒性,召回率达到了98.77%。
-
关键词
维吾尔文
句子边界识别
规则
特征选择
最大熵
-
Keywords
Uyghur
sentence boundary detection
rule
feature extraction
maximum entropy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于最大熵的维吾尔语句子边界识别模型
被引量:7
- 3
-
-
作者
艾山.吾买尔
吐尔根.依步拉音
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第6期24-26,38,共4页
-
基金
国家自然科学基金资助项目(60663006)
新疆维吾尔自治区高技术计划基金资助项目(200712109)
新疆维吾尔自治区高校科研计划基金资助重点项目(XJEDU2008I08)
-
文摘
采用最大熵模型实现维吾尔语句子边界识别,该模型的训练过程不需要提供手工收集规则、词性标注及形态分析,仅使用较容易获取的单词长度和音节等特征。为确定最佳特征模板,在特征空间上组合出不同特征模板进行测试。实验结果表明,最佳特征模板具有较强的鲁棒性,召回率可达97.72%。
-
关键词
维吾尔语
句子边界识别
特征选择
最大熵
-
Keywords
Uyghur
sentence boundary identification
feature selection
Maximum Eatropy(ME)
-
分类号
N945.12
[自然科学总论—系统科学]
-
-
题名现代藏语助动词结尾句子边界识别方法
- 4
-
-
作者
赵维纳
于新
刘汇丹
李琳
王磊
吴健
-
机构
青海师范大学
-
出处
《中文信息学报》
CSCD
北大核心
2013年第1期115-119,共5页
-
基金
国家重大科技专项资助项目(2010ZX01036-001-002
2010ZX01037-001-002)
+2 种基金
国家自然科学基金资助项目(61202219
61202220)
中国科学院知识创新工程资助项目(KGCX2-YW-512)
-
文摘
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。
-
关键词
藏语分句
藏语句子边界识别
藏语信息处理
中文信息处理
-
Keywords
sentence boundary detection
Tibetan sentence boundary detection
Tibetan information processing
Chinese information processing
-
分类号
TP391
[自动化与计算机技术]
-
-
题名最大熵和规则相结合的藏文句子边界识别方法
- 5
-
-
作者
李响
才藏太
姜文斌
吕雅娟
刘群
-
机构
中国科学院计算技术研究所
-
出处
《中文信息学报》
CSCD
北大核心
2011年第4期39-44,共6页
-
基金
国家自然科学基金重大研究计划培育项目(90920004),国家自然科学基金重点资助项目(60736014)
-
文摘
句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。
-
关键词
最大熵
句子边界识别
藏文信息处理
-
Keywords
maximum entropy
sentence boundary identification
Tibetan information processing
-
分类号
TP391
[自动化与计算机技术]
-
-
题名基于小句复合体的句子边界自动识别研究
被引量:2
- 6
-
-
作者
何晓文
罗智勇
胡紫娟
王瑞琦
-
机构
北京语言大学信息科学学院
-
出处
《中文信息学报》
CSCD
北大核心
2021年第5期1-8,共8页
-
基金
北京语言大学研究生创新基金(中央高校基本科研业务费专项资金)(19YCX124)
国家自然科学基金(62076037)。
-
文摘
自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型。实验结果表明,该模型对句子边界自动识别正确率、F_(1)值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果。
-
关键词
句子
小句复合体
句子边界识别
-
Keywords
sentence
clause complex
sentence boundary recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-