期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于前后文词形特征的生物医学文献句子边界识别 被引量:1
1
作者 于中华 张容 +2 位作者 唐常杰 左劼 张天庆 《小型微型计算机系统》 CSCD 北大核心 2006年第1期180-184,共5页
针对生物医学文献的特点及信息抽取的特殊要求,提出了基于前后文词形特征和有教师学习的句子边界识别算法.与针对一般英语书面语设计的句子边界识别算法不同,本文提出的算法不使用特殊的辅助词表和语法层面的特征信息,只使用前后文单词... 针对生物医学文献的特点及信息抽取的特殊要求,提出了基于前后文词形特征和有教师学习的句子边界识别算法.与针对一般英语书面语设计的句子边界识别算法不同,本文提出的算法不使用特殊的辅助词表和语法层面的特征信息,只使用前后文单词的词形信息作为句子边界识别和消歧的依据.利用这些特征设计了最大信息熵识别器和支持向量机识别器,并在Medline摘要上进行了实验,达到了超过99%的正确率.实验结果表明,最大信息熵法和支持向量机法在句子边界消歧问题上具有相近的性能,同时还表明,对生物医学文献句子边界识别,只使用词法层面的特征,不使用辅助词表和词性等语法层面的信息,仍可达到其它算法在一般英语书面语上利用辅助词表和词性信息所达到的性能. 展开更多
关键词 自然语言处理 生物信息抽取 句子边界识别 机器学习
在线阅读 下载PDF
统计与规则相结合的维吾尔语句子边界识别 被引量:7
2
作者 艾山.吾买尔 吐尔根.依步拉音 《计算机工程与应用》 CSCD 北大核心 2010年第14期162-165,共4页
句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后使用最大熵模型对有... 句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后使用最大熵模型对有歧义段落进行句子边界识别。该方法有效利用规则弥补最大熵模型因数据稀疏而误判不存在任何歧义情况的不足,使用最大熵模型有效地消除歧义,提高算法的鲁棒性,召回率达到了98.77%。 展开更多
关键词 维吾尔文 句子边界识别 规则 特征选择 最大熵
在线阅读 下载PDF
基于最大熵的维吾尔语句子边界识别模型 被引量:7
3
作者 艾山.吾买尔 吐尔根.依步拉音 《计算机工程》 CAS CSCD 北大核心 2010年第6期24-26,38,共4页
采用最大熵模型实现维吾尔语句子边界识别,该模型的训练过程不需要提供手工收集规则、词性标注及形态分析,仅使用较容易获取的单词长度和音节等特征。为确定最佳特征模板,在特征空间上组合出不同特征模板进行测试。实验结果表明,最佳特... 采用最大熵模型实现维吾尔语句子边界识别,该模型的训练过程不需要提供手工收集规则、词性标注及形态分析,仅使用较容易获取的单词长度和音节等特征。为确定最佳特征模板,在特征空间上组合出不同特征模板进行测试。实验结果表明,最佳特征模板具有较强的鲁棒性,召回率可达97.72%。 展开更多
关键词 维吾尔语 句子边界识别 特征选择 最大熵
在线阅读 下载PDF
现代藏语助动词结尾句子边界识别方法
4
作者 赵维纳 于新 +3 位作者 刘汇丹 李琳 王磊 吴健 《中文信息学报》 CSCD 北大核心 2013年第1期115-119,共5页
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特... 藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。 展开更多
关键词 藏语分句 藏语句子边界识别 藏语信息处理 中文信息处理
在线阅读 下载PDF
最大熵和规则相结合的藏文句子边界识别方法
5
作者 李响 才藏太 +2 位作者 姜文斌 吕雅娟 刘群 《中文信息学报》 CSCD 北大核心 2011年第4期39-44,共6页
句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利... 句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。 展开更多
关键词 最大熵 句子边界识别 藏文信息处理
在线阅读 下载PDF
基于小句复合体的句子边界自动识别研究 被引量:2
6
作者 何晓文 罗智勇 +1 位作者 胡紫娟 王瑞琦 《中文信息学报》 CSCD 北大核心 2021年第5期1-8,共8页
自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言... 自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型。实验结果表明,该模型对句子边界自动识别正确率、F_(1)值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果。 展开更多
关键词 句子 小句复合体 句子边界识别
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部