期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
11
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
汉语词性自动标注系统的设计与实现
被引量:
4
1
作者
王素格
张永奎
《计算机工程》
CAS
CSCD
北大核心
2001年第3期7-8,65,共3页
介绍了汉语词性自动标注系统的设计与实现.该系统实现了统计与规则相结合的方法进行汉语词性自动标注.描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详...
介绍了汉语词性自动标注系统的设计与实现.该系统实现了统计与规则相结合的方法进行汉语词性自动标注.描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详细的介绍。
展开更多
关键词
汉语词性自动标注系统
自然语言理解
语料库
神经网络
设计
在线阅读
下载PDF
职称材料
基于多层有限状态自动机的多输入汉语词性标注系统
被引量:
1
2
作者
孔骏
陈玉泉
陆汝占
《计算机工程》
CAS
CSCD
北大核心
2001年第2期30-31,98,共3页
将带有歧义的切分字段作为词性标注系统的输入,并在词性标注系统中引入了有限状态自动机进行部分句法分析以排除切分和标注歧义,实现了一个结合部分句法分析的汉语词性标注系统。
关键词
汉语
词性
标注
系统
有限状态
自动
机
自然语言处理
在线阅读
下载PDF
职称材料
统计与规则并举的汉语词性自动标注算法
被引量:
15
3
作者
张民
李生
+1 位作者
赵铁军
张艳风
《软件学报》
EI
CSCD
北大核心
1998年第2期134-138,共5页
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考...
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%.
展开更多
关键词
汉语
词性
标注
自动
标注
算法
语言信息处理
在线阅读
下载PDF
职称材料
汉语语料词性标注自动校对方法的研究
被引量:
11
4
作者
钱揖丽
郑家恒
《中文信息学报》
CSCD
北大核心
2004年第2期30-35,共6页
兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词...
兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词性校对规则 ,并应用获取的规则实现对机器初始标注语料的自动校对 ,从而提高语料中兼类词的词性标注质量。分别对 5 0万汉语语料做封闭测试和开放测试 ,结果显示 ,校对后语料的兼类词词性标注正确率分别可提高 11 32 %和 5 97%。
展开更多
关键词
计算机应用
中文信息处理
兼类词
汉语
词性
标注
自动
校对
粗糙集
在线阅读
下载PDF
职称材料
一种英文词性自动标注系统的抽象模型
5
作者
吴岩
刘挺
王开铸
《计算机应用研究》
CSCD
1998年第3期46-47,共2页
本文提出了基于封闭词、词形及规则的英文文本的定词性方法,并给出了其抽象模型及实现过程的形式描述,最后给出了应用此方法的实验实例。
关键词
英文
词性
自动
标注
系统
关键词
自动
文摘
在线阅读
下载PDF
职称材料
第一届古代汉语分词和词性标注国际评测
被引量:
7
6
作者
李斌
袁义国
+4 位作者
芦靖雅
冯敏萱
许超
曲维光
王东波
《中文信息学报》
CSCD
北大核心
2023年第3期46-53,64,共9页
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,...
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。
展开更多
关键词
古
汉语
评测
自动
分词
词性
标注
古文信息处理
在线阅读
下载PDF
职称材料
汉语语句中短语间停顿的自动预测方法
被引量:
8
7
作者
聂鑫
王作英
《中文信息学报》
CSCD
北大核心
2003年第4期39-44,共6页
在文语转换 (TTS)系统中 ,正确标记短语间的停顿对提高合成语音的自然度起着重要作用。本文介绍了一种在汉语语句中自动预测短语间停顿的方法。首先 ,文本进行分词 ,并转换为一列由词性标记所组成的序列 ;然后使用马尔可夫模型 ,利用人...
在文语转换 (TTS)系统中 ,正确标记短语间的停顿对提高合成语音的自然度起着重要作用。本文介绍了一种在汉语语句中自动预测短语间停顿的方法。首先 ,文本进行分词 ,并转换为一列由词性标记所组成的序列 ;然后使用马尔可夫模型 ,利用人工标注数据库训练词语连接处词性标注序列的概率分布和连接类型序列的距离信息 ,得到输入的词性标记序列对应的具有最大似然概率的连接类型序列 ,最后利用后处理规则进行适当的纠错。本文针对不同的模型参数进行了测试 ,短语间停顿自动预测的召回率和连接类型正确率分别达到了 6 8 2 %和 85 1% ,取得了比较满意的结果。
展开更多
关键词
语音合成
文语转换
系统
汉语
语句
短语间停顿
自动
预测方法
词性
标注
马尔可夫模型
在线阅读
下载PDF
职称材料
北京大学现代汉语语料库基本加工规范
被引量:
131
8
作者
俞士汶
段慧明
+1 位作者
朱学锋
孙斌
《中文信息学报》
CSCD
北大核心
2002年第5期49-64,共16页
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语...
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
展开更多
关键词
北京大学
现代
汉语
语料库
基本加工规范
词语切分
词性
标注
汉字处理
系统
名词
标注
语素子类
标注
在线阅读
下载PDF
职称材料
北京大学现代汉语语料库基本加工规范(续)
被引量:
19
9
作者
俞士汶
段慧明
+1 位作者
朱学锋
孙斌
《中文信息学报》
CSCD
北大核心
2002年第6期58-65,共8页
北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规...
北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。
展开更多
关键词
北京大学
现代
汉语
语料库
加工规范
词语切分
词性
标注
名词
标注
汉字处理
系统
在线阅读
下载PDF
职称材料
基于边界点词性特征统计的韵律短语切分
被引量:
13
10
作者
牛正雨
柴佩琪
《中文信息学报》
CSCD
北大核心
2001年第5期19-25,共7页
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注 ,然后利用从...
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注 ,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息 ,对文本中的韵律短语切分点进行自动预测 ,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试 ,词性标注的正确率在 95%左右 ,韵律短语切分的召回率在 6 0 %左右 ,正确率达到了 80 %。
展开更多
关键词
韵律短语切分
自动
词性
标注
语料库
统计方法
自动
分词
边界点
词性
文本处理
系统
在线阅读
下载PDF
职称材料
提高韵律短语正确切分方法的研究
11
作者
吴晓慧
柴佩琪
《计算机工程》
CAS
CSCD
北大核心
2003年第2期151-152,160,共3页
汉语自动词性标注和韵律短语切分都是汉语文语转换(Text-to-Speech)系统的重要组成部分。在用从人工标注的语料库中得到韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测时,语素'g'这种词性就...
汉语自动词性标注和韵律短语切分都是汉语文语转换(Text-to-Speech)系统的重要组成部分。在用从人工标注的语料库中得到韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测时,语素'g'这种词性就过于模糊,导致韵律短语切分点预测得不合理。该文提出了一种修改词类标注集,去掉语素'g'这种词性的方法。该方法在进行词性标注时,对实语素恰当地标注出在句中的词性,以便提高韵律短语的正确切分。应用此方法对10万词的训练集和5万词的测试集分别进行封闭和开放测试表明,词性标注正确率分别可达96.67%和92.60%。并采用修改过的词类标注集,对1000句的文本进行了韵律短语切分点的预测,召回率在66.21%左右,正确率达到了75.79%。
展开更多
关键词
韵律短语
切分方法
词性
标注
词类
标注
集
语素
汉语
信息处理
汉语
文语转换
系统
在线阅读
下载PDF
职称材料
题名
汉语词性自动标注系统的设计与实现
被引量:
4
1
作者
王素格
张永奎
机构
山西大学计算机科学系
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第3期7-8,65,共3页
基金
国家自然科学基金项目(69575011)
国家863项目(863-306-ZT03-03-1)
山西省自然科学基金项目(99
文摘
介绍了汉语词性自动标注系统的设计与实现.该系统实现了统计与规则相结合的方法进行汉语词性自动标注.描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详细的介绍。
关键词
汉语词性自动标注系统
自然语言理解
语料库
神经网络
设计
Keywords
Part-of-speech automatic tagging
Word table
Corpus
Rough set
Collocation mode
Statistic model
分类号
TB391.12 [一般工业技术—材料科学与工程]
在线阅读
下载PDF
职称材料
题名
基于多层有限状态自动机的多输入汉语词性标注系统
被引量:
1
2
作者
孔骏
陈玉泉
陆汝占
机构
上海交通大学计算机系
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期30-31,98,共3页
基金
863计划资助项目!(863-306-ZT06-02-2)
文摘
将带有歧义的切分字段作为词性标注系统的输入,并在词性标注系统中引入了有限状态自动机进行部分句法分析以排除切分和标注歧义,实现了一个结合部分句法分析的汉语词性标注系统。
关键词
汉语
词性
标注
系统
有限状态
自动
机
自然语言处理
Keywords
Natural language processing;Tagging;Partial syntactic analysis
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
统计与规则并举的汉语词性自动标注算法
被引量:
15
3
作者
张民
李生
赵铁军
张艳风
机构
哈尔滨工业大学计算机科学与工程系
出处
《软件学报》
EI
CSCD
北大核心
1998年第2期134-138,共5页
基金
国家863高科技项目基金
文摘
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%.
关键词
汉语
词性
标注
自动
标注
算法
语言信息处理
Keywords
Chinese, part of speech tagging, hidden Markov model, rule, confidence intervals. Class number\ TP391
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
汉语语料词性标注自动校对方法的研究
被引量:
11
4
作者
钱揖丽
郑家恒
机构
山西大学计算机科学系
出处
《中文信息学报》
CSCD
北大核心
2004年第2期30-35,共6页
基金
国家 8 6 3高技术研究发展计划资助 (2 0 0 1AA114 0 31)
文摘
兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词性校对规则 ,并应用获取的规则实现对机器初始标注语料的自动校对 ,从而提高语料中兼类词的词性标注质量。分别对 5 0万汉语语料做封闭测试和开放测试 ,结果显示 ,校对后语料的兼类词词性标注正确率分别可提高 11 32 %和 5 97%。
关键词
计算机应用
中文信息处理
兼类词
汉语
词性
标注
自动
校对
粗糙集
Keywords
computer application
Chinese information processing
multi-category word
Chinese part-of-speech tagging
automatic correction
rough sets
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种英文词性自动标注系统的抽象模型
5
作者
吴岩
刘挺
王开铸
机构
哈尔滨工业大学计算机系
出处
《计算机应用研究》
CSCD
1998年第3期46-47,共2页
文摘
本文提出了基于封闭词、词形及规则的英文文本的定词性方法,并给出了其抽象模型及实现过程的形式描述,最后给出了应用此方法的实验实例。
关键词
英文
词性
自动
标注
系统
关键词
自动
文摘
分类号
G356.7 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
第一届古代汉语分词和词性标注国际评测
被引量:
7
6
作者
李斌
袁义国
芦靖雅
冯敏萱
许超
曲维光
王东波
机构
南京师范大学文学院
南京师范大学计算机与电子信息学院
南京农业大学信息管理学院
出处
《中文信息学报》
CSCD
北大核心
2023年第3期46-53,64,共9页
基金
国家社会科学基金(21ZD&331)
江苏省社会科学基金(20JYB004)
+1 种基金
国家语委项目(YB145—41)
古籍工作重点课题(22GJK006)
文摘
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。
关键词
古
汉语
评测
自动
分词
词性
标注
古文信息处理
Keywords
ancient Chinese
evaluation
word segmentation
POS tagging
ancient language information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
汉语语句中短语间停顿的自动预测方法
被引量:
8
7
作者
聂鑫
王作英
机构
清华大学电子工程系
出处
《中文信息学报》
CSCD
北大核心
2003年第4期39-44,共6页
文摘
在文语转换 (TTS)系统中 ,正确标记短语间的停顿对提高合成语音的自然度起着重要作用。本文介绍了一种在汉语语句中自动预测短语间停顿的方法。首先 ,文本进行分词 ,并转换为一列由词性标记所组成的序列 ;然后使用马尔可夫模型 ,利用人工标注数据库训练词语连接处词性标注序列的概率分布和连接类型序列的距离信息 ,得到输入的词性标记序列对应的具有最大似然概率的连接类型序列 ,最后利用后处理规则进行适当的纠错。本文针对不同的模型参数进行了测试 ,短语间停顿自动预测的召回率和连接类型正确率分别达到了 6 8 2 %和 85 1% ,取得了比较满意的结果。
关键词
语音合成
文语转换
系统
汉语
语句
短语间停顿
自动
预测方法
词性
标注
马尔可夫模型
Keywords
computer application
Chinese information processing
phrase break
part-of-speech tagging
markov model
分类号
TN912.33 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
北京大学现代汉语语料库基本加工规范
被引量:
131
8
作者
俞士汶
段慧明
朱学锋
孙斌
机构
北京大学计算机系
出处
《中文信息学报》
CSCD
北大核心
2002年第5期49-64,共16页
基金
国家自然基金(69483003)
973项目(G1998030507-4)
863项目(2001AA1140)
文摘
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
关键词
北京大学
现代
汉语
语料库
基本加工规范
词语切分
词性
标注
汉字处理
系统
名词
标注
语素子类
标注
Keywords
contemporary Chinese
corpus
word segmentation
part-of-speech tagging
specification
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
北京大学现代汉语语料库基本加工规范(续)
被引量:
19
9
作者
俞士汶
段慧明
朱学锋
孙斌
机构
北京大学计算机系
出处
《中文信息学报》
CSCD
北大核心
2002年第6期58-65,共8页
基金
国家自然基金 (6 94 830 0 3)
973项目 (G19980 30 5 0 7- 4 )
86 3项目 (2 0 0 1AA114 0 )
文摘
北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。
关键词
北京大学
现代
汉语
语料库
加工规范
词语切分
词性
标注
名词
标注
汉字处理
系统
Keywords
contemporary Chinese
corpus
word segmentation
part of speech tagging
specification
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于边界点词性特征统计的韵律短语切分
被引量:
13
10
作者
牛正雨
柴佩琪
机构
同济大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2001年第5期19-25,共7页
文摘
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注 ,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息 ,对文本中的韵律短语切分点进行自动预测 ,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试 ,词性标注的正确率在 95%左右 ,韵律短语切分的召回率在 6 0 %左右 ,正确率达到了 80 %。
关键词
韵律短语切分
自动
词性
标注
语料库
统计方法
自动
分词
边界点
词性
文本处理
系统
Keywords
prosodic phrasing
part-of-speech tagging
corpus
statistical approach
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
提高韵律短语正确切分方法的研究
11
作者
吴晓慧
柴佩琪
机构
同济大学计算机科学与工程系
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第2期151-152,160,共3页
文摘
汉语自动词性标注和韵律短语切分都是汉语文语转换(Text-to-Speech)系统的重要组成部分。在用从人工标注的语料库中得到韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测时,语素'g'这种词性就过于模糊,导致韵律短语切分点预测得不合理。该文提出了一种修改词类标注集,去掉语素'g'这种词性的方法。该方法在进行词性标注时,对实语素恰当地标注出在句中的词性,以便提高韵律短语的正确切分。应用此方法对10万词的训练集和5万词的测试集分别进行封闭和开放测试表明,词性标注正确率分别可达96.67%和92.60%。并采用修改过的词类标注集,对1000句的文本进行了韵律短语切分点的预测,召回率在66.21%左右,正确率达到了75.79%。
关键词
韵律短语
切分方法
词性
标注
词类
标注
集
语素
汉语
信息处理
汉语
文语转换
系统
Keywords
Part-of-speech tagging
POS tag set
Morphemes
Prosodic phrase
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
汉语词性自动标注系统的设计与实现
王素格
张永奎
《计算机工程》
CAS
CSCD
北大核心
2001
4
在线阅读
下载PDF
职称材料
2
基于多层有限状态自动机的多输入汉语词性标注系统
孔骏
陈玉泉
陆汝占
《计算机工程》
CAS
CSCD
北大核心
2001
1
在线阅读
下载PDF
职称材料
3
统计与规则并举的汉语词性自动标注算法
张民
李生
赵铁军
张艳风
《软件学报》
EI
CSCD
北大核心
1998
15
在线阅读
下载PDF
职称材料
4
汉语语料词性标注自动校对方法的研究
钱揖丽
郑家恒
《中文信息学报》
CSCD
北大核心
2004
11
在线阅读
下载PDF
职称材料
5
一种英文词性自动标注系统的抽象模型
吴岩
刘挺
王开铸
《计算机应用研究》
CSCD
1998
0
在线阅读
下载PDF
职称材料
6
第一届古代汉语分词和词性标注国际评测
李斌
袁义国
芦靖雅
冯敏萱
许超
曲维光
王东波
《中文信息学报》
CSCD
北大核心
2023
7
在线阅读
下载PDF
职称材料
7
汉语语句中短语间停顿的自动预测方法
聂鑫
王作英
《中文信息学报》
CSCD
北大核心
2003
8
在线阅读
下载PDF
职称材料
8
北京大学现代汉语语料库基本加工规范
俞士汶
段慧明
朱学锋
孙斌
《中文信息学报》
CSCD
北大核心
2002
131
在线阅读
下载PDF
职称材料
9
北京大学现代汉语语料库基本加工规范(续)
俞士汶
段慧明
朱学锋
孙斌
《中文信息学报》
CSCD
北大核心
2002
19
在线阅读
下载PDF
职称材料
10
基于边界点词性特征统计的韵律短语切分
牛正雨
柴佩琪
《中文信息学报》
CSCD
北大核心
2001
13
在线阅读
下载PDF
职称材料
11
提高韵律短语正确切分方法的研究
吴晓慧
柴佩琪
《计算机工程》
CAS
CSCD
北大核心
2003
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部