题名 语料库词性标注一致性检查方法研究
被引量:9
1
作者
张虎
郑家恒
刘江
机构
山西大学计算机科学系
出处
《中文信息学报》
CSCD
北大核心
2004年第5期11-16,共6页
基金
国家"8 6 3"高技术研究发展计划资助项目 (2 0 0 1AA4 0 31)
文摘
在对大规模语料库进行深加工时 ,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法 ,该方法避开了以前一贯采用的规则或统计的方法 ,利用聚类和分类的思想 ,对范例进行聚类并求出阈值 ,对测试数据分类来确定其标注的正误 ,进而得出每篇文章的词性标注一致性情况 。
关键词
计算机应用
中文信息处理
词性标注一致性
兼类词
聚类
Keywords
computer application
Chinese information processing
the consistence of part of speech tagging
conversion of parts of speech
clustering
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于分类的汉语语料库词性标注一致性检查
被引量:3
2
作者
张虎
郑家恒
机构
山西大学计算机与信息技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第8期90-92,共3页
基金
国家自然科学基金资助项目(60473139)
山西省自然科学基金资助项目(20051034)
山西大学青年基金资助项目(2006011)
文摘
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。
关键词
分类
词性标注
兼类词
词性标注一致性
Keywords
classification
POS tagging
multi-category words
consistency of speech tagging
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文电子病历命名实体标注语料库构建
被引量:22
3
作者
曲春燕
关毅
杨锦锋
赵永杰
刘雅欣
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨医科大学附属第四医院
哈尔滨医科大学附属第二医院
出处
《高技术通讯》
CAS
CSCD
北大核心
2015年第2期143-150,共8页
基金
国家自然科学基金(60975077)资助项目
文摘
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。
关键词
中文电子病历(CEMR)
命名实体
标注 语料库
标注 规范
标注一致性 (IAA)
Keywords
Chinese electronic medical record( CEMR), named entity, annotated corpus, annotation specifi-cation, inter-annotator agreement (IAA)
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 面向中文电子病历的词法语料标注研究
被引量:10
4
作者
蒋志鹏
赵芳芳
关毅
杨锦锋
机构
哈尔滨工业大学计算机科学与技术学院
出处
《高技术通讯》
CAS
CSCD
北大核心
2014年第6期609-615,共7页
基金
国家自然科学基金(60975077)资助项目
文摘
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。
关键词
中文电子病历(CEMR)
词性标注
标注一致性
语料差异
错误分析
Keywords
Chinese electronic medical record (CEMR), part-of-speech tagging, annotation consistency, statistical lexical differences, error analysis
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 南美白对虾养殖领域中文命名实体识别数据集构建
5
作者
彭小红
邓峰
余应淮
机构
广东海洋大学数学与计算机学院
出处
《计算机工程与应用》
北大核心
2025年第9期353-362,共10页
基金
广东省对虾现代种业智慧平台(2022GCZX001)。
文摘
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。
关键词
命名实体识别
VamNER数据集
标注 者间一致性 (IAA)
基于变换器的双向编码器表示(BERT)
双向长短期记忆神经网络(BiLSTM)
条件随机场(CRF)
Keywords
named entity recognition
VamNER dataset
inter-annotation agreement(IAA)
bidirectional encoder representations from Transformers(BERT)
bidirectional long short-term memory network(BiLSTM)
conditional random fields(CRF)
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 汉英词语对齐规范
被引量:1
6
作者
赵红梅
刘群
张瑞强
吕雅娟
隅田英一郎
吴翠玲
机构
中国科学院计算技术研究所智能信息处理重点实验室
日本情报通信研究机构-国际电气通信基础技术研究所
出处
《中文信息学报》
CSCD
北大核心
2009年第3期65-87,共23页
文摘
该文介绍了一个新的汉英词语对齐规范。该规范以现有的LDC汉英词语对齐规范为基础,对其进行了较大的改进和扩展,特别是提出了一种全新的对齐标注方法——将词语对齐区分为真对齐和伪对齐,真对齐又分为强对齐和弱对齐。这种细化的标注方法能够更好地刻画词语对齐的特点。该规范已经实际应用于大规模的人工词语对齐标注中。我们对对齐标注的一致性进行了评价。结果表明,在该规范的指导下,标注者内部和标注者间的对齐都取得了比较理想的一致性,两组强、弱、伪三种对齐的Kappa值分别为0.99、0.98、0.93和0.96、0.83、0.68。最后,一个简单的实验初步证实了该规范在统计机器翻译中的有效性。
关键词
人工智能
机器翻译
汉英词语对齐规范
手工词语对齐
真对齐
伪对齐
强对齐
弱对齐
对齐和标注一致性
Keywords
artificial intelligence
machine translation
annotation guidelines for Chinese-English word alignment
manual word alignment
genuine link
pseudo link
strong link
weak link
alignment and annotation agreement
分类号
TP391
[自动化与计算机技术—计算机应用技术]