-
题名句法标注的一般模型与参数分析
被引量:1
- 1
-
-
作者
李良炎
何中市
-
机构
重庆大学语言认知及信息处理研究所
-
出处
《计算机科学》
CSCD
北大核心
2007年第11期189-192,238,共5页
-
基金
国家自然科学基金(60173060)
-
文摘
句法标注是语料标注的重点、难点所在,必须以一定的句法理论为基础。短语结构语法和依存语法是句法标注的基础理论,彼此却有很大的不同。本文以形式化为目标,提出句法标注的一般模型,分析比较两种句法标注的参数异同,深刻揭示了基于短语结构语法和基于依存语法的句法标注与一般模型之间的关系,并提出阅读依存中心原则,力图解决基于依存语法的句法标注难以标注缺省结构的问题。
-
关键词
句法标注
短语结构语法
依存语法
阅读依存中心原则
-
Keywords
Syntax tagging, Phrase structure grammar,Dependency grammar,Reading dependency head principle
-
分类号
N941.1
[自然科学总论—系统科学]
-
-
题名新的句法标注模型探索
被引量:1
- 2
-
-
作者
李良炎
-
机构
重庆大学语言认知及信息处理研究所
-
出处
《重庆大学学报(社会科学版)》
2007年第3期131-134,共4页
-
文摘
由于自然语言的语义存在不确定性,形式化很困难,因此语义处理成为自然语言处理的瓶颈所在。基于大规模标注语料库的语义处理已经成为发展趋势,语料标注本质上就是语言知识(包括语义)形式化。现有句法标注模型主要包括基于短语结构语法(PSG)和基于依存语法(DG)的句法标注模型,还存在一些局限性。文章在现有句法标注模型的基础上结合认知语法(CG)的有关理论提出改进思路,以探索新的句法标注模型。
-
关键词
语料库语言学
语义处理
句法标注模型
-
Keywords
corpus linguistics
semantic processing
syntax tagging model
-
分类号
H043
[语言文字—语言学]
-
-
题名融合格序列和多维语义特征的藏语句法成分标注研究
- 3
-
-
作者
尕藏扎西
多拉
冷本扎西
-
机构
西北民族大学中国语言文学学部
青海师范大学藏语智能全国重点实验室
-
出处
《高原科学研究》
2025年第1期119-128,共10页
-
基金
国家自然科学基金项目(62266037,62206146)
青海省科技厅科技基础条件平台项目(2023-ZJ-T02)
青海师范大学自然科学中青年科研基金项目(KJQH2022011)。
-
文摘
深层句法分析是藏语自然语言理解中的关键难题之一。针对现有藏语句法分析模型性能欠佳的问题,文章提出一种融合格序列知识和多维语义特征的藏语句法成分标注方法。该方法以提取藏语格序列对句法成分的约束信息为主要语义特征,进而融合藏文字丁、词、词性等多维语义特征后,用Bi-LSTM+CRF联合预测藏语句法成分标记。实验结果显示,该方法在真实语料中的准确率达90.67%、精确率达87.00%、召回率达87.33%,F1值达87.16%,其F1值高于所有基线模型。此外,通过消融实验验证了融合藏语格序列知识及其他特征的WPCc_BiLSTM+CRF模型可大幅提升藏语句法成分标注性能。
-
关键词
藏语格序列
语义特征
句法成分标注
句法分析
-
Keywords
Tibetan case sequence
semantic features
syntactic component labeling
syntactic analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于变换的汉语句法功能标注探讨
被引量:5
- 4
-
-
作者
周明
潘海华
-
机构
清华大学计算机科学与技术系
香港城市大学中文
-
出处
《中文信息学报》
CSCD
北大核心
1997年第4期1-10,共10页
-
基金
香港城市大学科研项目
国家自然科学基金和航天预研基金
-
文摘
本文尝试利用基于变换的方法标注中文句子词汇的句法功能。系统输入已分词并标注了词性的句子,输出每个词的依存关系。我们首先设计了一个由44种依存关系组成的汉语依存体系,然后以人机互助的方式标注了1300句中文句子。其中1100句作为训练文本用来获取标注规则,余下200句用做测试。设计了17类变换模板,采用基于变换的算法获取了60条有序的依存关系标注规则。在测试时,对新词标注以该词词性所对应的最高频的依存关系作为初始标注以提高鲁棒性。实验表明这种方法简单可行,取得了初步满意的效果。
-
关键词
基于变换
学习算法
汉语
句法标注
信息处理
-
Keywords
:Transformationbased learning algorithm, Chinese, Syntactic tagging,Dependency relation.
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于格序列的藏语句法成分标注数据集构建方法研究
- 5
-
-
作者
尕藏扎西
冷本扎西
多拉
-
机构
西北民族大学中国语言文学学部
-
出处
《高原科学研究》
2023年第4期95-105,共11页
-
基金
甘肃省优秀研究生“创新之星”项目(2022CXZX-177)
国家自然科学基金项目(62266037,62206146)
青海省科技厅科技基础条件平台项目(2023-ZJ-T02)。
-
文摘
在藏语自然语言处理研究中,藏语数据资源严重稀缺,基于大数据驱动的句法研究范式尚不可行,且目前还未构建公开可用的句法成分标注库,藏语句法成分标注数据集成为攻克深层句法分析及自然语言理解的关键制约。文章通过计算语言学、藏语格语法等多学科方法,研究格序列标记对藏语句法结构的制约和标识功能;再进行形式化描述,最终制定一套以格标记语义功能为主要依据,以谓词等其他形式标记为辅助依据的藏语句法成分标注数据集构建方法。在藏语单、双谓语句及多谓语句、通格结构类复杂句型中开放测试显示,avg_total方案的精确率、召回率、F1值分别达到87.08%、75.36%、80.69%。
-
关键词
藏语
格助词
句法标注
句法成分
-
Keywords
Tibetan
case particle
syntactic annotation
syntactic component
-
分类号
TP391.1
[自动化与计算机技术]
-
-
题名基于判别式的藏语依存句法分析
- 6
-
-
作者
华却才让
赵海兴
-
机构
青海师范大学藏文信息研究中心
-
出处
《计算机工程》
CAS
CSCD
2013年第4期300-304,共5页
-
基金
国家自然科学基金资助项目(61063033
61163018)
+1 种基金
国家"973"计划前期研究专项基金资助项目(2010CB334708)
青海省科技基金资助项目(2011-Z-752)
-
文摘
现有藏语句法体系复杂,不利于藏文自然语言处理的应用。为此,提出基于判别式的藏语依存句法分析方法,采用感知机方法训练句法分析模型,CYK自底向上算法解码生成最大生成树。实验结果表明,在人工标注的测试集上,句法分析正确率达到81.2%,可实际应用到藏语依存树库的构建和其他自然语言处理中。
-
关键词
藏语依存句法
句法标注规范
最大生成树
特征模板
依存句法
感知机
-
Keywords
Tibetan dependency syntax
syntax tagging specification
maximum-spanning tree
feature template
dependency syntax
perceptron
-
分类号
TP391
[自动化与计算机技术]
-
-
题名藏语依存树库的构建技术研究
- 7
-
-
作者
头旦才让
尼玛扎西
完么扎西
-
机构
西藏大学信息科学技术学院
-
出处
《高原科学研究》
2018年第3期97-103,共7页
-
基金
国家自然科学基金项目(61262051
61866032)
+2 种基金
教育部"春晖计划"(Z2016077)
青海省科技计划项目(2017-GX-146)
青海省基础研究项目(2017-ZJ-767)
-
文摘
藏语依存树库的构建是藏文信息处理研究中的关键技术之一。文章在收集和整理1万句藏语分词标注语料基础上,研究了藏语依存树库构建技术和方法,根据指定的藏语依存句法标注集和藏语依存句法标注工具,建立了规模为1万句、词语总数为119,510个、平均句长为12个词的藏语依存树库,并对建立的藏语依存树库进行了词类分布统计。
-
关键词
藏语
依存树库
句法标注
-
Keywords
Tibetan
dependence Treebank
syntax label
-
分类号
TP391.1
[自动化与计算机技术]
-