期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
哈萨克语动词短语自动识别研究与实现 被引量:3
1
作者 古丽扎达·海沙 古丽拉·阿东别克 《计算机工程与应用》 CSCD 北大核心 2015年第2期218-223,240,共7页
由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克... 由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(Kz Base VP)进行识别。在该混合策略系统中,根据专属Kz Base VP的特点构建了Kz Base VP搭配规则集,通过规则集对无歧义的Kz Base VP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的Kz Base VP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。 展开更多
关键词 哈萨克语基本动词短语 短语分析 歧义 最大熵模型 规则集
在线阅读 下载PDF
由粗到精的哈萨克语短语结构句法分析研究 被引量:2
2
作者 梁金莲 古丽拉·阿东别克 《中文信息学报》 CSCD 北大核心 2018年第1期83-88,共6页
该文针对哈萨克语短语结构句法分两个阶段采用由粗到精的方法进行哈萨克语句法分析研究。第一阶段使用粗略的句法分析器生成20个最佳候选树;第二阶段采用感知机的方法训练,提取特征信息,并对第一阶段生成的20个最佳候选树进行重排序,最... 该文针对哈萨克语短语结构句法分两个阶段采用由粗到精的方法进行哈萨克语句法分析研究。第一阶段使用粗略的句法分析器生成20个最佳候选树;第二阶段采用感知机的方法训练,提取特征信息,并对第一阶段生成的20个最佳候选树进行重排序,最终解析结果是第一阶段产生的候选树的结果和重排序结果按照比例选取。该方法在两个阶段不仅可以获取到句子的结构信息,还可以提取到详细的特征信息,可以最大限度地对句子进行解析,获得了较好的句子解析结果,其句法分析正确率为71.4%。 展开更多
关键词 句法分析 PCFG 重排序
在线阅读 下载PDF
基于句子跨度的哈萨克语句法分析研究 被引量:1
3
作者 柴伟 古丽拉·阿东别克 《计算机应用研究》 CSCD 北大核心 2020年第3期731-733,753,共4页
由于目前哈萨克语句法分析准确率较低并缺乏基于神经网络的哈萨克语句法分析的相关研究,针对哈萨克语短语结构的句法分析,使用基于移进—归约的方法,采用在栈中存储句子跨度而不是部分树结构,从而在进行句法树解析时不需要对句法树进行... 由于目前哈萨克语句法分析准确率较低并缺乏基于神经网络的哈萨克语句法分析的相关研究,针对哈萨克语短语结构的句法分析,使用基于移进—归约的方法,采用在栈中存储句子跨度而不是部分树结构,从而在进行句法树解析时不需要对句法树进行二叉化。该研究在句子特征提取时使用双向LSTM对句子跨度特征进行提取,得到句子跨度在整个句子上下文中信息,再使用多层感知机对句法分析模型进行训练,最后在解码时使用动态规划选取最优句法分析结果;最终使得哈萨克语短语句法分析准确率达到了76.92%。研究成果对哈萨克语句法分析准确率有了进一步的提高,并为后续的哈萨克语机器翻译及语义分析奠定良好的基础。 展开更多
关键词 双向LSTM 句子跨度 动态规划
在线阅读 下载PDF
基于PChart算法的哈萨克语句法分析 被引量:4
4
作者 尚文清 古丽拉·阿东别克 +1 位作者 牛娜 于智娟 《计算机工程与设计》 北大核心 2016年第3期832-836,共5页
为研究哈萨克语的句法分析,研究自然语言处理的统计方法的句法分析。根据概率上下无关文法模型和Chart算法的特点,将概率引入Chart算法,提出一种PChart算法。利用PChart算法对哈萨克语进行句法分析,解决句法分析中哈萨克文法的获取和歧... 为研究哈萨克语的句法分析,研究自然语言处理的统计方法的句法分析。根据概率上下无关文法模型和Chart算法的特点,将概率引入Chart算法,提出一种PChart算法。利用PChart算法对哈萨克语进行句法分析,解决句法分析中哈萨克文法的获取和歧义消解问题,实现一个基于PChart算法的哈萨克语句法分析器,识别正确的哈萨克语句子。实验结果表明,该分析器在准确率、召回率等方面的性能都有所提高。 展开更多
关键词 句法分析 自然语言处理 CHART 哈萨克语 统计 概率上下无关文法
在线阅读 下载PDF
基于最大熵的哈萨克语词性标注模型 被引量:4
5
作者 桑海岩 古丽拉.阿东别克 牛宁宁 《计算机工程与应用》 CSCD 2013年第11期126-129,165,共5页
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入... 最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。 展开更多
关键词 自然语言处理 词性标注 最大熵模型 哈萨克语
在线阅读 下载PDF
基于排序集成的哈萨克语固定短语抽取
6
作者 桑海岩 古丽拉·阿东别克 +1 位作者 孙瑞娜 陈莉 《计算机工程与应用》 CSCD 2014年第21期205-209,223,共6页
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富... 短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。 展开更多
关键词 自然语言处理 固定短语 排序集成 互信息 似然比 C-value算法
在线阅读 下载PDF
旅游领域意图识别和槽位填充联合建模方法研究
7
作者 厉雯 古丽拉·阿东别克 +1 位作者 樊诗雨 任方日 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第2期75-82,共8页
构建了基于BERT的双向连接模式BERT-based Bi-directional Association Model(BBAM)以实现在意图识别和槽位填充之间建立双向关系的目标,来实现意图识别与槽位填充的双向关联,融合两个任务的上下文信息,对意图识别与槽位填充两个任务之... 构建了基于BERT的双向连接模式BERT-based Bi-directional Association Model(BBAM)以实现在意图识别和槽位填充之间建立双向关系的目标,来实现意图识别与槽位填充的双向关联,融合两个任务的上下文信息,对意图识别与槽位填充两个任务之间的联系进行深度挖掘,从而优化问句理解的整体性能.为了验证模型在旅游领域中的实用性和有效性,通过远程监督和人工校验构建了旅游领域问句数据集TFQD(Tourism Field Question Dataset),BBAM模型在此数据集上的槽填充任务F 1值得分为95.21%,意图分类准确率(A)为96.71%,整体识别准确率(A_(sentence))高达89.62%,显著优于多种基准模型.所提出的模型在ATIS和Snips两个公开数据集上与主流联合模型进行对比实验后,结果表明其具备一定的泛化能力. 展开更多
关键词 自然语言理解 口语理解 问句理解 旅游领域 智能问答 意图识别 槽位填充 联合建模
在线阅读 下载PDF
基于多特征融合的新疆旅游领域关系抽取研究 被引量:1
8
作者 骆铭 古丽拉·阿东别克 +1 位作者 马雅静 陈赟 《东北师大学报(自然科学版)》 CAS 北大核心 2023年第1期88-96,共9页
通过结合2738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含... 通过结合2738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含较强的语义表征能力的词向量;再使用Bi-LSTM获取更好的语义信息和词向量拼接以捕获长距离的语义特征;用CNN进行特征提取,加强局部特征的学习,并使用注意力池化层(Attentive-pooling)用以强化特征的表达;最后通过Softmax完成关系抽取任务.结果表明:该模型在SemEval-2010 Task 8公开数据集中F1值达到83.46%,证明了其有效性.且模型在新疆旅游领域语料的关系抽取任务中的F1值达到92.73%,优于目前的主流关系抽取模型. 展开更多
关键词 新疆旅游领域 关系抽取 Bi-LSTM CNN Attentive-pooling
在线阅读 下载PDF
基于神经元块级别注意力机制的LSTM关系抽取 被引量:8
9
作者 吴天昊 古丽拉·阿东别克 《计算机应用研究》 CSCD 北大核心 2020年第S02期76-79,共4页
目前关系抽取方法中,传统深度学习方法存在长距离依赖问题,并且未考虑模型内部神经元特征之间的相关性。针对以上问题,提出一种基于神经元块级别注意力机制的LSTM(long short-term memory)关系抽取方法。将多特征向量相融合作为双向LST... 目前关系抽取方法中,传统深度学习方法存在长距离依赖问题,并且未考虑模型内部神经元特征之间的相关性。针对以上问题,提出一种基于神经元块级别注意力机制的LSTM(long short-term memory)关系抽取方法。将多特征向量相融合作为双向LSTM的输入,采用块级别注意力机制对神经元特征进行注意力计算,通过注意力概率分布对神经元特征进行更新,同时采用批标准化算法对神经元的注意力特征进行优化,获取双向LSTM模型的输出特征;最后采用句子级别注意力机制对输出特征进行注意力计算,通过softmax分类器输出分类结果。在SemEval-2010task 8关系数据集上的实验结果表明,该方法的准确率较传统深度学习方法有进一步提升。 展开更多
关键词 关系抽取 双向LSTM 块级别注意力机制 句子级别注意力机制 批标准化算法
在线阅读 下载PDF
基于有向图模型的旅游领域命名实体识别 被引量:7
10
作者 崔丽平 古丽拉·阿东别克 王智悦 《计算机工程》 CAS CSCD 北大核心 2022年第2期306-313,共8页
旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中... 旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。 展开更多
关键词 知识图谱 命名实体识别 卷积神经网络 图神经网络 条件随机场
在线阅读 下载PDF
基于混合卷积网络的短文本实体消歧 被引量:3
11
作者 姜丽婷 古丽拉·阿东别克 马雅静 《中文信息学报》 CSCD 北大核心 2021年第11期101-108,共8页
因短文本实体消歧具有不能完整地表达语义关系、上下文提供的信息较少等局限性。针对以上难点,该文提出了一种新的方法,混合卷积网络(Mixed Convolution Network,MCN)。该方法的核心思想是首先对数据集进行预处理;其次,采用Google提出的... 因短文本实体消歧具有不能完整地表达语义关系、上下文提供的信息较少等局限性。针对以上难点,该文提出了一种新的方法,混合卷积网络(Mixed Convolution Network,MCN)。该方法的核心思想是首先对数据集进行预处理;其次,采用Google提出的BERT模型进行特征提取,并通过注意力机制将特征进一步抽取后作为CNN模型的输入,通过CNN模型获得句子的依赖特征。同时,该文使用GCN模型获取语义特征,将二者提取到的语义信息融合,输出得到结果。在CCKS2019评测数据集上的实验结果表明,该文提出的混合卷积网络取得了86.57%的精确率,验证了该模型的有效性。 展开更多
关键词 短文本 实体消歧 BERT 图卷积网络 卷积神经网络
在线阅读 下载PDF
基于多特征注意力卷积神经网络的旅游领域实体关系抽取 被引量:1
12
作者 殷纤慧 古丽拉·阿东别克 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第1期79-83,共5页
针对关系抽取任务中文本特征提取不充分及核心词表现弱的问题,提出了一种多特征注意力卷积神经网络的实体关系抽取方法.利用位置、词性及实体标签作为输入特征,充分捕获文本信息,构建注意力模型,获得单词与目标实体之间的相关性,并将注... 针对关系抽取任务中文本特征提取不充分及核心词表现弱的问题,提出了一种多特征注意力卷积神经网络的实体关系抽取方法.利用位置、词性及实体标签作为输入特征,充分捕获文本信息,构建注意力模型,获得单词与目标实体之间的相关性,并将注意力机制与卷积神经网络相融合以进行关系预测.以新疆旅游领域为研究对象,总结归纳15种实体关系.采用自行开发设计的语料标注系统,建立了新疆旅游领域小型语料关系库.实验结果表明,本文模型对于提高实体关系抽取的正确率有显著效果. 展开更多
关键词 自然语言处理 实体关系抽取 卷积神经网络 注意力机制 多特征
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部