期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
基于词性对齐与依存关系的中文排比句生成方法
1
作者 钟茂生 刘蕾 +2 位作者 吴如萍 甘家其 周新宇 《中文信息学报》 北大核心 2025年第2期131-142,共12页
排比句是一种常用的修辞手法,其使用具有增强气势、强调突出、层次清晰的效果。排比句生成对于文本生成具有重要意义,能够丰富文本生成的风格和形式,提升教育、广告和文学创作的质量,但目前暂无生成模型和公开的排比句语料库。为此,该... 排比句是一种常用的修辞手法,其使用具有增强气势、强调突出、层次清晰的效果。排比句生成对于文本生成具有重要意义,能够丰富文本生成的风格和形式,提升教育、广告和文学创作的质量,但目前暂无生成模型和公开的排比句语料库。为此,该文在收集和构建排比句数据集的基础上,结合排比句具有的语言学特征,提出了一种基于词性对齐与依存关系的中文排比句生成模型,称为CPG-PosDep。模型从语言学出发,首先用设定的分词、句内词序和句间位置三种特殊符号及随机采样策略对排比句进行全局标识,并结合改进的Transformer注意力机制学习排比句的词性对齐特征,然后使用BERT和注意模块将给定分句的依存关系信息融入模型中,融合生成排比句。在排比句数据集上的实验表明,模型能够生成与给定分句在对应位置词性一致、依存关系相同的通顺分句,相比使用现有对联或诗歌生成模型生成的排比句,该文所提模型生成的排比句质量更具优势。 展开更多
关键词 中文排比句生成 词性对齐 随机采样策略 依存关系
在线阅读 下载PDF
融合词性提示学习的大语言模型依存句法分析
2
作者 张振国 李英 +1 位作者 余正涛 黄于欣 《厦门大学学报(自然科学版)》 北大核心 2025年第4期606-615,共10页
[目的]针对大语言模型(LLMs)在依存句法分析任务上的性能尚未得到系统性探索的问题进行研究.[方法]首先设计多种提示策略对富资源语言中文和低资源语言越南语进行全面的LLMs依存句法分析性能评估,用于确定LLMs中蕴含句法知识的程度;然... [目的]针对大语言模型(LLMs)在依存句法分析任务上的性能尚未得到系统性探索的问题进行研究.[方法]首先设计多种提示策略对富资源语言中文和低资源语言越南语进行全面的LLMs依存句法分析性能评估,用于确定LLMs中蕴含句法知识的程度;然后将词性信息作为外部知识来构建提示模板,进一步激活LLMs对于词法和句法的理解能力,提高依存句法分析的性能.[结果]实验结果表明,LLMs在富资源语言中文上的句法解析能力更强,而对于低资源语言越南语的解析能力较弱.通过对比实验,证明了外部词法知识的融入可以进一步提高其句法分析的能力,其中带标签依存分数(LAS)在中文上提升了13.11%,在越南语上提升了2.26%.[结论]设计合理的提示策略可以显著提升LLMs在句法分析任务上的表现,且在不同提示策略下,词性信息的加入对模型性能均产生了积极的影响. 展开更多
关键词 大语言模型 依存句法分析 词性信息 提示策略
在线阅读 下载PDF
视觉指导的分词和词性标注
3
作者 田海燕 黄赛豪 +1 位作者 张栋 李寿山 《计算机应用》 北大核心 2025年第5期1488-1495,共8页
中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮... 中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮助进行中文WS和POS标注。首先,制定一系列详细的数据标注规范,并基于微博推文中的文本和图像内容,使用WS和POS标签标注了一个多模态数据集VG-Weibo;其次,提出2种具有不同解码机制的多模态信息融合方法:VGTD(Visually Guided Two-stage Decoding model)和VGCD(Visually Guided Collapsed Decoding model)完成联合WS和POS标注的任务。其中:VGTD方法采用交叉注意力机制融合文本和图像信息,并通过两阶段解码策略,先预测可能的词语跨度,再预测相应的标签;VGCD方法也采用交叉注意力机制融合文本和图像信息,并采用了更适当的中文表示以及合并解码策略。在VG-Weibo测试集上的实验结果表明,在WS和POS标注任务上,VGTD方法的F1得分比传统的纯文本方法的两阶段解码模型(TD)分别提升了0.18和0.22个百分点;VGCD方法的F1得分比传统的纯文本方法的合并解码模型(CD)分别提升了0.25和0.55个百分点。可见,VGTD和VGCD方法都能有效利用视觉信息提升WS和POS标注的性能。 展开更多
关键词 分词 词性标注 多模态数据 视觉信息 社交媒体
在线阅读 下载PDF
词类标注对词典释义的促进作用
4
作者 谭景春 《汉语学报》 CSSCI 北大核心 2024年第4期80-91,共12页
词类标注和词典释义有着密切的关系。从词类标注的视角来审视词典释义,更容易发现释义中以前不易发现的问题,可以使释义更加严谨、更加精细化,从而促进词典释义的质量提高。本文从词目和释义词语的语法属性的一致性、动词和形容词义项... 词类标注和词典释义有着密切的关系。从词类标注的视角来审视词典释义,更容易发现释义中以前不易发现的问题,可以使释义更加严谨、更加精细化,从而促进词典释义的质量提高。本文从词目和释义词语的语法属性的一致性、动词和形容词义项的增补、虚词释义的修改、冗余义项的删除四个方面对此予以阐述。每个方面选取若干条目,这些条目都是因词类标注而发现释义存在问题,从而对释义做出了相应的修订。通过对它们的修订来具体说明词类标注对词典释义的促进作用。 展开更多
关键词 词类标注 词典释义 词典修订 《现代汉语词典》
在线阅读 下载PDF
基于方面-词性感知的方面级情感分析 被引量:1
5
作者 夏卫欢 廖列法 +1 位作者 张守信 张燕琴 《计算机工程》 CAS CSCD 北大核心 2024年第3期68-77,共10页
方面级情感分析是自然语言处理的研究热点之一,其任务目的是预测句子中给定方面的情感极性。目前已有研究大多忽略了方面词和特定词性单词在过滤情感极性相关上下文语义信息和理解上下文语法信息中的作用。为此,提出一种基于方面-词性... 方面级情感分析是自然语言处理的研究热点之一,其任务目的是预测句子中给定方面的情感极性。目前已有研究大多忽略了方面词和特定词性单词在过滤情感极性相关上下文语义信息和理解上下文语法信息中的作用。为此,提出一种基于方面-词性感知的图卷积网络ASP_POSGCN。采用双向长短期记忆网络建模上下文和词性信息,经由门控机制筛选方面词相关上下文语义信息,再使用词性信息隐藏层状态进一步过滤;同时设计方面-词性感知矩阵算法,根据不同词性单词对方面词情感极性的贡献重构句子原始依存关系以获取重构依存句法图,将原始依存句法图和重构依存句法图应用于双通道图卷积网络和多图感知机制;最后,使用过滤后的上下文语义信息与双通道图卷积网络的输出计算注意力得到最终分类表示。实验结果表明,该模型在Twitter、Laptop14、Restaurant14和Restaurant164个公开数据集上的准确率分别为74.57%、79.15%、83.84%、91.23%,F1值分别为72.59%、75.76%、77.00%、77.11%,与传统方面级情感分析基准模型相比均有提升,有助于方面级的情感极性分类。 展开更多
关键词 方面级情感分析 图卷积网络 门控机制 词性信息 多图感知机制
在线阅读 下载PDF
融合强关联依赖和简洁语法的方面级情感分析模型 被引量:2
6
作者 柯添赐 刘建华 +2 位作者 孙水华 郑智雄 蔡子杰 《计算机应用》 CSCD 北大核心 2024年第6期1786-1795,共10页
针对语法依赖树存在多个方面词相互干扰的依赖信息、无效单词,以及标点符号带来的冗余信息和方面词与对应情感词之间的关联性较弱等问题,提出一种融合强关联依赖和简洁语法的方面级情感分析模型(SADCS)。首先,构建情感词性(POS)列表,通... 针对语法依赖树存在多个方面词相互干扰的依赖信息、无效单词,以及标点符号带来的冗余信息和方面词与对应情感词之间的关联性较弱等问题,提出一种融合强关联依赖和简洁语法的方面级情感分析模型(SADCS)。首先,构建情感词性(POS)列表,通过该列表加强方面词与对应情感的相关性;其次,构建融合POS和依赖关系的联合列表,通过该联合列表去除已优化的依赖树无效单词与标点符号的冗余信息;再次,将优化后的依赖树与图注意力网络(GAT)结合建模提取上下文特征;最后,与依赖关系类型的特征信息进行交互学习并融合特征,增强特征表示,最终使分类器能高效预测每个方面词的情感极性。将所提模型在4个公开数据集上进行实验分析,与DMF-GAT-BERT(Dynamic Multichannel Fusion mechanism based on the GAT and BERT(Bidirectional Encoder Representations from Transformers))模型相比,所提模型的准确率分别提高了1.48、1.81、0.09和0.44个百分点。实验结果表明,所提模型能够有效增强方面词与情感词的联系,使方面词情感极性的预测更准确。 展开更多
关键词 方面级情感分析 依赖关系 词性 语法依赖树 图注意力网络
在线阅读 下载PDF
基于词性和改进Stacking模型的需求依赖关系提取
7
作者 关慧 许航 蔡丽娥 《计算机工程与设计》 北大核心 2024年第11期3345-3351,共7页
为解决需求工程中人工分析需求依赖关系面临的成本和效率问题,提出一种基于词性特征和改进Stacking集成学习模型(P-Stacking)的需求依赖关系提取方法。在词性权重确定过程中,提取出能表征需求句主干语义的主谓宾三元组作为3种词性,使用... 为解决需求工程中人工分析需求依赖关系面临的成本和效率问题,提出一种基于词性特征和改进Stacking集成学习模型(P-Stacking)的需求依赖关系提取方法。在词性权重确定过程中,提取出能表征需求句主干语义的主谓宾三元组作为3种词性,使用粒子群算法迭代计算出各词性权重,以此改进TF-IDF。P-Stacking使用相关性较小算法为基模型选择相异分类器,使用网格搜索算法匹配最优基分类器组合。实验结果表明,在3个数据集的评估测试中,分别引入词性特征和集成学习模型后,需求依赖类型预测准确性有了显著提升。 展开更多
关键词 需求依赖 依赖提取 词性特征 粒子群优化算法 集成学习 相关性较小算法 网格搜索算法
在线阅读 下载PDF
基于机器学习的科技文摘关键词自动提取方法 被引量:15
8
作者 刘佳宾 陈超 +1 位作者 邵正荣 吉翔华 《计算机工程与应用》 CSCD 北大核心 2007年第14期170-172,共3页
提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取... 提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。 展开更多
关键词 信息自动抽取 决策树 词性分析 n_grams方法
在线阅读 下载PDF
染料木黄酮对大鼠胰岛素分泌的调控作用 被引量:7
9
作者 章毅 刘云峰 +3 位作者 高璟英 王慧 丁亚琴 钟向琴 《中国药理学通报》 CAS CSCD 北大核心 2015年第5期737-738,共2页
我国糖尿病的发病率近年来呈现快速增长的趋势。2型糖尿病以胰岛素分泌相对不足和胰岛素抵抗为主要特征,因此,促进胰岛素分泌是临床治疗2型糖尿病的重要手段。染料木黄酮(genistein)主要来源于豆类植物,大量证据表明染料木黄酮对... 我国糖尿病的发病率近年来呈现快速增长的趋势。2型糖尿病以胰岛素分泌相对不足和胰岛素抵抗为主要特征,因此,促进胰岛素分泌是临床治疗2型糖尿病的重要手段。染料木黄酮(genistein)主要来源于豆类植物,大量证据表明染料木黄酮对糖尿病、慢性缺氧、骨质疏松等有一定的预防和治疗作用[1-3]。研究显示,染料木黄酮可改善2型糖尿病大鼠的胰岛素抵抗[1],但其对胰岛素分泌的作用及机制尚不明晰。本研究采用放免法测定胰岛素分泌,膜片钳测定胰岛β细胞钾离子通道电流等方法,观察染料木黄酮对大鼠胰岛素分泌的影响,并探讨其作用机制。 展开更多
关键词 染料木黄酮 胰岛 电压依赖性钾通道 膜片钳 钙离子 胰岛素
在线阅读 下载PDF
基于DCT与维纳滤波的单通道语音增强算法 被引量:9
10
作者 欧世峰 赵晓晖 顾海军 《通信学报》 EI CSCD 北大核心 2006年第10期86-93,共8页
针对复杂噪声背景下的语音增强问题,基于离散余弦变换(DCT)和维纳滤波提出了一种新的单通道语音增强算法。该算法不依赖任何语音信号模型且无需对噪声的统计特性进行先验假定,它利用DCT域中连续时刻语音信号分量间的相关特性结合最小均... 针对复杂噪声背景下的语音增强问题,基于离散余弦变换(DCT)和维纳滤波提出了一种新的单通道语音增强算法。该算法不依赖任何语音信号模型且无需对噪声的统计特性进行先验假定,它利用DCT域中连续时刻语音信号分量间的相关特性结合最小均方误差算法实现纯净语音分量的最优估计,弥补了一般算法仅依赖单帧带噪语音对语音分量估计得不足。多种噪声背景下的仿真结果表明,该算法在主观和客观测试中都具有良好的语音增强效果。 展开更多
关键词 语音增强 语音分量估计 离散余弦变换 维纳滤波 连续分量相关
在线阅读 下载PDF
基于无向图序列标注模型的中文分词词性标注一体化系统 被引量:12
11
作者 朱聪慧 赵铁军 郑德权 《电子与信息学报》 EI CSCD 北大核心 2010年第3期700-704,共5页
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模... 在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。 展开更多
关键词 中文分词 词性标注 一体化系统 无向图模型
在线阅读 下载PDF
基于词性标注序列特征提取的微博情感分类 被引量:8
12
作者 卢伟胜 郭躬德 陈黎飞 《计算机应用》 CSCD 北大核心 2014年第10期2869-2873,共5页
传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列... 传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列组作为文本的特征以达到降低特征维度的效果。在实验中,词性序列特征提取方法比n-gram特征提取方法至少提高了9%的分类精度,降低4816个维度。实验结果表明,该方法能够适用于微博情感分类。 展开更多
关键词 特征提取 词性 标注序列 微博情感分类 极性分类
在线阅读 下载PDF
基于字符的中文分词、词性标注和依存句法分析联合模型 被引量:14
13
作者 郭振 张玉洁 +1 位作者 苏晨 徐金安 《中文信息学报》 CSCD 北大核心 2014年第6期1-8,17,共9页
目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题:一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树... 目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题:一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作:Shift_S、Shift_B、Shift_M和Shift_E,同时能够将以往中文分词的研究成果融入联合模型。针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型。在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%。其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩。 展开更多
关键词 联合模型 中文分词和词性标注 依存句法分析 词语内部依存结构 半监督学习
在线阅读 下载PDF
语义分析和结构化语言模型 被引量:7
14
作者 李明琴 李涓子 +1 位作者 王作英 陆大 《软件学报》 EI CSCD 北大核心 2005年第9期1523-1533,共11页
提出了一个语义分析集成系统,并在此基础上构建了结构化的语言模型.该语义分析集成系统能够自动分析句子中各个词的词义以及词之间的语义依存关系,达到90.85%的词义标注正确率和75.84%的语义依存结构标注正确率.为了描述语言的结构信息... 提出了一个语义分析集成系统,并在此基础上构建了结构化的语言模型.该语义分析集成系统能够自动分析句子中各个词的词义以及词之间的语义依存关系,达到90.85%的词义标注正确率和75.84%的语义依存结构标注正确率.为了描述语言的结构信息和长距离依存关系,研究并分析了两种基于语义结构的语言模型.最后,在中文语音识别任务上测试两类语言模型的性能.与三元语言模型相比,性能最好的语义结构语言模型——中心词三元模型,使绝对字错误率下降0.8%,相对错误率下降8%. 展开更多
关键词 语义分析 依存分析 语言模型 语音识别
在线阅读 下载PDF
基于依存关系分析的网络评论极性分类研究 被引量:6
15
作者 李培 何中市 黄永文 《计算机工程与应用》 CSCD 北大核心 2010年第11期138-141,144,共5页
介绍一种利用句法依存关系对网络评论的极性进行自动分类的方法。通过从评论中提取出依存关系和词性,构成依存关系词性对,并利用自定义的极性词典进行分类,有效地减少计算的复杂度和提高分类的精度。实验表明,该方法相比其他方法取得了... 介绍一种利用句法依存关系对网络评论的极性进行自动分类的方法。通过从评论中提取出依存关系和词性,构成依存关系词性对,并利用自定义的极性词典进行分类,有效地减少计算的复杂度和提高分类的精度。实验表明,该方法相比其他方法取得了较好的分类效果,是一种可行且有效的对评论极性分类的方法。 展开更多
关键词 依存关系分析 极性分类 依存关系词性对 网络评论
在线阅读 下载PDF
基于含边界词性特征的中文命名实体识别 被引量:7
16
作者 邱莎 王付艳 +3 位作者 申浩如 段玻 阿圆 丁海燕 《计算机工程》 CAS CSCD 2012年第13期128-130,共3页
根据词性在任务中可能出现的特征表达,在字粒度一级,基于条件随机场模型,对词性特征在中文命名实体识别任务中的应用进行研究,提出一种将词性和词边界合成为一个特征项的方法。在相同实验环境下针对多种词性特征的应用情况,采用序列标... 根据词性在任务中可能出现的特征表达,在字粒度一级,基于条件随机场模型,对词性特征在中文命名实体识别任务中的应用进行研究,提出一种将词性和词边界合成为一个特征项的方法。在相同实验环境下针对多种词性特征的应用情况,采用序列标注的方式在公共语料上进行多次中文命名实体识别实验。通过对多次实验结果的比较分析得出,二级词性与词边界合成的特征在系统执行性能和识别效果等方面均为最优。 展开更多
关键词 中文命名实体识别 条件随机场 特征模板 词性 词边界 标注集
在线阅读 下载PDF
基于词性约束的藏文分词策略与算法 被引量:8
17
作者 才让卓玛 才智杰 《中文信息学报》 CSCD 北大核心 2020年第2期33-37,共5页
自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,... 自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。 展开更多
关键词 分词 词性 未登录词 歧义
在线阅读 下载PDF
基于模式匹配与半监督学习的评价对象抽取 被引量:4
18
作者 宋晖 史南胜 《计算机工程》 CAS CSCD 2013年第10期221-226,共6页
针对产品评论中评价对象的抽取问题,提出一种基于模式匹配与半监督学习的抽取方法。通过大量样本统计,获得种子规则集,以抽取有效评价句,利用句法结构组合以及词性距离相关性算法抽取评价对象,将种子规则和评价对象存入相应的模式库,并... 针对产品评论中评价对象的抽取问题,提出一种基于模式匹配与半监督学习的抽取方法。通过大量样本统计,获得种子规则集,以抽取有效评价句,利用句法结构组合以及词性距离相关性算法抽取评价对象,将种子规则和评价对象存入相应的模式库,并通过半监督学习方法与规则的动态替换,进行规则的学习与评价对象的扩充训练。实验结果表明,该方法的抽取效果较好,证明了方法的可行性。 展开更多
关键词 评价对象 意见挖掘 词性搭配 词性距离相关性算法 模式匹配 有效评价句
在线阅读 下载PDF
汉语连续语音识别中上下文相关的识别单元(三音子)的研究 被引量:4
19
作者 赵庆卫 王作英 陆大 《电子学报》 EI CAS CSCD 北大核心 1999年第6期79-82,117,共5页
本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题.本文首先利用信息论原理,研究了传统的聚类算法的距离测度,分别是模型分布的散度和模型合并或分裂前后熵的变化值.然后本文提... 本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题.本文首先利用信息论原理,研究了传统的聚类算法的距离测度,分别是模型分布的散度和模型合并或分裂前后熵的变化值.然后本文提出了基于决策树的聚类方法,它的主要优点是充分利用了语音学知识,聚类后得到的模型可推广性好,尤其适用于集外语料中出现大量的未在训练语料中出现的三音子单元的情况.接着介绍了模型聚类和训练的实验步骤最后,非特定人大词汇量连续语音识别的实验表明,基于决策树的聚类方法所得到的识别单元,当识别集外语料时使系统的误识率降低了7.95%,而基于合并的聚类方法所得到的识别单元只降低了2.63%. 展开更多
关键词 连续语音识别 上下文相关 决策树 聚类算法
在线阅读 下载PDF
一个改进的汉语词性标注系统 被引量:7
20
作者 屈刚 陆汝占 《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第6期897-900,共4页
汉语词性标注的难点在于确定具有多个词类的词 (兼类词 )在上下文中的词性 .基于兼类词在词典中仅占很小的比例 (约为 3% ) ,提出了具有双重状态的隐马尔可夫模型 ,它不但有一个常规的状态转移概率矩阵 ,还在逻辑上为每个具有多个词类... 汉语词性标注的难点在于确定具有多个词类的词 (兼类词 )在上下文中的词性 .基于兼类词在词典中仅占很小的比例 (约为 3% ) ,提出了具有双重状态的隐马尔可夫模型 ,它不但有一个常规的状态转移概率矩阵 ,还在逻辑上为每个具有多个词类的词保留一个专有的状态转移概率矩阵 ,使模型从一个状态转移到另一个状态的概率不再和观察无关 。 展开更多
关键词 词性标注 隐马尔可夫模型 自然语言处理
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部