期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
汉语语言的无词典分词模型系统 被引量:22
1
作者 韩客松 王永成 陈桂林 《计算机应用研究》 CSCD 1999年第10期8-9,共2页
本文主要人人知识的自动获取出发;介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点,提出了要使系统达到实用还需解决的几个问题。
关键词 中文信息处理 知识自动获取 分词模型 汉语语言
在线阅读 下载PDF
基于SentencePiece的中医学分词模型建模研究 被引量:1
2
作者 刘双巧 周璐 +7 位作者 李彩艳 袁慧敏 张异卓 李昱达 刘锦钢 郑丰杰 孙燕 李宇航 《世界中医药》 CAS 2021年第6期981-985,990,共6页
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。... 目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。 展开更多
关键词 分词 中文分词 分词模型 无监督学习 无监督分词 SentencePiece
在线阅读 下载PDF
基于预训练模型标记器重构的藏文分词系统
3
作者 杨杰 尼玛扎西 +2 位作者 仁青东主 祁晋东 才让东知 《计算机应用》 北大核心 2025年第4期1199-1204,共6页
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,... 针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。 展开更多
关键词 藏语信息处理 藏文分词模型 预训练模型 自然语言处理 标记器重构
在线阅读 下载PDF
基于分词矩阵模型的模糊匹配查重算法研究 被引量:4
4
作者 李成龙 杨冬菊 韩燕波 《计算机科学》 CSCD 北大核心 2017年第B11期55-60,83,共7页
针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。
关键词 相似度 分词矩阵模型 模糊匹配 查重算法
在线阅读 下载PDF
汉语自动分词研究及其在信息检索中的应用 被引量:18
5
作者 曹倩 丁艳 +1 位作者 王超 潘金贵 《计算机应用研究》 CSCD 北大核心 2004年第5期71-74,91,共5页
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。
关键词 汉语分词 分词模型 歧义分析 中文信息检索
在线阅读 下载PDF
中文工艺规范文本分词语料的构建与研究 被引量:3
6
作者 王裴岩 张莹欣 +3 位作者 付小强 陈佳欣 徐楠 蔡东风 《计算机科学》 CSCD 北大核心 2023年第S02期63-68,共6页
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范... 中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。 展开更多
关键词 中文分词 工艺规范文本 分词规范 分词语料 分词模型
在线阅读 下载PDF
一种基于EM非监督训练的自组织分词歧义解决方案 被引量:14
7
作者 王伟 钟义信 +1 位作者 孙建 杨力 《中文信息学报》 CSCD 北大核心 2001年第2期38-44,共7页
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次... 本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 ) 展开更多
关键词 EM算法 分词歧义 非监督训练 分词语言模型 歧义消除 汉语处理 训练算法 分词算法
在线阅读 下载PDF
基于上下文相关的最大概率汉语自动分词算法 被引量:8
8
作者 金瑜 陆启明 高峰 《计算机工程》 CAS CSCD 北大核心 2004年第16期146-148,共3页
提出了一种新的汉语自动分词算法,其主要思想是通过前后两次对文章的扫描来解决分词过程中出现的交叉歧义问题,介绍了一种新的有效的字段切分算法,它能够排除类似穷举算法中冗余的单字词的切分可能。
关键词 上下文相关 汉语自动分词 分词统计模型
在线阅读 下载PDF
基于知识图谱的变电站安全隐患动态分析方法 被引量:11
9
作者 郭素芹 郑建宁 +3 位作者 陈坤 林瑞安 张勃波 宗鑫 《电力系统及其自动化学报》 CSCD 北大核心 2021年第12期125-133,共9页
由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜... 由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜索引擎。其次,利用隐马尔科夫模型对引擎内数据进行分词训练,结合维特比算法求解隐藏的状态序列以完成隐患实体分词标注。最后,采用Neo4j图数据库动态生成变电站安全隐患知识图谱。以某地区变电站安全隐患数据进行算例分析,证明该方法的有效性。 展开更多
关键词 变电站安全 知识图谱 搜索引擎 隐马尔科夫分词模型 图数据库
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部