检索结果-维普期刊中文期刊服务平台

汉语语言的无词典分词模型系统被引量：22: 1; 作者韩客松王永成陈桂林《计算机应用研究》 CSCD 1999年第10期8-9,共2页; 本文主要人人知识的自动获取出发；介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述，阐述了模型的思想，分析了它与传统方法相比的优点，提出了要使系统达到实用还需解决的几个问题。; 关键词中文信息处理知识自动获取分词模型汉语语言; 在线阅读下载PDF 职称材料

基于SentencePiece的中医学分词模型建模研究被引量：1: 2; 作者刘双巧周璐 +7 位作者李彩艳袁慧敏张异卓李昱达刘锦钢郑丰杰孙燕李宇航《世界中医药》 CAS 2021年第6期981-985,990,共6页; 目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。... 展开更多; 关键词分词中文分词分词模型无监督学习无监督分词 SentencePiece; 在线阅读下载PDF 职称材料

基于预训练模型标记器重构的藏文分词系统: 3; 作者杨杰尼玛扎西 +2 位作者仁青东主祁晋东才让东知《计算机应用》北大核心 2025年第4期1199-1204,共6页; 针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,... 展开更多; 关键词藏语信息处理藏文分词模型预训练模型自然语言处理标记器重构; 在线阅读下载PDF 职称材料

基于分词矩阵模型的模糊匹配查重算法研究被引量：4: 4; 作者李成龙杨冬菊韩燕波《计算机科学》 CSCD 北大核心 2017年第B11期55-60,83,共7页; 针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。; 关键词相似度分词矩阵模型模糊匹配查重算法; 在线阅读下载PDF 职称材料

汉语自动分词研究及其在信息检索中的应用被引量：18: 5; 作者曹倩丁艳 +1 位作者王超潘金贵《计算机应用研究》 CSCD 北大核心 2004年第5期71-74,91,共5页; 汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。; 关键词汉语分词分词模型歧义分析中文信息检索; 在线阅读下载PDF 职称材料

中文工艺规范文本分词语料的构建与研究被引量：3: 6; 作者王裴岩张莹欣 +3 位作者付小强陈佳欣徐楠蔡东风《计算机科学》 CSCD 北大核心 2023年第S02期63-68,共6页; 中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范... 展开更多; 关键词中文分词工艺规范文本分词规范分词语料分词模型; 在线阅读下载PDF 职称材料

一种基于EM非监督训练的自组织分词歧义解决方案被引量：14: 7; 作者王伟钟义信 +1 位作者孙建杨力《中文信息学报》 CSCD 北大核心 2001年第2期38-44,共7页; 本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次... 展开更多; 关键词 EM算法分词歧义非监督训练分词语言模型歧义消除汉语处理训练算法分词算法; 在线阅读下载PDF 职称材料

基于上下文相关的最大概率汉语自动分词算法被引量：8: 8; 作者金瑜陆启明高峰《计算机工程》 CAS CSCD 北大核心 2004年第16期146-148,共3页; 提出了一种新的汉语自动分词算法,其主要思想是通过前后两次对文章的扫描来解决分词过程中出现的交叉歧义问题,介绍了一种新的有效的字段切分算法,它能够排除类似穷举算法中冗余的单字词的切分可能。; 关键词上下文相关汉语自动分词分词统计模型; 在线阅读下载PDF 职称材料

基于知识图谱的变电站安全隐患动态分析方法被引量：11: 9; 作者郭素芹郑建宁 +3 位作者陈坤林瑞安张勃波宗鑫《电力系统及其自动化学报》 CSCD 北大核心 2021年第12期125-133,共9页; 由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜... 展开更多; 关键词变电站安全知识图谱搜索引擎隐马尔科夫分词模型图数据库; 在线阅读下载PDF 职称材料

题名汉语语言的无词典分词模型系统被引量：22: 1; 作者韩客松王永成陈桂林; 机构上海交通大学图象处理与模式识别研究所; 出处《计算机应用研究》 CSCD 1999年第10期8-9,共2页; 文摘本文主要人人知识的自动获取出发；介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述，阐述了模型的思想，分析了它与传统方法相比的优点，提出了要使系统达到实用还需解决的几个问题。; 关键词中文信息处理知识自动获取分词模型汉语语言; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于SentencePiece的中医学分词模型建模研究被引量：1: 2; 作者刘双巧周璐李彩艳袁慧敏张异卓李昱达刘锦钢郑丰杰孙燕李宇航; 机构北京中医药大学中医学院; 出处《世界中医药》 CAS 2021年第6期981-985,990,共6页; 基金国家重点研发计划项目(2017YFC1700303,2017YFC1700300)。; 文摘目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。; 关键词分词中文分词分词模型无监督学习无监督分词 SentencePiece; Keywords Word segmentation Chinese word segmentation Word segmentation model Unsupervised learning Unsupervised word segmentation Sentence piece; 分类号 R2-03 [医药卫生—中医学]; 在线阅读下载PDF 职称材料

题名基于预训练模型标记器重构的藏文分词系统: 3; 作者杨杰尼玛扎西仁青东主祁晋东才让东知; 机构西藏大学信息科学技术学院藏文信息技术教育部工程研究中心(西藏大学); 出处《计算机应用》北大核心 2025年第4期1199-1204,共6页; 基金新一代人工智能国家科技重大专项(2022ZD0116100) 省部共建藏语智能信息处理及应用国家重点实验室开放课题项目(2023⁃Z⁃006)。; 文摘针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。; 关键词藏语信息处理藏文分词模型预训练模型自然语言处理标记器重构; Keywords Tibetan language information processing Tibetan word segmentation model pre-trained model natural language processing tokenization reconstruction; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于分词矩阵模型的模糊匹配查重算法研究被引量：4: 4; 作者李成龙杨冬菊韩燕波; 机构大规模流数据集成与分析技术北京市重点实验室北方工业大学云计算研究中心; 出处《计算机科学》 CSCD 北大核心 2017年第B11期55-60,83,共7页; 基金国家自然科学基金面上项目(61672042) 支持流式大数据实时联动的数据服务模型及方法研究资助; 文摘针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。; 关键词相似度分词矩阵模型模糊匹配查重算法; Keywords Similarity, Matrix model of word segmentation, Fuzzy matching,Duplicate checking algorithm; 分类号 TP301 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名汉语自动分词研究及其在信息检索中的应用被引量：18: 5; 作者曹倩丁艳王超潘金贵; 机构南京大学软件新技术国家重点实验室; 出处《计算机应用研究》 CSCD 北大核心 2004年第5期71-74,91,共5页; 文摘汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。; 关键词汉语分词分词模型歧义分析中文信息检索; Keywords Chinese Word Segmentation Word Segmentation Mode Ambiguity Analysis Chinese Information Retrieval; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名中文工艺规范文本分词语料的构建与研究被引量：3: 6; 作者王裴岩张莹欣付小强陈佳欣徐楠蔡东风; 机构沈阳航空航天大学人机智能研究中心中国商飞上海飞机制造有限公司航空制造技术研究所; 出处《计算机科学》 CSCD 北大核心 2023年第S02期63-68,共6页; 基金辽宁省应用基础研究计划(2022JH2/101300248)。; 文摘中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。; 关键词中文分词工艺规范文本分词规范分词语料分词模型; Keywords Chinese word segmentation Process specification text Word segmentation specification Word segmentation corpus Word segmentation model; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名一种基于EM非监督训练的自组织分词歧义解决方案被引量：14: 7; 作者王伟钟义信孙建杨力; 机构北京邮电大学智能中心; 出处《中文信息学报》 CSCD 北大核心 2001年第2期38-44,共7页; 基金国家自然科学基金资助! (6 9982 0 1); 文摘本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 ); 关键词 EM算法分词歧义非监督训练分词语言模型歧义消除汉语处理训练算法分词算法; Keywords EM algorithm segmentation ambiguity unsupervised learning; 分类号 TP391.12 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于上下文相关的最大概率汉语自动分词算法被引量：8: 8; 作者金瑜陆启明高峰; 机构合肥工业大学理学院中国科学技术大学近代物理系; 出处《计算机工程》 CAS CSCD 北大核心 2004年第16期146-148,共3页; 文摘提出了一种新的汉语自动分词算法,其主要思想是通过前后两次对文章的扫描来解决分词过程中出现的交叉歧义问题,介绍了一种新的有效的字段切分算法,它能够排除类似穷举算法中冗余的单字词的切分可能。; 关键词上下文相关汉语自动分词分词统计模型; Keywords Context relation Automatic Chinese segmentation Statistical model of segmentation; 分类号 TP319 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于知识图谱的变电站安全隐患动态分析方法被引量：11: 9; 作者郭素芹郑建宁陈坤林瑞安张勃波宗鑫; 机构福建亿力电力科技有限责任公司; 出处《电力系统及其自动化学报》 CSCD 北大核心 2021年第12期125-133,共9页; 文摘由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜索引擎。其次,利用隐马尔科夫模型对引擎内数据进行分词训练,结合维特比算法求解隐藏的状态序列以完成隐患实体分词标注。最后,采用Neo4j图数据库动态生成变电站安全隐患知识图谱。以某地区变电站安全隐患数据进行算例分析,证明该方法的有效性。; 关键词变电站安全知识图谱搜索引擎隐马尔科夫分词模型图数据库; Keywords substation safety knowledge graph search engine hidden Markov word segmentation model graph database; 分类号 TM73 [电气工程—电力系统及自动化]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	汉语语言的无词典分词模型系统	韩客松王永成陈桂林	《计算机应用研究》 CSCD	1999	22	在线阅读下载PDF 职称材料
2	基于SentencePiece的中医学分词模型建模研究	刘双巧周璐李彩艳袁慧敏张异卓李昱达刘锦钢郑丰杰孙燕李宇航	《世界中医药》 CAS	2021	1	在线阅读下载PDF 职称材料
3	基于预训练模型标记器重构的藏文分词系统	杨杰尼玛扎西仁青东主祁晋东才让东知	《计算机应用》北大核心	2025	0	在线阅读下载PDF 职称材料
4	基于分词矩阵模型的模糊匹配查重算法研究	李成龙杨冬菊韩燕波	《计算机科学》 CSCD 北大核心	2017	4	在线阅读下载PDF 职称材料
5	汉语自动分词研究及其在信息检索中的应用	曹倩丁艳王超潘金贵	《计算机应用研究》 CSCD 北大核心	2004	18	在线阅读下载PDF 职称材料
6	中文工艺规范文本分词语料的构建与研究	王裴岩张莹欣付小强陈佳欣徐楠蔡东风	《计算机科学》 CSCD 北大核心	2023	3	在线阅读下载PDF 职称材料
7	一种基于EM非监督训练的自组织分词歧义解决方案	王伟钟义信孙建杨力	《中文信息学报》 CSCD 北大核心	2001	14	在线阅读下载PDF 职称材料
8	基于上下文相关的最大概率汉语自动分词算法	金瑜陆启明高峰	《计算机工程》 CAS CSCD 北大核心	2004	8	在线阅读下载PDF 职称材料
9	基于知识图谱的变电站安全隐患动态分析方法	郭素芹郑建宁陈坤林瑞安张勃波宗鑫	《电力系统及其自动化学报》 CSCD 北大核心	2021	11	在线阅读下载PDF 职称材料