期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
9
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
汉语语言的无词典分词模型系统
被引量:
22
1
作者
韩客松
王永成
陈桂林
《计算机应用研究》
CSCD
1999年第10期8-9,共2页
本文主要人人知识的自动获取出发;介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点,提出了要使系统达到实用还需解决的几个问题。
关键词
中文信息处理
知识自动获取
分词模型
汉语语言
在线阅读
下载PDF
职称材料
基于SentencePiece的中医学分词模型建模研究
被引量:
1
2
作者
刘双巧
周璐
+7 位作者
李彩艳
袁慧敏
张异卓
李昱达
刘锦钢
郑丰杰
孙燕
李宇航
《世界中医药》
CAS
2021年第6期981-985,990,共6页
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。...
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。
展开更多
关键词
分词
中文
分词
分词模型
无监督学习
无监督
分词
SentencePiece
在线阅读
下载PDF
职称材料
基于预训练模型标记器重构的藏文分词系统
3
作者
杨杰
尼玛扎西
+2 位作者
仁青东主
祁晋东
才让东知
《计算机应用》
北大核心
2025年第4期1199-1204,共6页
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,...
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。
展开更多
关键词
藏语信息处理
藏文
分词模型
预训练
模型
自然语言处理
标记器重构
在线阅读
下载PDF
职称材料
基于分词矩阵模型的模糊匹配查重算法研究
被引量:
4
4
作者
李成龙
杨冬菊
韩燕波
《计算机科学》
CSCD
北大核心
2017年第B11期55-60,83,共7页
针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。
关键词
相似度
分词
矩阵
模型
模糊匹配
查重算法
在线阅读
下载PDF
职称材料
汉语自动分词研究及其在信息检索中的应用
被引量:
18
5
作者
曹倩
丁艳
+1 位作者
王超
潘金贵
《计算机应用研究》
CSCD
北大核心
2004年第5期71-74,91,共5页
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。
关键词
汉语
分词
分词模型
歧义分析
中文信息检索
在线阅读
下载PDF
职称材料
中文工艺规范文本分词语料的构建与研究
被引量:
3
6
作者
王裴岩
张莹欣
+3 位作者
付小强
陈佳欣
徐楠
蔡东风
《计算机科学》
CSCD
北大核心
2023年第S02期63-68,共6页
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范...
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。
展开更多
关键词
中文
分词
工艺规范文本
分词
规范
分词
语料
分词模型
在线阅读
下载PDF
职称材料
一种基于EM非监督训练的自组织分词歧义解决方案
被引量:
14
7
作者
王伟
钟义信
+1 位作者
孙建
杨力
《中文信息学报》
CSCD
北大核心
2001年第2期38-44,共7页
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次...
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 )
展开更多
关键词
EM算法
分词
歧义
非监督训练
分词
语言
模型
歧义消除
汉语处理
训练算法
分词
算法
在线阅读
下载PDF
职称材料
基于上下文相关的最大概率汉语自动分词算法
被引量:
8
8
作者
金瑜
陆启明
高峰
《计算机工程》
CAS
CSCD
北大核心
2004年第16期146-148,共3页
提出了一种新的汉语自动分词算法,其主要思想是通过前后两次对文章的扫描来解决分词过程中出现的交叉歧义问题,介绍了一种新的有效的字段切分算法,它能够排除类似穷举算法中冗余的单字词的切分可能。
关键词
上下文相关
汉语自动
分词
分词
统计
模型
在线阅读
下载PDF
职称材料
基于知识图谱的变电站安全隐患动态分析方法
被引量:
11
9
作者
郭素芹
郑建宁
+3 位作者
陈坤
林瑞安
张勃波
宗鑫
《电力系统及其自动化学报》
CSCD
北大核心
2021年第12期125-133,共9页
由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜...
由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜索引擎。其次,利用隐马尔科夫模型对引擎内数据进行分词训练,结合维特比算法求解隐藏的状态序列以完成隐患实体分词标注。最后,采用Neo4j图数据库动态生成变电站安全隐患知识图谱。以某地区变电站安全隐患数据进行算例分析,证明该方法的有效性。
展开更多
关键词
变电站安全
知识图谱
搜索引擎
隐马尔科夫
分词模型
图数据库
在线阅读
下载PDF
职称材料
题名
汉语语言的无词典分词模型系统
被引量:
22
1
作者
韩客松
王永成
陈桂林
机构
上海交通大学图象处理与模式识别研究所
出处
《计算机应用研究》
CSCD
1999年第10期8-9,共2页
文摘
本文主要人人知识的自动获取出发;介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点,提出了要使系统达到实用还需解决的几个问题。
关键词
中文信息处理
知识自动获取
分词模型
汉语语言
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于SentencePiece的中医学分词模型建模研究
被引量:
1
2
作者
刘双巧
周璐
李彩艳
袁慧敏
张异卓
李昱达
刘锦钢
郑丰杰
孙燕
李宇航
机构
北京中医药大学中医学院
出处
《世界中医药》
CAS
2021年第6期981-985,990,共6页
基金
国家重点研发计划项目(2017YFC1700303,2017YFC1700300)。
文摘
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。
关键词
分词
中文
分词
分词模型
无监督学习
无监督
分词
SentencePiece
Keywords
Word segmentation
Chinese word segmentation
Word segmentation model
Unsupervised learning
Unsupervised word segmentation
Sentence piece
分类号
R2-03 [医药卫生—中医学]
在线阅读
下载PDF
职称材料
题名
基于预训练模型标记器重构的藏文分词系统
3
作者
杨杰
尼玛扎西
仁青东主
祁晋东
才让东知
机构
西藏大学信息科学技术学院
藏文信息技术教育部工程研究中心(西藏大学)
出处
《计算机应用》
北大核心
2025年第4期1199-1204,共6页
基金
新一代人工智能国家科技重大专项(2022ZD0116100)
省部共建藏语智能信息处理及应用国家重点实验室开放课题项目(2023⁃Z⁃006)。
文摘
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。
关键词
藏语信息处理
藏文
分词模型
预训练
模型
自然语言处理
标记器重构
Keywords
Tibetan language information processing
Tibetan word segmentation model
pre-trained model
natural language processing
tokenization reconstruction
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于分词矩阵模型的模糊匹配查重算法研究
被引量:
4
4
作者
李成龙
杨冬菊
韩燕波
机构
大规模流数据集成与分析技术北京市重点实验室
北方工业大学云计算研究中心
出处
《计算机科学》
CSCD
北大核心
2017年第B11期55-60,83,共7页
基金
国家自然科学基金面上项目(61672042)
支持流式大数据实时联动的数据服务模型及方法研究资助
文摘
针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。
关键词
相似度
分词
矩阵
模型
模糊匹配
查重算法
Keywords
Similarity, Matrix model of word segmentation, Fuzzy matching,Duplicate checking algorithm
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
汉语自动分词研究及其在信息检索中的应用
被引量:
18
5
作者
曹倩
丁艳
王超
潘金贵
机构
南京大学软件新技术国家重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2004年第5期71-74,91,共5页
文摘
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。
关键词
汉语
分词
分词模型
歧义分析
中文信息检索
Keywords
Chinese Word Segmentation
Word Segmentation Mode
Ambiguity Analysis
Chinese Information Retrieval
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文工艺规范文本分词语料的构建与研究
被引量:
3
6
作者
王裴岩
张莹欣
付小强
陈佳欣
徐楠
蔡东风
机构
沈阳航空航天大学人机智能研究中心
中国商飞上海飞机制造有限公司航空制造技术研究所
出处
《计算机科学》
CSCD
北大核心
2023年第S02期63-68,共6页
基金
辽宁省应用基础研究计划(2022JH2/101300248)。
文摘
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。
关键词
中文
分词
工艺规范文本
分词
规范
分词
语料
分词模型
Keywords
Chinese word segmentation
Process specification text
Word segmentation specification
Word segmentation corpus
Word segmentation model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种基于EM非监督训练的自组织分词歧义解决方案
被引量:
14
7
作者
王伟
钟义信
孙建
杨力
机构
北京邮电大学智能中心
出处
《中文信息学报》
CSCD
北大核心
2001年第2期38-44,共7页
基金
国家自然科学基金资助! (6 9982 0 1)
文摘
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 )
关键词
EM算法
分词
歧义
非监督训练
分词
语言
模型
歧义消除
汉语处理
训练算法
分词
算法
Keywords
EM algorithm
segmentation ambiguity
unsupervised learning
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于上下文相关的最大概率汉语自动分词算法
被引量:
8
8
作者
金瑜
陆启明
高峰
机构
合肥工业大学理学院
中国科学技术大学近代物理系
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第16期146-148,共3页
文摘
提出了一种新的汉语自动分词算法,其主要思想是通过前后两次对文章的扫描来解决分词过程中出现的交叉歧义问题,介绍了一种新的有效的字段切分算法,它能够排除类似穷举算法中冗余的单字词的切分可能。
关键词
上下文相关
汉语自动
分词
分词
统计
模型
Keywords
Context relation
Automatic Chinese segmentation
Statistical model of segmentation
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于知识图谱的变电站安全隐患动态分析方法
被引量:
11
9
作者
郭素芹
郑建宁
陈坤
林瑞安
张勃波
宗鑫
机构
福建亿力电力科技有限责任公司
出处
《电力系统及其自动化学报》
CSCD
北大核心
2021年第12期125-133,共9页
文摘
由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜索引擎。其次,利用隐马尔科夫模型对引擎内数据进行分词训练,结合维特比算法求解隐藏的状态序列以完成隐患实体分词标注。最后,采用Neo4j图数据库动态生成变电站安全隐患知识图谱。以某地区变电站安全隐患数据进行算例分析,证明该方法的有效性。
关键词
变电站安全
知识图谱
搜索引擎
隐马尔科夫
分词模型
图数据库
Keywords
substation safety
knowledge graph
search engine
hidden Markov word segmentation model
graph database
分类号
TM73 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
汉语语言的无词典分词模型系统
韩客松
王永成
陈桂林
《计算机应用研究》
CSCD
1999
22
在线阅读
下载PDF
职称材料
2
基于SentencePiece的中医学分词模型建模研究
刘双巧
周璐
李彩艳
袁慧敏
张异卓
李昱达
刘锦钢
郑丰杰
孙燕
李宇航
《世界中医药》
CAS
2021
1
在线阅读
下载PDF
职称材料
3
基于预训练模型标记器重构的藏文分词系统
杨杰
尼玛扎西
仁青东主
祁晋东
才让东知
《计算机应用》
北大核心
2025
0
在线阅读
下载PDF
职称材料
4
基于分词矩阵模型的模糊匹配查重算法研究
李成龙
杨冬菊
韩燕波
《计算机科学》
CSCD
北大核心
2017
4
在线阅读
下载PDF
职称材料
5
汉语自动分词研究及其在信息检索中的应用
曹倩
丁艳
王超
潘金贵
《计算机应用研究》
CSCD
北大核心
2004
18
在线阅读
下载PDF
职称材料
6
中文工艺规范文本分词语料的构建与研究
王裴岩
张莹欣
付小强
陈佳欣
徐楠
蔡东风
《计算机科学》
CSCD
北大核心
2023
3
在线阅读
下载PDF
职称材料
7
一种基于EM非监督训练的自组织分词歧义解决方案
王伟
钟义信
孙建
杨力
《中文信息学报》
CSCD
北大核心
2001
14
在线阅读
下载PDF
职称材料
8
基于上下文相关的最大概率汉语自动分词算法
金瑜
陆启明
高峰
《计算机工程》
CAS
CSCD
北大核心
2004
8
在线阅读
下载PDF
职称材料
9
基于知识图谱的变电站安全隐患动态分析方法
郭素芹
郑建宁
陈坤
林瑞安
张勃波
宗鑫
《电力系统及其自动化学报》
CSCD
北大核心
2021
11
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部