期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
一种改进的中文分词正向最大匹配算法 被引量:42
1
作者 王瑞雷 栾静 +1 位作者 潘晓花 卢修配 《计算机应用与软件》 CSCD 2011年第3期195-197,共3页
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与... 正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。 展开更多
关键词 中文分词 分词词典 正向最大匹配算法
在线阅读 下载PDF
基于改进Trie树结构的正向最大匹配算法 被引量:11
2
作者 熊志斌 朱剑锋 《计算机应用与软件》 CSCD 北大核心 2014年第5期276-278,共3页
提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的... 提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。 展开更多
关键词 中文信息处理 分词 正向最大匹配算法
在线阅读 下载PDF
串的最大匹配算法 被引量:4
3
作者 向永红 李甦 +2 位作者 袁勇 林毓材 赵景秀 《计算机工程与科学》 CSCD 2003年第4期72-74,共3页
本文给出了一个找出二串间最大匹配的算法,该算法可用于比较两个串的相似程度,它与串的模式匹配有别。
关键词 字符串 模式匹配 最大匹配算法 文本处理
在线阅读 下载PDF
基于Hash结构的逆向最大匹配分词算法的改进 被引量:26
4
作者 丁振国 张卓 黎靖 《计算机工程与设计》 CSCD 北大核心 2008年第12期3208-3211,3265,共5页
分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词... 分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM)。该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义。实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高。 展开更多
关键词 中文分词 哈希结构 逆向最大匹配算法 分词词典 消除歧义
在线阅读 下载PDF
改进的正向最大匹配分词算法 被引量:11
5
作者 张彩琴 袁健 《计算机工程与设计》 CSCD 北大核心 2010年第11期2595-2597,2633,共4页
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模... 为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。 展开更多
关键词 正向最大匹配算法 交集型歧义 预处理 互信息 分词碎片
在线阅读 下载PDF
基于有向图的双向匹配分词算法及实现 被引量:7
6
作者 陈耀东 王挺 《计算机应用》 CSCD 北大核心 2005年第6期1442-1444,共3页
在分析了现有各种汉语分词算法及其优缺点的基础上,提出以句子覆盖率和分词覆盖率作为评价分词方法的指标,详细介绍了基于网络有向图的双向匹配分词算法的设计与实现,该算法对经典的最大匹配分词算法进行了改进,通过带覆盖歧义标志的有... 在分析了现有各种汉语分词算法及其优缺点的基础上,提出以句子覆盖率和分词覆盖率作为评价分词方法的指标,详细介绍了基于网络有向图的双向匹配分词算法的设计与实现,该算法对经典的最大匹配分词算法进行了改进,通过带覆盖歧义标志的有向图生成多候选分词序列。与最大匹配算法和全切分算法的比较实验显示,基于有向图的双向匹配算法以低复杂度实现了高覆率盖。 展开更多
关键词 句子覆盖率 分词覆盖率 双向最大匹配算法 全切分 网络有向图
在线阅读 下载PDF
全二分最大匹配快速分词算法 被引量:39
7
作者 李振星 徐泽平 +1 位作者 唐卫清 唐荣锡 《计算机工程与应用》 CSCD 北大核心 2002年第11期106-109,共4页
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一... 分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。 展开更多
关键词 全二分最大匹配快速分词算法 自动分词 中文信息处理 数据结构
在线阅读 下载PDF
综合最大匹配和歧义检测的中文分词粗分方法 被引量:3
8
作者 李国和 刘光胜 +2 位作者 秦波波 吴卫江 李洪奇 《计算机工程与应用》 CSCD 2012年第14期139-142,167,共5页
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规... 中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。 展开更多
关键词 中文分词 粗分 最大匹配算法 全切分算法 歧义检测
在线阅读 下载PDF
基于Viterbi改进算法的高棉语分词研究 被引量:3
9
作者 蒋艳荣 刘习文 陈耿涛 《计算机工程》 CAS CSCD 北大核心 2011年第15期174-176,共3页
采用最大匹配算法对高棉语进行分词准确率较低,且难以正确识别词库中没有的新词。针对该问题,采用改进的Viterbi算法,利用自动机实现音节切分,通过最优选择及剪枝操作提高分词效率,以统计语言模型对未知新词进行数据平滑,提高识别正确... 采用最大匹配算法对高棉语进行分词准确率较低,且难以正确识别词库中没有的新词。针对该问题,采用改进的Viterbi算法,利用自动机实现音节切分,通过最优选择及剪枝操作提高分词效率,以统计语言模型对未知新词进行数据平滑,提高识别正确率。实验结果表明,改进的Viterbi算法具有较高的分词效率和准确率。 展开更多
关键词 VITERBI算法 最大匹配算法 分词 高棉语 剪枝 统计语言模型
在线阅读 下载PDF
Crossbar输入排队调度算法的研究 被引量:4
10
作者 魏利华 唐玉华 《计算机应用与软件》 CSCD 北大核心 2006年第3期22-24,66,共4页
研究高效易于硬件实现的队列调度算法的目的是为了提高交换系统吞吐率和降低延迟。在阐述输入排队、HOL阻塞、虚拟输出队列等概念的基础上,对MSM、PIM、RRM、iSLIP等调度算法进行了系统的比较,研究表明iSLIP算法是一种性能良好、实现简... 研究高效易于硬件实现的队列调度算法的目的是为了提高交换系统吞吐率和降低延迟。在阐述输入排队、HOL阻塞、虚拟输出队列等概念的基础上,对MSM、PIM、RRM、iSLIP等调度算法进行了系统的比较,研究表明iSLIP算法是一种性能良好、实现简单的算法。 展开更多
关键词 交换阵列 最大匹配算法 并行迭代匹配算法 滑动轮询匹配算法 滑动迭代轮询匹配算法
在线阅读 下载PDF
面向智能变电站保护的FMM测试及改进SVM校验诊断技术 被引量:2
11
作者 吕鹏飞 裘愉涛 +1 位作者 金盛 王志华 《中国电力》 北大核心 2025年第6期76-82,共7页
为解决智能变电站大量二次设备测试复杂、工期长以及缺乏测试结果诊断的难题,引入正向最大匹配(forward maximum matching,FMM)算法实现保护自动测试,并基于蛙跳算法(frog leaping algorithm,FLA)改进支持向量机(support vector machine... 为解决智能变电站大量二次设备测试复杂、工期长以及缺乏测试结果诊断的难题,引入正向最大匹配(forward maximum matching,FMM)算法实现保护自动测试,并基于蛙跳算法(frog leaping algorithm,FLA)改进支持向量机(support vector machines,SVM)模型完成测试结果的校验诊断。面向智能站保护配置信息关系,提出了保护自动测试与诊断系统架构。通过分析不同保护原理应用电压/电流定值关系建立保护测试需求,构建测试模板集合,利用哈希和编辑距离算法进行相似度比较,基于FMM算法实现了待测装置自动测试。算例分析与工程实例验证了所提技术的有效性。 展开更多
关键词 智能变电站 保护自动测试技术 正向最大匹配算法
在线阅读 下载PDF
基于改进型最大匹配法的教学资源自然语义查询 被引量:1
12
作者 曾立胜 刘志勤 《计算机工程与设计》 CSCD 北大核心 2008年第6期1559-1561,1564,共4页
中文智能信息检索中的关键是自然语言处理技术,汉语自动分词技术是中文自然语言处理的基础。基于机械匹配的分词方法简洁、实用,但该方法切分精度不高且无法有效克服切分歧义。针对机械匹配最大匹配算法的应用进行了改进,并将相似串应... 中文智能信息检索中的关键是自然语言处理技术,汉语自动分词技术是中文自然语言处理的基础。基于机械匹配的分词方法简洁、实用,但该方法切分精度不高且无法有效克服切分歧义。针对机械匹配最大匹配算法的应用进行了改进,并将相似串应用于教学资源自然语义查询。 展开更多
关键词 汉语分词技术 相似串 自然查询 最大匹配算法 教学资源 信息检索
在线阅读 下载PDF
一种改进的长词优先逆向最大匹配分词消歧策略 被引量:1
13
作者 田占霄 韩宪忠 王克俭 《河北农业大学学报》 CAS CSCD 北大核心 2009年第4期100-102,107,共4页
为提高逆向最大匹配算法的分词精度,本研究利用词频阙值,单字函数等方法取得了较好的消歧效果。实验结果表明:该分词算法既能遵循长词优先的原则,又能进一步识别和消除覆盖歧义。改进的RMM不仅在速度上仍保持较大优势而且在分词准确率... 为提高逆向最大匹配算法的分词精度,本研究利用词频阙值,单字函数等方法取得了较好的消歧效果。实验结果表明:该分词算法既能遵循长词优先的原则,又能进一步识别和消除覆盖歧义。改进的RMM不仅在速度上仍保持较大优势而且在分词准确率上有了进一步的提高,对使用机械分词算法的中小型搜索引擎在提高分词精度方面具有一定的实用价值。 展开更多
关键词 中文分词 逆向最大匹配算法 单字率 词频
在线阅读 下载PDF
中文分词歧义识别算法的优化 被引量:2
14
作者 胡阿明 王卫东 《现代电子技术》 2012年第8期107-109,共3页
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义... 中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。 展开更多
关键词 中文分词 逆向最大匹配算法 歧义识别 算法优化
在线阅读 下载PDF
改进的基于词典的中文分词方法 被引量:40
15
作者 莫建文 郑阳 +1 位作者 首照宇 张顺岚 《计算机工程与设计》 CSCD 北大核心 2013年第5期1802-1807,共6页
为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法。该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词... 为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法。该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词算法中的歧义问题。实验结果表明,该方法在一定程度上提高了中文词语切分的准确率,同时大大缩短了分词时间。 展开更多
关键词 中文分词 词典 哈希结构 正向最大匹配算法 歧义
在线阅读 下载PDF
基于正则表达式的变电站集中监控信息解析方法 被引量:26
16
作者 鲁华永 袁越 +3 位作者 郭泓佐 袁良 王国栋 刘华伟 《电力系统自动化》 EI CSCD 北大核心 2017年第5期78-83,共6页
随着国家电网公司"大运行"体系建设的深入开展,海量、繁杂且存在不规则现象的集中监控信息的识别,已成为设备监控信息智能告警技术提升面临的主要问题。文中结合集中监控信息既定规则的特点,提出一种基于正则表达式描述的集... 随着国家电网公司"大运行"体系建设的深入开展,海量、繁杂且存在不规则现象的集中监控信息的识别,已成为设备监控信息智能告警技术提升面临的主要问题。文中结合集中监控信息既定规则的特点,提出一种基于正则表达式描述的集中监控信息解析方法。通过正则表达式规则提取信息关键要素进行信息解析,并采用最大分词匹配算法进行信息识别匹配,实现变电站集中监控信息实时解析及自动校验,为设备监控信息智能告警技术的进一步提升奠定了良好基础。实际工程应用验证了所提方法有效性和实用性。 展开更多
关键词 变电站集中监控 告警直传 信息解析 正则表达式 最大匹配算法
在线阅读 下载PDF
基于条件随机场的中文领域分词研究 被引量:15
17
作者 朱艳辉 刘璟 +2 位作者 徐叶强 田海龙 马进 《计算机工程与应用》 CSCD 北大核心 2016年第15期97-100,共4页
针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确... 针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果 F值分别提升了7.6%和8.7%。 展开更多
关键词 中文分词 条件随机场 领域自适应 歧义消解 领域分词 逆向最大匹配算法
在线阅读 下载PDF
基于双哈希结构的整词二分词典机制 被引量:3
18
作者 张贤坤 李亚南 田雪 《计算机工程与设计》 CSCD 北大核心 2014年第11期3956-3960,共5页
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典... 为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。 展开更多
关键词 中文分词 词典机制 尾字词典 哈希结构 逆向最大匹配算法
在线阅读 下载PDF
基于预训练模型的中文电子病历实体识别 被引量:5
19
作者 李晓林 胡泽荣 《计算机工程与设计》 北大核心 2023年第2期535-540,共6页
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗... 为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。 展开更多
关键词 中文电子病历 命名实体识别 预训练模型 标注歧义 注意力机制 逆向最大匹配算法 医疗实体字典
在线阅读 下载PDF
基于Hash结构词典的逆向回溯中文分词技术研究 被引量:5
20
作者 梁桢 李禹生 《计算机工程与设计》 CSCD 北大核心 2010年第23期5158-5160,F0003,共4页
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一... 为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。 展开更多
关键词 中文分词 哈希结构 尾字词典 逆向最大匹配算法 分词歧义 逆向回溯算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部