期刊文献+
共找到622篇文章
< 1 2 32 >
每页显示 20 50 100
Effective Analysis of Chinese Word-Segmentation Accuracy
1
作者 MA Weiyin 《现代电子技术》 2007年第4期108-110,共3页
Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidate... Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidates are invalid.These false unknown word candidates deteriorate the overall segmentation accuracy,as it will affect the segmentation accuracy of known words.In this paper,we propose several methods for reducing the difficulties and improving the accuracy of the word-segmentation of written Chinese,such as full segmentation of a sentence,processing the duplicative word,idioms and statistical identification for unknown words.A simulation shows the feasibility of our proposed methods in improving the accuracy of word-segmentation of Chinese. 展开更多
关键词 中文信息处理 汉字处理 自动分割 效率分析
在线阅读 下载PDF
词间空格在维吾尔族大学生不同文本呈现方向的汉语句子阅读中的促进作用
2
作者 王永胜 韩洋 +1 位作者 李馨 何立媛 《心理与行为研究》 北大核心 2025年第1期41-48,共8页
为探讨词间空格在维吾尔族大学生不同文本呈现方向汉语阅读中的作用,本研究使用眼动仪记录读者的阅读过程,操纵了文本呈现方向(从左向右和从右向左)、词切分线索(无空格和词间空格)和目标词的词频(高频和低频)。结果发现:维吾尔族大学... 为探讨词间空格在维吾尔族大学生不同文本呈现方向汉语阅读中的作用,本研究使用眼动仪记录读者的阅读过程,操纵了文本呈现方向(从左向右和从右向左)、词切分线索(无空格和词间空格)和目标词的词频(高频和低频)。结果发现:维吾尔族大学生阅读词间空格句子的效率显著高于阅读无空格的句子,从右向左阅读时词间空格条件下的总注视次数显著少于无空格条件;词间空格条件下目标词的注视时间显著短于无空格条件,但词切分线索与词频没有显著的交互作用。结果表明,词间空格作为词切分线索可以提升维吾尔族大学生的汉语阅读效率与词汇加工效率。 展开更多
关键词 词切分 维吾尔族大学生 汉语阅读 眼动
在线阅读 下载PDF
视觉指导的分词和词性标注
3
作者 田海燕 黄赛豪 +1 位作者 张栋 李寿山 《计算机应用》 北大核心 2025年第5期1488-1495,共8页
中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮... 中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮助进行中文WS和POS标注。首先,制定一系列详细的数据标注规范,并基于微博推文中的文本和图像内容,使用WS和POS标签标注了一个多模态数据集VG-Weibo;其次,提出2种具有不同解码机制的多模态信息融合方法:VGTD(Visually Guided Two-stage Decoding model)和VGCD(Visually Guided Collapsed Decoding model)完成联合WS和POS标注的任务。其中:VGTD方法采用交叉注意力机制融合文本和图像信息,并通过两阶段解码策略,先预测可能的词语跨度,再预测相应的标签;VGCD方法也采用交叉注意力机制融合文本和图像信息,并采用了更适当的中文表示以及合并解码策略。在VG-Weibo测试集上的实验结果表明,在WS和POS标注任务上,VGTD方法的F1得分比传统的纯文本方法的两阶段解码模型(TD)分别提升了0.18和0.22个百分点;VGCD方法的F1得分比传统的纯文本方法的合并解码模型(CD)分别提升了0.25和0.55个百分点。可见,VGTD和VGCD方法都能有效利用视觉信息提升WS和POS标注的性能。 展开更多
关键词 分词 词性标注 多模态数据 视觉信息 社交媒体
在线阅读 下载PDF
融合N-Gram和多重注意力机制的能源领域新词发现方法
4
作者 王祎涵 张思佳 +2 位作者 曹恒 刘珈宁 张正龙 《科学技术与工程》 北大核心 2025年第18期7668-7677,共10页
随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据... 随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据特性,提出了一种融合N-Gram和多重注意力机制的能源领域新词发现方法(new word discovery method in the energy field combining N-Gram and multiple attention mechanism, ENFM)。该方法首先利用N-Gram模型对能源领域的文本数据进行初步处理,通过统计和分析词频来生成新词候选列表。随后,引入融合多重注意力机制的ERNIE-BiLSTM-CRF模型,以进一步提升新词发现的准确性和效率。与传统的新词发现技术相比,在新词的准确识别和整体效率上均有显著提升,将其于能源领域政策文本数据集,准确率、召回率和F1分别为95.71%、95.56%、95.63%。实验结果表明,该方法能够准确地在能源领域的大量文本数据中识别新词,有效识别出能源领域特有的词汇和表达方式,显著提高了中文分词任务中对能源领域专业术语的识别能力。 展开更多
关键词 能源领域 新词发现 预训练模型 N-GRAM 中文分词
在线阅读 下载PDF
陆路交通工程机电系统造价大数据平台研发及应用
5
作者 朱胜 《铁道标准设计》 北大核心 2025年第3期229-237,共9页
陆路交通工程机电系统组成复杂,费用占总体直接工程投资的比例约30%,且随着技术装备更新换代呈上升趋势。为有效利用陆路交通工程机电系统的实时造价信息及历史工程数据,构建行业造价知识体系,同时为造价分析和决策提供支撑依据,研发陆... 陆路交通工程机电系统组成复杂,费用占总体直接工程投资的比例约30%,且随着技术装备更新换代呈上升趋势。为有效利用陆路交通工程机电系统的实时造价信息及历史工程数据,构建行业造价知识体系,同时为造价分析和决策提供支撑依据,研发陆路交通工程机电系统造价大数据平台。通过分析机电系统造价数据的特点,提出基于大数据的系统研究思路,构建数据“采集清洗→分析建模→决策应用”研究框架。首先通过编码规范将设备主材数据信息标准化,针对不同数据类型进行数据清洗;然后基于Elastic Search搜索引擎和机电系统设备主材规则构建主材设备分词和知识模型;最后通过采用前后端分离的B/S架构,基于分布式Redis和国产达梦数据库的文件管理系统进行系统开发,实现材料设备信息驾驶舱、信息价、设计价实时查询检索及材料设备自动载价等功能。依托合肥新桥机场S1线项目进行有效性验证,验证系统能有效实现价格的实时匹配及输出。本研究旨在探讨造价大数据在陆路交通机电系统研究中的应用,为陆路交通建设领域的类似系统研发提供参考。 展开更多
关键词 陆路交通工程 机电系统 大数据 材料设备编码 弹性搜索 分词 自动载价
在线阅读 下载PDF
基于预训练模型标记器重构的藏文分词系统
6
作者 杨杰 尼玛扎西 +2 位作者 仁青东主 祁晋东 才让东知 《计算机应用》 北大核心 2025年第4期1199-1204,共6页
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,... 针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。 展开更多
关键词 藏语信息处理 藏文分词模型 预训练模型 自然语言处理 标记器重构
在线阅读 下载PDF
敦煌舞谱新探——从BD10691舞谱残卷小号谱字入手
7
作者 林素坊 《敦煌研究》 北大核心 2025年第1期107-114,共8页
可考的敦煌舞谱八种,其中小号谱字仅见于BD10691与S.5643。除“一”“二”“三”外,BD10691在字组右上另见小号谱字“左”“右”。通过日本存唐乐谱《掌中要录》之横向对比,“一”“二”“三”应当表示谱句段,“左”“右”为脚步提示词... 可考的敦煌舞谱八种,其中小号谱字仅见于BD10691与S.5643。除“一”“二”“三”外,BD10691在字组右上另见小号谱字“左”“右”。通过日本存唐乐谱《掌中要录》之横向对比,“一”“二”“三”应当表示谱句段,“左”“右”为脚步提示词。小号谱字相对集中完整出现于BD10691,其原因在于舞谱自身之特殊性,即BD10691歌舞酒令的字组不是按照传统十六字诀排序,故特以“一”“二”“三”加以划分谱段。同时,BD10691当为仪式备览文书,书手出于酒令主持的需要,抄录文书求新求详,故有较多小号谱字。 展开更多
关键词 BD10691 小号谱字 谱句段 脚步提示词 原因
在线阅读 下载PDF
基于PKUSEG-Text-GCN的肿瘤疾病预测模型
8
作者 高志玲 赵新宇 《计算机工程与科学》 北大核心 2025年第7期1303-1311,共9页
当前疾病预测模型仅关注病历文本的局部信息以及上下文信息,缺乏对全局信息的考虑,由此导致预测结果准确率不高。利用图神经网络关注全局信息的特点,提出将图卷积神经网络(GCN)用于中文电子病历的肿瘤疾病预测。首先,利用医学领域分词... 当前疾病预测模型仅关注病历文本的局部信息以及上下文信息,缺乏对全局信息的考虑,由此导致预测结果准确率不高。利用图神经网络关注全局信息的特点,提出将图卷积神经网络(GCN)用于中文电子病历的肿瘤疾病预测。首先,利用医学领域分词工具包PKUSEG对中文电子病历进行分词;其次,通过病历与词的共现关系和病历文本中词与词之间的关系,建立文本图;最后,基于该医学文本图利用图卷积神经网络(Text-GCN)对文本图的特征进行学习,将学习到的模型用于肿瘤疾病预测。实验结果显示,所提模型相比多个模型中的最优模型准确率提升了6%。同时,当数据较少的时候准确率并不会明显下降,表明该模型在电子病历较少的情况下仍具有很好的鲁棒性。 展开更多
关键词 文本图卷积神经网络 中文分词 肿瘤致病分析 肿瘤疾病预测
在线阅读 下载PDF
阅读伴随词汇学习的词切分:首、尾词素位置概率的不同作用 被引量:5
9
作者 梁菲菲 冯琳琳 +2 位作者 刘瑛 李馨 白学军 《心理学报》 CSSCI CSCD 北大核心 2024年第3期281-294,共14页
本研究通过两个平行实验,探讨重复学习新词时首、尾词素位置概率信息作用于词切分的变化模式。采用阅读伴随词汇学习范式,将双字假词作为新词,实验1操纵首词素位置概率高低,保证尾词素相同;实验2操纵尾词素位置概率高低,保证首词素相同... 本研究通过两个平行实验,探讨重复学习新词时首、尾词素位置概率信息作用于词切分的变化模式。采用阅读伴随词汇学习范式,将双字假词作为新词,实验1操纵首词素位置概率高低,保证尾词素相同;实验2操纵尾词素位置概率高低,保证首词素相同。采用眼动仪记录大学生阅读时的眼动轨迹。结果显示:(1)首、尾词素位置概率信息的词切分作用随新词在阅读中学习次数的增加而逐步变小,表现出“熟悉性效应”。(2)首词素位置概率信息的“熟悉性效应”表现在回视路径时间、总注视次数两个相对晚期的眼动指标,而尾词素位置概率信息的“熟悉性效应”则从凝视时间开始,到回视路径时间,再持续到总注视时间。结果表明首、尾词素的位置概率信息均作用于阅读伴随词汇学习的词切分,但首词素的作用时程更长,更稳定,支持了首词素在双字词加工中具有优势的观点。 展开更多
关键词 词素位置概率 词切分 阅读伴随词汇学习 中文阅读
在线阅读 下载PDF
基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究 被引量:4
10
作者 余礼根 郭晓利 +3 位作者 赵红涛 杨淦 张俊 李奇峰 《农业机械学报》 EI CAS CSCD 北大核心 2024年第2期287-294,共8页
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona... 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。 展开更多
关键词 畜禽疫病 文本分词 预训练语言模型 双向长短时记忆网络 条件随机场
在线阅读 下载PDF
基于注意力增强与特征融合的中文医学实体识别 被引量:3
11
作者 王晋涛 秦昂 +4 位作者 张元 陈一飞 王廷凤 谢承霖 邹刚 《计算机工程》 CAS CSCD 北大核心 2024年第7期324-332,共9页
针对基于字符表示的中文医学领域命名实体识别模型嵌入形式单一、边界识别困难、语义信息利用不充分等问题,一种非常有效的方法是在Bret底层注入词汇特征,在利用词粒度语义信息的同时降低分词错误带来的影响,然而在注入词汇信息的同时... 针对基于字符表示的中文医学领域命名实体识别模型嵌入形式单一、边界识别困难、语义信息利用不充分等问题,一种非常有效的方法是在Bret底层注入词汇特征,在利用词粒度语义信息的同时降低分词错误带来的影响,然而在注入词汇信息的同时也会引入一些低相关性的词汇和噪声,导致基于注意力机制的Bret模型出现注意力分散的情况。此外仅依靠字、词粒度难以充分挖掘中文字符深层次的语义信息。对此,提出基于注意力增强与特征融合的中文医学实体识别模型,对字词注意力分数矩阵进行稀疏处理,使模型的注意力集中在相关度高的词汇,能够有效减少上下文中的噪声词汇干扰。同时,对汉字发音和笔画通过卷积神经网络(CNN)提取特征,经过迭代注意力特征融合模块进行融合,然后与Bret模型的输出特征进行拼接输入给Bi LSTM模型,进一步挖掘字符所包含的深层次语义信息。通过爬虫等方式搜集大量相关医学语料,训练医学领域词向量库,并在CCKS2017和CCKS2019数据集上进行验证,实验结果表明,该模型F1值分别达到94.90%、89.37%,效果优于当前主流的实体识别模型,具有更好的识别效果。 展开更多
关键词 实体识别 中文分词 注意力稀疏 特征融合 医学词向量库
在线阅读 下载PDF
基于历史事故案例的瓦斯爆炸情景要素提取及情景构建方法研究 被引量:1
12
作者 国汉君 赵伟 +4 位作者 宋亚楠 郭小芳 赵志虎 周爱桃 王凯 《矿业安全与环保》 CAS 北大核心 2024年第3期43-49,共7页
为深入探究煤矿瓦斯爆炸事故发展规律,提出一种基于中文分词技术对瓦斯爆炸事故情景要素进行分析和提取的方法。通过煤矿安全网等途径搜集统计了1978—2020年间的733起瓦斯爆炸事故报告,在此基础上进行数据预处理,剔除不完整的事故报告... 为深入探究煤矿瓦斯爆炸事故发展规律,提出一种基于中文分词技术对瓦斯爆炸事故情景要素进行分析和提取的方法。通过煤矿安全网等途径搜集统计了1978—2020年间的733起瓦斯爆炸事故报告,在此基础上进行数据预处理,剔除不完整的事故报告,最终选取255起瓦斯爆炸事故报告进行要素分析与提取;将事故等级、事故经过、事故原因等内容进行整理储存,形成待挖掘文本语料库;基于Jieba分词算法提取瓦斯爆炸事故情景关键词,并采用TF-IDF算法进行权重计算,将情景划分为事故体、致灾体、承灾体、抗灾体4个维度和24个要素,为后续瓦斯爆炸事故的情景表示和事故未来的可能性组合提供了参考依据。 展开更多
关键词 安全工程 瓦斯爆炸 情景分析 中文分词 Jieba分词技术
在线阅读 下载PDF
基于局部Transformer的泰语分词和词性标注联合模型 被引量:1
13
作者 朱叶芬 线岩团 +1 位作者 余正涛 相艳 《智能系统学报》 CSCD 北大核心 2024年第2期401-410,共10页
泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采... 泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采用局部Transformer网络从音节序列中学习分词特征;考虑到词根和词缀等音节与词性的关联,将用于分词的音节特征融入词语序列特征,缓解未知词的词性标注特征缺失问题。在此基础上,模型采用线性分类层预测分词标签,采用线性条件随机场建模词性序列的依赖关系。在泰语数据集LST20上的试验结果表明,模型分词F1、词性标注微平均F1和宏平均F1分别达到96.33%、97.06%和85.98%,相较基线模型分别提升了0.33%、0.44%和0.12%。 展开更多
关键词 泰语分词 词性标注 联合学习 局部Transformer 构词特点 音节特征 线性条件随机场 联合模型
在线阅读 下载PDF
一种基于八词位标签的BiLSTM_CRF藏文分词方法 被引量:2
14
作者 常芳玉 才智杰 《中文信息学报》 CSCD 北大核心 2024年第10期64-70,79,共8页
藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集... 藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集,采用BiLSTM_CRF模型得到一种基于八词位标签的BiLSTM_CRF藏文分词方法。实验结果表明,该方法取得较好的分词效果,在测试数据集上的准确率、召回率和F1值分别达95.07%、95.57%和95.32%。 展开更多
关键词 自然语言处理 藏文分词 BiLSTM_CRF 八词位标签
在线阅读 下载PDF
汉语词切分和字号对阅读知觉广度的影响:眼动的证据 被引量:1
15
作者 郭梅华 兰泽波 +3 位作者 巫金根 李赛男 吴俊杰 闫国利 《心理与行为研究》 CSSCI 北大核心 2024年第1期1-7,共7页
本研究采用移动窗口范式,探讨汉语词切分线索和字号对阅读知觉广度的影响,采用3(词切分线索:不切分、正确词切分、错误词切分)×2(字号:大、小)×4(窗口:L1R2、L1R3、L1R4、整行)的被试内实验设计。结果发现,字号与窗口交互作... 本研究采用移动窗口范式,探讨汉语词切分线索和字号对阅读知觉广度的影响,采用3(词切分线索:不切分、正确词切分、错误词切分)×2(字号:大、小)×4(窗口:L1R2、L1R3、L1R4、整行)的被试内实验设计。结果发现,字号与窗口交互作用不显著,词切分线索、字号与窗口的交互作用也不显著。结果表明,字号对汉语阅读知觉广度的影响可能非常有限,词切分线索也不调节字号对汉语阅读知觉广度的影响。 展开更多
关键词 字号 阅读知觉广度 词切分线索
在线阅读 下载PDF
面向信息检索的自适应中文分词系统 被引量:48
16
作者 曹勇刚 曹羽中 +1 位作者 金茂忠 刘超 《软件学报》 EI CSCD 北大核心 2006年第3期356-363,共8页
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和... 新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势. 展开更多
关键词 分词系统 分词算法 信息检索 新词识别 歧义消解
在线阅读 下载PDF
基于条件随机场方法的开放领域新词发现 被引量:45
17
作者 陈飞 刘奕群 +3 位作者 魏超 张云亮 张敏 马少平 《软件学报》 EI CSCD 北大核心 2013年第5期1051-1060,共10页
开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网... 开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果. 展开更多
关键词 新词发现 CONDITION RANDOM field(CRF) 中文分词
在线阅读 下载PDF
词切分对初学者句子阅读影响的眼动研究 被引量:75
18
作者 沈德立 白学军 +3 位作者 臧传丽 闫国利 冯本才 范晓红 《心理学报》 CSSCI CSCD 北大核心 2010年第2期159-172,共14页
采用EyeLink II眼动仪,以72名小学三年级学生为被试,通过三个实验来探讨词切分对初学者汉语句子阅读的影响。实验一设置四种空格呈现条件:正常的无空格条件、字间空格条件、词间空格条件和非词空格条件。实验二采用灰条标记作为字、词... 采用EyeLink II眼动仪,以72名小学三年级学生为被试,通过三个实验来探讨词切分对初学者汉语句子阅读的影响。实验一设置四种空格呈现条件:正常的无空格条件、字间空格条件、词间空格条件和非词空格条件。实验二采用灰条标记作为字、词或非词的边界,使不同条件下句子的空间分布是一致的。实验三进一步操纵了学生的阅读技能。结果发现三个实验的结果趋势是一致的。小学三年级学生在阅读有词间空格的文本和正常的无空格文本一样容易。尽管词切分文本对阅读技能高和阅读技能低的学生来说一样容易,但非词空格呈现条件会对阅读技能低的学生产生更大的干扰作用。阅读技能低的学生在阅读过程中更依赖于文本的低水平视觉线索。文章最后讨论了词切分对建构中文阅读眼动控制模型的启示。 展开更多
关键词 词切分 初学者 阅读 眼动
在线阅读 下载PDF
字典与统计相结合的中文分词方法 被引量:42
19
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
在线阅读 下载PDF
基于互信息改进算法的新词发现对中文分词系统改进 被引量:46
20
作者 杜丽萍 李晓戈 +2 位作者 于根 刘春丽 刘睿 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期35-40,共6页
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的... 提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。 展开更多
关键词 新词识别 未登录词 互信息 PMI改进算法 中文分词
在线阅读 下载PDF
上一页 1 2 32 下一页 到第
使用帮助 返回顶部