期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
阅读伴随词汇学习的词切分:首、尾词素位置概率的不同作用 被引量:5
1
作者 梁菲菲 冯琳琳 +2 位作者 刘瑛 李馨 白学军 《心理学报》 CSSCI CSCD 北大核心 2024年第3期281-294,共14页
本研究通过两个平行实验,探讨重复学习新词时首、尾词素位置概率信息作用于词切分的变化模式。采用阅读伴随词汇学习范式,将双字假词作为新词,实验1操纵首词素位置概率高低,保证尾词素相同;实验2操纵尾词素位置概率高低,保证首词素相同... 本研究通过两个平行实验,探讨重复学习新词时首、尾词素位置概率信息作用于词切分的变化模式。采用阅读伴随词汇学习范式,将双字假词作为新词,实验1操纵首词素位置概率高低,保证尾词素相同;实验2操纵尾词素位置概率高低,保证首词素相同。采用眼动仪记录大学生阅读时的眼动轨迹。结果显示:(1)首、尾词素位置概率信息的词切分作用随新词在阅读中学习次数的增加而逐步变小,表现出“熟悉性效应”。(2)首词素位置概率信息的“熟悉性效应”表现在回视路径时间、总注视次数两个相对晚期的眼动指标,而尾词素位置概率信息的“熟悉性效应”则从凝视时间开始,到回视路径时间,再持续到总注视时间。结果表明首、尾词素的位置概率信息均作用于阅读伴随词汇学习的词切分,但首词素的作用时程更长,更稳定,支持了首词素在双字词加工中具有优势的观点。 展开更多
关键词 词素位置概率 词切分 阅读伴随词汇学习 中文阅读
在线阅读 下载PDF
基于LSTM网络的序列标注中文分词法 被引量:71
2
作者 任智慧 徐浩煜 +2 位作者 封松林 周晗 施俊 《计算机应用研究》 CSCD 北大核心 2017年第5期1321-1324,1341,共5页
当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络... 当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务。 展开更多
关键词 中文分词 LSTM 字嵌入 自然语言处理
在线阅读 下载PDF
一种中文分词词典新机制——双字哈希机制 被引量:108
3
作者 李庆虎 陈玉健 孙家广 《中文信息学报》 CSCD 北大核心 2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多... 汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。 展开更多
关键词 汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率
在线阅读 下载PDF
汉语词语边界自动划分的模型与算法 被引量:14
4
作者 付国宏 王晓龙 《计算机研究与发展》 EI CSCD 北大核心 1999年第9期1144-1147,共4页
在引入词形和汉字结合点等概念基础上,文中分别描述了一个基于字串构词能力的词形模型和一个基于词语内部、外部汉字结合度的汉字结合点模型,并采用线性插值方法将两种模型融合于一体进行汉语词语边界划分.在分析汉语切分候选空间的... 在引入词形和汉字结合点等概念基础上,文中分别描述了一个基于字串构词能力的词形模型和一个基于词语内部、外部汉字结合度的汉字结合点模型,并采用线性插值方法将两种模型融合于一体进行汉语词语边界划分.在分析汉语切分候选空间的基础上,文中还给出了相应的优化搜索算法.与一般的统计方法相比,文中方法的模型参数可直接从未经加工粗语料中得到,具有较强的适应能力. 展开更多
关键词 汉语分词 词形 字结合点 汉语信息处理
在线阅读 下载PDF
基于语料库的中文姓名识别方法研究 被引量:43
5
作者 郑家恒 李鑫 谭红叶 《中文信息学报》 CSCD 北大核心 2000年第1期7-12,共6页
本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95 .23 ... 本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95 .23 % ;精确率为87 .31 % 。 展开更多
关键词 中文 姓名识别 姓氏使用频率 自动分词
在线阅读 下载PDF
中文分词十年回顾 被引量:251
6
作者 黄昌宁 赵海 《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可... 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 展开更多
关键词 计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法
在线阅读 下载PDF
词素位置概率在中文阅读中的作用:词汇判断和眼动研究 被引量:8
7
作者 曹海波 兰泽波 +3 位作者 高峰 于海涛 李鹏 王敬欣 《心理学报》 CSSCI CSCD 北大核心 2023年第2期159-176,共18页
中文词切分的认知机制一直是心理语言学关注的焦点问题之一,研究发现中文读者可使用词素位置概率等语言学线索帮助词切分,而首、尾词素位置概率的重要程度以往研究观点并不一致。本研究通过词汇判断和眼动实验,考察中文读者对首、尾词... 中文词切分的认知机制一直是心理语言学关注的焦点问题之一,研究发现中文读者可使用词素位置概率等语言学线索帮助词切分,而首、尾词素位置概率的重要程度以往研究观点并不一致。本研究通过词汇判断和眼动实验,考察中文读者对首、尾词素位置概率的利用情况。实验1a和1b采用词汇判断任务,考察在不同词频条件下词首与词尾词素位置概率对词汇识别的影响。在错误率和反应时指标上,高频词条件下词首与词尾词素位置概率效应不显著;低频词条件下词首词素位置概率效应显著,词尾词素位置概率效应不显著。实验2a和2b采用句子阅读任务,考察在自然阅读情境中被试对词素位置概率的运用。在凝视时间、回视路径时间和总注视时间指标上,低频词条件下词首词素位置概率效应显著,词尾词素位置概率效应不显著。高频词条件下词首与词尾词素位置概率效应均不显著。词汇判断和眼动证据共同表明,词素位置概率信息是中文读者重要的语言词切分线索,且与词尾词素位置概率相比,词首词素位置概率在词汇切分与识别过程中发挥的作用更大。同时,词素位置概率线索的运用会受到词频的影响,研究结果支持复合词加工的混合通达表征模型。 展开更多
关键词 词切分 词素位置概率 中文阅读 眼动
在线阅读 下载PDF
基于汉语二字应成词的歧义字段切分方法 被引量:8
8
作者 郑德权 于凤 +1 位作者 王开涛 赵铁军 《计算机工程与应用》 CSCD 北大核心 2003年第1期17-18,26,共3页
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确... 文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。 展开更多
关键词 汉语二字应成词 歧义字段切分方法 中文信息处理 t-信息差 自动分词 汉语文本
在线阅读 下载PDF
语句拼音-汉字转换的智能处理机制分析 被引量:13
9
作者 章森 宗成庆 +1 位作者 陈肇雄 黄河燕 《中文信息学报》 CSCD 北大核心 1998年第2期37-43,共7页
语句拼音-汉字转换是中文信息处理研究的一个重要方面,是键盘汉字输入和语音输入的核心技术,其主要特征是对动态输入的拼音串进行词法分析,给出所有可能的汉语句子,然后对这些汉语句子根据上下文环境进行句法分析和语义分析,动态... 语句拼音-汉字转换是中文信息处理研究的一个重要方面,是键盘汉字输入和语音输入的核心技术,其主要特征是对动态输入的拼音串进行词法分析,给出所有可能的汉语句子,然后对这些汉语句子根据上下文环境进行句法分析和语义分析,动态调整句子中的字词,输出最佳结果。近年来,语句拼音-汉字转换系统大量应用了人工智能技术和机器翻译的理论,以期提高系统转换的准确率和增强系统的智能处理功能。本文分析了语句拼音-汉字转换系统所采用的核心技术,即知识支持、自动分词和动态调整等,讨论了语句拼音-汉字转换的处理方法和过程,知识库的组成结构,用于拼音串自动分词的算法和实现,音字转换中动态调整的概率模型等,本文还分析了现有语句拼音-汉字转换系统在拼音串自动分词和音字转换的动态调整中发生错误的原因。 展开更多
关键词 自动分词 中文信息处理 人工智能 拼音-汉字转换
在线阅读 下载PDF
基于门循环单元神经网络的中文分词法 被引量:22
10
作者 李雪莲 段鸿 许牧 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第2期237-243,共7页
目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神经网络应用于中文分词任... 目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神经网络应用于中文分词任务的方法,该方法可以自动学习特征,并有效建模长距离依赖信息,但是该模型较为复杂,存在模型训练和预测时间长的缺陷.针对该问题,提出了基于门循环单元(gated recurrent unit,GRU)神经网络的中文分词法,该方法继承了LSTM模型可自动学习特征、能有效建立长距离依赖信息的优点,具有与基于LSTM神经网络中文分词法相当的性能,并在速度上有显著提升. 展开更多
关键词 自然语言处理 中文分词 门循环单元 字嵌入 循环神经网络
在线阅读 下载PDF
一种中文文档的非受限无词典抽词方法 被引量:28
11
作者 金翔宇 孙正兴 张福炎 《中文信息学报》 CSCD 北大核心 2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、... 本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。 展开更多
关键词 中文信息处理 自动分词 非受限无词典抽词 汉字结构模式 中文文档 抽词速度
在线阅读 下载PDF
一种快速中文分词词典机制 被引量:16
12
作者 吴晶晶 荆继武 +1 位作者 聂晓峰 王平建 《中国科学院研究生院学报》 CAS CSCD 北大核心 2009年第5期703-711,共9页
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提... 通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 展开更多
关键词 文本实时处理 中文分词 词典法分词 双字词-长词哈希机制
在线阅读 下载PDF
中文阅读中的字词激活模式:来自提示词边界延时效应的证据 被引量:5
13
作者 刘志方 张智君 杨桂芳 《心理学报》 CSSCI CSCD 北大核心 2016年第9期1082-1092,共11页
研究采用眼动随动显示技术,通过操控提示正确/错误词边界线索的延迟时间,考察汉语阅读中汉字、词汇加工与词切分的时间特性。实验1发现,提示词n+1边界不影响总阅读时间,但能积极影响词兴趣区内的眼动数据,这种影响随着提示延迟时间的增... 研究采用眼动随动显示技术,通过操控提示正确/错误词边界线索的延迟时间,考察汉语阅读中汉字、词汇加工与词切分的时间特性。实验1发现,提示词n+1边界不影响总阅读时间,但能积极影响词兴趣区内的眼动数据,这种影响随着提示延迟时间的增加而逐步减弱;提示错误的词n+1的边界线索对总阅读时间的影响则随提示延迟时间的增加呈现倒"U"型的变化趋势。实验2发现,提示词n边界不影响总阅读时间,但却消极影响词兴趣区内的眼动数据,这种消极影响并没有随着提示延迟时间的增加而减弱;提示错误的词n边界对总阅读时间和眼动数据均产生消极的影响,且这种影响都随着提示延迟时间的增加而减弱。综合两项实验的结果可以推测,单一的向上反馈假设和整体假设都不能全面解释阅读中的字词加工过程,汉字加工与词汇加工间存在交互激活过程。 展开更多
关键词 中文阅读 眼动 字词加工 词切分
在线阅读 下载PDF
基于字表的中文搜索引擎分词系统的设计与实现 被引量:15
14
作者 丁承 邵志清 《计算机工程》 CAS CSCD 北大核心 2001年第2期191-192,F003,共3页
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
关键词 字表 中文搜索引擎分词系统 设计 中文信息处理 INTERNET
在线阅读 下载PDF
基于词形的汉语文本切分方法 被引量:4
15
作者 付国宏 王晓龙 《情报学报》 CSSCI 北大核心 1999年第3期235-240,共6页
本文在分析汉语分词一般模型基础上,引入词形概率、词整合系数和词形网格等概念,提出了一个基于词形的汉语文本切分模型,并实现了一个反向动态规划和正向栈解码相结合的二次扫描的汉语文本切分算法。由于引入了词形概率、词整合系数... 本文在分析汉语分词一般模型基础上,引入词形概率、词整合系数和词形网格等概念,提出了一个基于词形的汉语文本切分模型,并实现了一个反向动态规划和正向栈解码相结合的二次扫描的汉语文本切分算法。由于引入了词形概率、词整合系数,本模型不仅反映了词形统计构词规律,而且在一定程度上体现了长词优先的切分原则。初步测试表明,本方法的切分准确率和消歧率分别可达996%和9344%。 展开更多
关键词 汉语分词 词形概率 整合系数 词形网格 信息处理
在线阅读 下载PDF
基于双字耦合度的中文分词交叉歧义处理方法 被引量:17
16
作者 王思力 王斌 《中文信息学报》 CSCD 北大核心 2007年第5期14-17,30,共5页
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息... 本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。 展开更多
关键词 计算机应用 中文信息处理 中文分词 双字耦合度 t-测试差
在线阅读 下载PDF
一种适用于专业搜索引擎的中文分词系统研究 被引量:4
17
作者 王硕 尤枫 +1 位作者 山岚 赵恒永 《计算机工程与应用》 CSCD 北大核心 2008年第19期142-145,共4页
在对现有中文分词技术研究的基础上,提出了一种应用于化工专业领域的中文分词系统,先后介绍了首字哈希结合二分查找的词典机制,以及结合路径选择机制而改进了的层进式最短路径切词算法,并经过实验分析,在保证切分效率的同时,在一定程度... 在对现有中文分词技术研究的基础上,提出了一种应用于化工专业领域的中文分词系统,先后介绍了首字哈希结合二分查找的词典机制,以及结合路径选择机制而改进了的层进式最短路径切词算法,并经过实验分析,在保证切分效率的同时,在一定程度上达到了消除歧义的效果。 展开更多
关键词 中文分词 搜索引擎 首字哈希 层进式最短路径 路径选择
在线阅读 下载PDF
一种基于Lucene的影片搜索引擎的研究和应用 被引量:3
18
作者 匡振国 倪宏 +1 位作者 嵇智辉 刘磊 《计算机工程与应用》 CSCD 北大核心 2008年第29期8-10,30,共4页
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它... Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。 展开更多
关键词 LUCENE 搜索引擎 双字哈希 中文分词 倒排索引
在线阅读 下载PDF
基于词平台汉字编码的自动标引研究 被引量:3
19
作者 焦慧 刘迁 贾惠波 《计算机工程与应用》 CSCD 北大核心 2007年第15期173-175,共3页
自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集中于汉语自动分词这个前期处理问题上。提出了一种基于词平台的汉字编码方法,建立了一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再... 自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集中于汉语自动分词这个前期处理问题上。提出了一种基于词平台的汉字编码方法,建立了一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再进行自动分词,可直接进行自动标引,从而提高自动标引的效率和质量。 展开更多
关键词 自动标引 词平台 汉字编码 自动分词
在线阅读 下载PDF
字标注汉语词法分析中上文和下文孰重孰轻 被引量:3
20
作者 于江德 王希杰 樊孝忠 《计算机科学》 CSCD 北大核心 2012年第11期201-203,236,共4页
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题。上下文是统计方法中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基... 汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题。上下文是统计方法中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要呢?为克服仅凭主观经验给出猜测结果的不足,对基于字标注汉语词法分析的分词、词性标注、命名实体识别这3项子任务进行了深入研究,对比了上文和下文对各个任务性能的影响;在国际汉语语言处理评测Bakeoff多种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验。结果表明,在字标注框架下,下文对汉语词法分析性能的贡献比上文的贡献高出6个百分点以上。 展开更多
关键词 汉语词法分析 字标注 上下文 分词 词性标注 命名实体识别
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部