期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
玲珑:一个小规模的高质量中文预训练语言模型
1
作者 李东闻 钟震宇 +4 位作者 孙羽菲 申峻宇 马子智 于川越 张玉志 《计算机研究与发展》 北大核心 2025年第3期682-693,共12页
近年来,大规模的、基于自回归的中文预训练语言模型在各种自然语言处理任务上表现出优异性能.然而,高昂的计算成本以及基于中文词切分数据给中文预训练语言模型实际应用带来了巨大挑战.此外,大多基于自回归的模型只能使用单向前文信息,... 近年来,大规模的、基于自回归的中文预训练语言模型在各种自然语言处理任务上表现出优异性能.然而,高昂的计算成本以及基于中文词切分数据给中文预训练语言模型实际应用带来了巨大挑战.此外,大多基于自回归的模型只能使用单向前文信息,可能会导致模型在上下文敏感任务上的性能有所下降.为了解决以上问题,提出并训练了一个高质量的小型中文预训练语言模型——玲珑.该模型仅有3.17亿个参数,较小的规模使得玲珑十分容易部署和应用.使用基于汉字的策略对训练语料进行切分,可以有效减轻未知标记和分词错误带来的负面影响,增强了玲珑在下游任务上的性能.此外,通过对每条训练数据的输入顺序进行逆序处理,训练了一个反向玲珑模型.将玲珑与其反向版本相结合,可以实现在下游任务中使用双向信息.多种自然语言处理下游任务的实验结果表明,玲珑具有不错的处理下游任务的能力.在6个数据集上玲珑超越了相近规模模型的性能,在5个数据集上超越了大模型的性能. 展开更多
关键词 中文预训练语言模型 小规模 基于汉字的模型 反向模型 双向信息
在线阅读 下载PDF
汉字学视角下蒙古族刺绣信息转译与数字化研究 被引量:2
2
作者 刘美君 刘强 +2 位作者 尤立思 赵云彦 项姝雅 《包装工程》 CAS 北大核心 2024年第6期167-176,共10页
目的研究蒙古族刺绣和汉字的转译路径,从文化转译和符号转译的角度,构建蒙古族刺绣数字化传播的新方法。方法首先,运用汉字学中的构形和构意理论,分析汉字的笔画、部件和结构;其次,结合汉字学及符号学中索绪尔提出的能指和所指,对蒙古... 目的研究蒙古族刺绣和汉字的转译路径,从文化转译和符号转译的角度,构建蒙古族刺绣数字化传播的新方法。方法首先,运用汉字学中的构形和构意理论,分析汉字的笔画、部件和结构;其次,结合汉字学及符号学中索绪尔提出的能指和所指,对蒙古族刺绣纹样进行分析、拆解和提取;随后,整理上述分析结论,形成基于笔画数据库与构件数据库的图文语言转译单元;最后,根据数据库生成蒙古族刺绣的汉字转译样本。结果总结蒙古族刺绣纹样与汉字转译路径,将数据库的部件进行汉字的组合及生成,形成具有蒙古族刺绣元素和特征的汉字形态。结论以汉字学和符号学构成的转译路径赋能蒙古族刺绣活态转化,以文化转化和再生的视角促进非物质文化遗产的创新性发展,形成具有传播性和多元性的蒙古族刺绣数字化研究新形态。 展开更多
关键词 汉字构形与构意 蒙古族刺绣 非物质文化遗产 数字化 信息转译
在线阅读 下载PDF
基于规则与统计相结合的中文文本自动查错模型与算法 被引量:34
3
作者 张仰森 曹元大 俞士汶 《中文信息学报》 CSCD 北大核心 2006年第4期1-7,55,共8页
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字... 中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。 展开更多
关键词 计算机应用 中文信息处理 中文文本自动查错 规则与统计相结合 非多字词错误 真多字词错误
在线阅读 下载PDF
基于非负矩阵分解方法的汉字基本部件识别 被引量:4
4
作者 陈清华 陈六君 +1 位作者 郑涛 陈家伟 《计算机工程与应用》 CSCD 北大核心 2008年第29期76-78,81,共4页
将NMF方法应用到汉字字形的处理中,成功地从一些汉字样本中抽取出构成这些汉字的基本部件。通过引入合适的惩罚因子,提出了一种扩展的NMF方法,对同样的汉字样本进行处理可以获得更好的结果,抽取出的基本部件就是构成这些汉字的偏旁部首。
关键词 非负矩阵分解 汉字 基本部件
在线阅读 下载PDF
一个中文文本自动分类数学模型 被引量:18
5
作者 曹素青 曾伏虎 曹焕光 《情报学报》 CSSCI 北大核心 1999年第1期27-32,共6页
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类... 本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。 展开更多
关键词 中文文本 自动分类 字频向量 映射函数
在线阅读 下载PDF
中文分词十年回顾 被引量:251
6
作者 黄昌宁 赵海 《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可... 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 展开更多
关键词 计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法
在线阅读 下载PDF
新音形编码汉字输入法设计 被引量:5
7
作者 陈钦梧 彭小忠 《计算机工程与应用》 CSCD 2014年第1期36-40,共5页
针对当前汉字输入法普遍存在的不足,提出了一种新音形编码汉字输入法,即利用汉字的首拼音、韵母及组成汉字的基本笔画和少数高频部件来对汉字编码,是对以前笔画和音形编码汉字输入法的改进。它既有笔画输入法低重码率、输入高效的特点,... 针对当前汉字输入法普遍存在的不足,提出了一种新音形编码汉字输入法,即利用汉字的首拼音、韵母及组成汉字的基本笔画和少数高频部件来对汉字编码,是对以前笔画和音形编码汉字输入法的改进。它既有笔画输入法低重码率、输入高效的特点,又切合广大拼音输入法用户的输入习惯,能够很好地满足多种用户群的需求。阐述了这种编码输入法对汉字的编码规则,对各编码的按键分布及重码率进行详实的统计,深入分析论证了其重码率低的优点,简要介绍了这种输入法在Android平台下的实现。 展开更多
关键词 韵母键盘 汉字输入法 笔画编码 新音形编码 重码率分析
在线阅读 下载PDF
三位一体字标注的汉语词法分析 被引量:4
8
作者 于江德 胡顺义 余正涛 《中文信息学报》 CSCD 北大核心 2015年第6期1-7,共7页
针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位... 针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。 展开更多
关键词 汉语词法分析 最大熵模型 三位一体 字标注
在线阅读 下载PDF
基于统计方法的中文姓名识别研究 被引量:3
9
作者 贾品贵 杨一平 卢朋 《计算机工程与应用》 CSCD 北大核心 2006年第31期168-170,共3页
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据... 采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。 展开更多
关键词 中文姓名识别 基于汉字 隐马尔可夫模型 互信息
在线阅读 下载PDF
结合类频率的关联中文文本分类 被引量:12
10
作者 钱铁云 王元珍 冯小年 《中文信息学报》 CSCD 北大核心 2004年第6期30-36,共7页
该文提出一种词类频率和关联中文文本分类相结合的算法ARCTC。此算法将文档视作事务 ,关键词视作项 ,并针对文本事务的特性 ,提出利用词的类频率筛选与分类相关性不大的词汇 ,然后将改进的关联规则挖掘算法用于挖掘项和类别间的相关关... 该文提出一种词类频率和关联中文文本分类相结合的算法ARCTC。此算法将文档视作事务 ,关键词视作项 ,并针对文本事务的特性 ,提出利用词的类频率筛选与分类相关性不大的词汇 ,然后将改进的关联规则挖掘算法用于挖掘项和类别间的相关关系。挖掘出的规则用于形成类别特征词的集合 ,可用来和类标号未知文档的词的集合求交集 ,交集元素个数最多者即为所分类别。实验证明 ,该算法在提高训练时间和测试时间的同时具有较好的召回率、准确率和F Measure。 展开更多
关键词 计算机应用 中文信息处理 基于关联的分类 中文文本分类 词类频率 类别特征词集合
在线阅读 下载PDF
一种联机手写汉字识别方法 被引量:2
11
作者 姚丹霖 殷建平 《国防科技大学学报》 EI CAS CSCD 1997年第1期32-35,共4页
本文给出了一种基于动态汉字基元获取笔段有序序列的联机手写汉字识别方法。该方法对汉字书写笔顺无任何限制,对手写汉字变形有很好的适应能力。经测试,基于本方法研制的联机手写汉字识别系统的识别率为97.1%.
关键词 手写汉字 汉字基元 模式识别 汉字识别 计算机
在线阅读 下载PDF
《全衡》词典的设计与建设 被引量:2
12
作者 张小衡 张群显 《中文信息学报》 CSCD 北大核心 2002年第3期58-62,共5页
《全衡》是第一个较全面考虑香港和国际的需求的网上汉字输入系统 ,其核心部件是词典。《全衡》使用的是一部拥有六万余词条的词典 ,每一词条讲述一个词语 ,信息包括该词语的简体字形式、繁体字形式、汉语拼音表达式、粤语拼音表达式、... 《全衡》是第一个较全面考虑香港和国际的需求的网上汉字输入系统 ,其核心部件是词典。《全衡》使用的是一部拥有六万余词条的词典 ,每一词条讲述一个词语 ,信息包括该词语的简体字形式、繁体字形式、汉语拼音表达式、粤语拼音表达式、仓颉输入法代码、速成输入法代码等。由其中任何一项入手 ,借助于系统中的检索程序可以方便地查找其它各项信息。这不仅有力地支持了汉字输入 ,对于汉语学习也很有帮助。本文简要介绍《全衡》 展开更多
关键词 《全衡》 网上汉字输入系统 词典编辑 汉语拼音 粤语拼音 简体字 繁体字 词典设计 词典建设
在线阅读 下载PDF
基于类向量模型的中文姓名识别研究 被引量:2
13
作者 贾品贵 杨一平 卢朋 《计算机应用研究》 CSCD 北大核心 2007年第4期111-113,共3页
提出了一种基于类向量模型的中文姓名识别方法。该方法通过类向量的生成来模拟人工识别姓名的过程,采用V iterbi算法对未经切分的汉字串进行类向量标注得到类向量序列,通过检查相邻类向量中类别和向量分量的变化来最终识别出人名。该方... 提出了一种基于类向量模型的中文姓名识别方法。该方法通过类向量的生成来模拟人工识别姓名的过程,采用V iterbi算法对未经切分的汉字串进行类向量标注得到类向量序列,通过检查相邻类向量中类别和向量分量的变化来最终识别出人名。该方法是完全数据驱动的,不需要姓名识别的模式和规则。通过对互联网上随机抽取的1 000篇文章进行测试,结果表明,中文姓名识别召回率为82.2%,准确率为70.3%。 展开更多
关键词 中文姓名识别 类向量模型 VITERBI算法 基于汉字
在线阅读 下载PDF
OLED汉字显示技术 被引量:1
14
作者 雷凌毅 张振禹 朱莹 《兵工自动化》 2007年第1期89-90,共2页
采用在屏上选择对应位置点亮对应点方式创建自定义汉字库,通过调用该字库,可在OLED上显示汉字。先根据OLED显示方式和要求,选择相关取模参数生成所需汉字字模。再根据所需的汉字和字符,通过字模产生工具生成相应字模,完成自定义汉字库... 采用在屏上选择对应位置点亮对应点方式创建自定义汉字库,通过调用该字库,可在OLED上显示汉字。先根据OLED显示方式和要求,选择相关取模参数生成所需汉字字模。再根据所需的汉字和字符,通过字模产生工具生成相应字模,完成自定义汉字库的编制。以VGG12864E-S002型OLED为例仿真,证明了该方法的可行性。 展开更多
关键词 OLED 汉字显示 汉字库 字模
在线阅读 下载PDF
正易全:一个动态结构笔组汉字编码输入法 被引量:5
15
作者 张小衡 《中文信息学报》 CSCD 北大核心 2003年第3期59-65,共7页
“正易全”是一个以“正”、“易”和“全”为基本指导思想的笔组型汉字编码输入法。在“正”方面 ,采用国际标准汉字集ISO10 646CJK ,并以《GB130 0 0 1字符集汉字字序 (笔画序 )规范》和《信息处理用GB130 0 0 1字符集汉字部件规... “正易全”是一个以“正”、“易”和“全”为基本指导思想的笔组型汉字编码输入法。在“正”方面 ,采用国际标准汉字集ISO10 646CJK ,并以《GB130 0 0 1字符集汉字字序 (笔画序 )规范》和《信息处理用GB130 0 0 1字符集汉字部件规范》指导编码 ;在“易”方面 ,以单双笔笔组和十来个常用部件为码元 ,按笔顺和音托等简单原则映射到 2 6个英文字母建元上 ,从而避免了传统的繁复字根 -键元对应表 ;在“全”方面 ,支持CJK中的所有 2 0 90 2字符 ,包括简体字、繁体字、日韩字和偏旁部首等 ,而且可以在不改变编码方案的前提下进一步扩充字集。正易全的单字最大码长为 5个字母 ,平均码长 4 315 ,键选率 16 4 %。该输入法的笔组 -键元设计和取码模式是在对整个CJK字集作了全字编码以后多次试验、统计和优化后确定下来的。 展开更多
关键词 计算机应用 中文信息处理 动态结构笔组 字形码 汉字输入
在线阅读 下载PDF
中国共产党革命根据地妇女教育特征考察 被引量:3
16
作者 何黎萍 《安徽史学》 CSSCI 北大核心 2006年第3期52-55,共4页
20世纪30-40年代中国共产党在苏区、抗日根据地和解放区,将妇女教育与当时的革命斗争结合起来,把妇女教育的发展提高到一个新高度,使中国共产党区域的妇女教育形成了鲜明的革命性、平民性、实用性和多样性特征,从而在全国开创了一条全... 20世纪30-40年代中国共产党在苏区、抗日根据地和解放区,将妇女教育与当时的革命斗争结合起来,把妇女教育的发展提高到一个新高度,使中国共产党区域的妇女教育形成了鲜明的革命性、平民性、实用性和多样性特征,从而在全国开创了一条全新而成功的发展妇女教育的道路,对中国革命战争的胜利起了极大的推动作用。 展开更多
关键词 中国共产党 革命根据地 妇女教育特征
在线阅读 下载PDF
进一步的“正易全”——三级汉字编码输入法 被引量:1
17
作者 张小衡 《中文信息学报》 CSCD 北大核心 2005年第1期98-104,共7页
本文报告“正易全”汉字输入法的新进展。从整体上来讲 ,正易全已发展成为全字笔顺、全字笔组和2 2 1笔组三级输入法系列。前两级简单灵活 ,键选率极低 ,方便大字集查检 ;第三级在常用字和通用字中表现极佳 ,适合日常快速打字。在编码... 本文报告“正易全”汉字输入法的新进展。从整体上来讲 ,正易全已发展成为全字笔顺、全字笔组和2 2 1笔组三级输入法系列。前两级简单灵活 ,键选率极低 ,方便大字集查检 ;第三级在常用字和通用字中表现极佳 ,适合日常快速打字。在编码技术上 ,多笔笔组码元的选用、单结构的定义和多结构字的二部划分等方面都作了进一步的简化、系统化和规律化。此外 ,码表在GB130 0 0 1字符集的基础上增加了 116 4个港澳台地区用字或字形。 展开更多
关键词 计算机应用 中文信息处理 汉字输入 字形码 笔组
在线阅读 下载PDF
提高汉字信息库检索效率的方法研究 被引量:1
18
作者 李登道 胡玉胜 +1 位作者 徐建国 员军亮 《山东科技大学学报(自然科学版)》 CAS 2000年第2期44-46,共3页
就如何提高汉字信息库检索效率的问题进行了研究,提出了利用汉字简拼代码和头笔划编码提高汉字检索条件生成的设想,并给出了具体实现方法和过程。该方法已在我们承担的泰山综合数据库和企事业计算机管理信息系统中得到实际应用,并获... 就如何提高汉字信息库检索效率的问题进行了研究,提出了利用汉字简拼代码和头笔划编码提高汉字检索条件生成的设想,并给出了具体实现方法和过程。该方法已在我们承担的泰山综合数据库和企事业计算机管理信息系统中得到实际应用,并获得很好的实用效果。 展开更多
关键词 信息库 汉字检索条件 简拼代码 头笔划编码
在线阅读 下载PDF
西文软件的二次开发——大型工控软件 SNAP 汉化
19
作者 许占文 朱天翔 +1 位作者 杨朝文 杜文洁 《沈阳工业大学学报》 EI CAS 1997年第6期51-54,85,共5页
对存贮示波器——工业控制软件SNAP汉化的主要技术作了详细介绍.在汉化过程中,通过自己建立的汉字库和编写汉字输入、输出程序,彻底摆脱了庞大的汉字操作系统的影响,节约了内存.利用截获中断的方法和编写的中断处理程序,既保... 对存贮示波器——工业控制软件SNAP汉化的主要技术作了详细介绍.在汉化过程中,通过自己建立的汉字库和编写汉字输入、输出程序,彻底摆脱了庞大的汉字操作系统的影响,节约了内存.利用截获中断的方法和编写的中断处理程序,既保证了汉字功能的实现,又不使原来软件有任何功能上的变化和损失. 展开更多
关键词 汉化 西文软件 软件开发 SNAP 工业控制
在线阅读 下载PDF
小型汉字库在PC/104嵌入式测控系统中的应用
20
作者 唐桂忠 赵亚琴 +1 位作者 张广明 程明霄 《现代电子技术》 2004年第14期65-68,共4页
介绍了 PC/ 10 4嵌入式测控系统中小型汉字库的建立及其在扩展内存中的使用和结构化方法。首先介绍了扩展内存存取技术 ,然后在介绍汉字库结构的基础上 ,提出了小型汉字库的建立和汉字的显示方法。并以实例 ( Borland C+ +语言 )介绍了... 介绍了 PC/ 10 4嵌入式测控系统中小型汉字库的建立及其在扩展内存中的使用和结构化方法。首先介绍了扩展内存存取技术 ,然后在介绍汉字库结构的基础上 ,提出了小型汉字库的建立和汉字的显示方法。并以实例 ( Borland C+ +语言 )介绍了小型汉字库的建立。 展开更多
关键词 PC/104 小型汉字库 扩展内存 结构化 汉字显示
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部