期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
中文机构名称的识别与分析 被引量:85
1
作者 张小衡 王玲玲 《中文信息学报》 CSCD 北大核心 1997年第4期21-32,共12页
中文机构名称数目庞大,层出不穷,绝大多数未能收入词典,给自然语言处理带来困扰。但是,从语言学的角度来看,机构名称是一种偏正复合式专有名词,同时又是一类较为简单的偏正名词词组,有自己的结构规律和形态标记。本文以高校名称... 中文机构名称数目庞大,层出不穷,绝大多数未能收入词典,给自然语言处理带来困扰。但是,从语言学的角度来看,机构名称是一种偏正复合式专有名词,同时又是一类较为简单的偏正名词词组,有自己的结构规律和形态标记。本文以高校名称为重点,以中国内地、香港和台湾三地实际语料为依据,从语言学和计算机技术两方面对机构名称的识别与分析展开讨论,并总结出相应的规则。根据这些规则,对六百多万字的三地语料库作高校名称识别,正确率(指前后界定位均正确)达973%,召回率为969%。这些规则还可应用于拼音汉字智能转换和机器翻译等其它领域。 展开更多
关键词 机构名称 专有名词 自然语言处理 信息处理
在线阅读 下载PDF
《全衡》词典的设计与建设 被引量:2
2
作者 张小衡 张群显 《中文信息学报》 CSCD 北大核心 2002年第3期58-62,共5页
《全衡》是第一个较全面考虑香港和国际的需求的网上汉字输入系统 ,其核心部件是词典。《全衡》使用的是一部拥有六万余词条的词典 ,每一词条讲述一个词语 ,信息包括该词语的简体字形式、繁体字形式、汉语拼音表达式、粤语拼音表达式、... 《全衡》是第一个较全面考虑香港和国际的需求的网上汉字输入系统 ,其核心部件是词典。《全衡》使用的是一部拥有六万余词条的词典 ,每一词条讲述一个词语 ,信息包括该词语的简体字形式、繁体字形式、汉语拼音表达式、粤语拼音表达式、仓颉输入法代码、速成输入法代码等。由其中任何一项入手 ,借助于系统中的检索程序可以方便地查找其它各项信息。这不仅有力地支持了汉字输入 ,对于汉语学习也很有帮助。本文简要介绍《全衡》 展开更多
关键词 《全衡》 网上汉字输入系统 词典编辑 汉语拼音 粤语拼音 简体字 繁体字 词典设计 词典建设
在线阅读 下载PDF
也谈汉语书面语的分词问题——分词连写十大好处 被引量:12
3
作者 张小衡 《中文信息学报》 CSCD 北大核心 1998年第3期57-63,共7页
单词的切分对现代汉语的运用、研究和计算机信息处理等都具有相当重要的意义。本文阐述书面汉语分词连写的十大好处,并讨论一些实施方面的问题。文章全文分词连写。
关键词 汉语 书面语 分词连写 分词 计算机信息处理
在线阅读 下载PDF
《信息处理用GB13000.1字符集汉字部件规范》在输入法应用中的难点讨论 被引量:9
4
作者 张小衡 《中文信息学报》 CSCD 北大核心 2004年第4期60-65,共6页
《信息处理用GB1 30 0 0 1字符集汉字部件规范》对于规范汉字形码输入法具有非常重要的意义。然而 ,在实际运用上却存在着部件数量太大 ,部件定义难以操作 ,部件拆分组合不易掌握等难处。造成困难的原因主要有 :(1 )基础部件主要靠列... 《信息处理用GB1 30 0 0 1字符集汉字部件规范》对于规范汉字形码输入法具有非常重要的意义。然而 ,在实际运用上却存在着部件数量太大 ,部件定义难以操作 ,部件拆分组合不易掌握等难处。造成困难的原因主要有 :(1 )基础部件主要靠列表来确定 ,(2 )部件强调按理切分和成字组合 ,(3)过多依赖“组字能力”的判别 ,(4 )过分注重部件数量的限制。要走出“难”的困境 ,应该在现有规范的基础上根据汉字的形态特征制定出简便可靠的部件识别规则和切分规则。实验证明 。 展开更多
关键词 计算机应用 中文信息处理 汉字输入 汉字部件 规范
在线阅读 下载PDF
正易全:一个动态结构笔组汉字编码输入法 被引量:5
5
作者 张小衡 《中文信息学报》 CSCD 北大核心 2003年第3期59-65,共7页
“正易全”是一个以“正”、“易”和“全”为基本指导思想的笔组型汉字编码输入法。在“正”方面 ,采用国际标准汉字集ISO10 646CJK ,并以《GB130 0 0 1字符集汉字字序 (笔画序 )规范》和《信息处理用GB130 0 0 1字符集汉字部件规... “正易全”是一个以“正”、“易”和“全”为基本指导思想的笔组型汉字编码输入法。在“正”方面 ,采用国际标准汉字集ISO10 646CJK ,并以《GB130 0 0 1字符集汉字字序 (笔画序 )规范》和《信息处理用GB130 0 0 1字符集汉字部件规范》指导编码 ;在“易”方面 ,以单双笔笔组和十来个常用部件为码元 ,按笔顺和音托等简单原则映射到 2 6个英文字母建元上 ,从而避免了传统的繁复字根 -键元对应表 ;在“全”方面 ,支持CJK中的所有 2 0 90 2字符 ,包括简体字、繁体字、日韩字和偏旁部首等 ,而且可以在不改变编码方案的前提下进一步扩充字集。正易全的单字最大码长为 5个字母 ,平均码长 4 315 ,键选率 16 4 %。该输入法的笔组 -键元设计和取码模式是在对整个CJK字集作了全字编码以后多次试验、统计和优化后确定下来的。 展开更多
关键词 计算机应用 中文信息处理 动态结构笔组 字形码 汉字输入
在线阅读 下载PDF
不完全拼音码的模版处理——兼谈微软拼音输入法的进一步完善 被引量:2
6
作者 张小衡 《计算机工程与应用》 CSCD 北大核心 2005年第20期74-76,101,共4页
“不完全拼音码”指在声、韵、调等方面有所省略的拼音输入码。输入法软件在处理不完全拼音码的时候,应该充分利用代码提供的信息,为用户检索出所有符合条件的汉字词语。文章指出并分析了微软最新版的MSPY2003和新注音输入法v6.5在处理... “不完全拼音码”指在声、韵、调等方面有所省略的拼音输入码。输入法软件在处理不完全拼音码的时候,应该充分利用代码提供的信息,为用户检索出所有符合条件的汉字词语。文章指出并分析了微软最新版的MSPY2003和新注音输入法v6.5在处理声调缺省,韵母缺省以及音节歧义切分等问题时的一些欠妥之处,并根据语言学和辞书知识提出基于拼音码模板的解决策略。实验结果证明,这种方法是相当有效的。 展开更多
关键词 汉字输入 不完全拼音码 模版
在线阅读 下载PDF
字形的“号制”“点制”与“米制” 被引量:1
7
作者 张小衡 《计算机工程与应用》 CSCD 北大核心 2006年第10期175-177,215,共4页
号制和点制是计算机文字处理中表示字形尺寸的最常用标准。论文简单叙述这两种标准的历史和现状,给出一个含Word2003所有字号的“号-点-厘米”对照表,并介绍对照表数据的实验获取方法和多种用途。最后,在深入分析讨论号制和点制的种种... 号制和点制是计算机文字处理中表示字形尺寸的最常用标准。论文简单叙述这两种标准的历史和现状,给出一个含Word2003所有字号的“号-点-厘米”对照表,并介绍对照表数据的实验获取方法和多种用途。最后,在深入分析讨论号制和点制的种种缺陷的基础上提出字形度量全球统一使用米制的构想。 展开更多
关键词 字形尺寸 号制 点制 米制
在线阅读 下载PDF
进一步的“正易全”——三级汉字编码输入法 被引量:1
8
作者 张小衡 《中文信息学报》 CSCD 北大核心 2005年第1期98-104,共7页
本文报告“正易全”汉字输入法的新进展。从整体上来讲 ,正易全已发展成为全字笔顺、全字笔组和2 2 1笔组三级输入法系列。前两级简单灵活 ,键选率极低 ,方便大字集查检 ;第三级在常用字和通用字中表现极佳 ,适合日常快速打字。在编码... 本文报告“正易全”汉字输入法的新进展。从整体上来讲 ,正易全已发展成为全字笔顺、全字笔组和2 2 1笔组三级输入法系列。前两级简单灵活 ,键选率极低 ,方便大字集查检 ;第三级在常用字和通用字中表现极佳 ,适合日常快速打字。在编码技术上 ,多笔笔组码元的选用、单结构的定义和多结构字的二部划分等方面都作了进一步的简化、系统化和规律化。此外 ,码表在GB130 0 0 1字符集的基础上增加了 116 4个港澳台地区用字或字形。 展开更多
关键词 计算机应用 中文信息处理 汉字输入 字形码 笔组
在线阅读 下载PDF
粤-普机器翻译中的词处理 被引量:1
9
作者 张小衡 《中文信息学报》 CSCD 北大核心 1999年第3期40-47,共8页
粤语和普通话之间的机器翻译研究应首先考虑由粤语到普通话的书面语翻译,并以单词为突破口。本文重点讨论粤-普书面语机器翻译中的词处理,尤其是方言词处理,包括方言词的识别和方言词的翻译两方面,同时介绍一个已经初步实现了的单... 粤语和普通话之间的机器翻译研究应首先考虑由粤语到普通话的书面语翻译,并以单词为突破口。本文重点讨论粤-普书面语机器翻译中的词处理,尤其是方言词处理,包括方言词的识别和方言词的翻译两方面,同时介绍一个已经初步实现了的单词级粤-普机器翻译试验系统。文章最后将给出结论和讨论。 展开更多
关键词 机器翻译 粤语 普通话 词处理 汉语
在线阅读 下载PDF
中文的同形异码字问题 被引量:1
10
作者 张小衡 《中文信息学报》 CSCD 北大核心 2015年第4期144-150,共7页
同一个字符拥有不同的计算机内部代码,这意味着有两个或两个以上字形在人的眼中是同一个字,而计算机却认为是不同的字。这种"人机看法不一致"会给语言信息处理带来混乱,导致信息检索不全,统计数字不准,字词分类排序不一致等... 同一个字符拥有不同的计算机内部代码,这意味着有两个或两个以上字形在人的眼中是同一个字,而计算机却认为是不同的字。这种"人机看法不一致"会给语言信息处理带来混乱,导致信息检索不全,统计数字不准,字词分类排序不一致等情况。该文结合Unicode实例专题讨论当前计算机上存在的中文同形异码字问题,包括(a)私人造字公有化所形成的同形异码字,(b)兼容编码所形成的同形异码字,(c)建立专门的笔画部首表而形成的同形异码字,(d)半宽和全宽字形分别编码而造成的同形异码字等,并探讨解决问题的方法。 展开更多
关键词 中文字符 同形异码 UNICODE
在线阅读 下载PDF
关于教与学矛盾的多维性探究
11
作者 张小衡 《职教论坛》 北大核心 2010年第29期18-19,22,共3页
在培育大学生的实践能力、创造能力、就业能力和创业能力的同时,将社会文化、企业文化、校园文化、家庭文化有机地、全方位地、紧密地溶合。让学生在校期间就有在岗的感觉,知道如何定向培养自己的各种能力。针对教与学矛盾的多维性特... 在培育大学生的实践能力、创造能力、就业能力和创业能力的同时,将社会文化、企业文化、校园文化、家庭文化有机地、全方位地、紧密地溶合。让学生在校期间就有在岗的感觉,知道如何定向培养自己的各种能力。针对教与学矛盾的多维性特点,通过组织优秀毕业生座谈会、职业技术生涯规划讲座、在暑期组织学生到企业进行生产实践活动、举办创新创业教育讲座、实施工程教育等方式进行研究。旨在研究教与学矛盾的多维性问题。 展开更多
关键词 教与学矛盾 矛盾的多维性 多维性研究
在线阅读 下载PDF
低渗透砂岩润湿性对水驱和复合驱采收率的影响 被引量:6
12
作者 吴天江 张小衡 +2 位作者 李兵 樊绪永 王书国 《断块油气田》 CAS 北大核心 2011年第3期363-365,共3页
在砂岩岩心渗透率小于50×10-3μm2条件下,考察驱替相润湿接触角分别为37,86,126和167°的驱油效果,对应水驱采收率平均值依次为16.18%,15.47%,13.94%和9.02%,复合驱采收率依次为21.12%,17.33%,13.53%和5.26%。结果表明,除强亲... 在砂岩岩心渗透率小于50×10-3μm2条件下,考察驱替相润湿接触角分别为37,86,126和167°的驱油效果,对应水驱采收率平均值依次为16.18%,15.47%,13.94%和9.02%,复合驱采收率依次为21.12%,17.33%,13.53%和5.26%。结果表明,除强亲油性外,其他润湿性对岩心水驱采收率的影响不显著。复合驱提高采收率幅度随润湿性由亲油到亲水变化逐渐提高,其平均值与润湿接触角呈二阶线性负相关关系,即润湿接触角越小,采收率越高,接触角为37°时提高采收率最大。低渗透孔隙微毛细管对原油的捕集作用是制约驱油效率的关键因素,应用复合驱应重点从降低油水界面张力和改变岩石润湿性2方面考虑克服毛管对原油的捕集束缚。 展开更多
关键词 润湿性 驱油效率 低渗透砂岩 水驱 复合驱
在线阅读 下载PDF
DRNEST专家系统构造工具的设计与实现
13
作者 杨润生 张小衡 《计算机应用研究》 CSCD 1990年第5期39-43,共5页
本文介绍了作者研制的一个诊断型DRNEST专家系统构造工具。该系统由DOCTOR ES用户接口、CLEVER推理机、DKB知识库、TOOL-BOX工具箱、DNLPS自然语言处理子系统和DKBMS知识库管理子系统等构成,能提供纯英文、纯中文和中英文兼容的工作环... 本文介绍了作者研制的一个诊断型DRNEST专家系统构造工具。该系统由DOCTOR ES用户接口、CLEVER推理机、DKB知识库、TOOL-BOX工具箱、DNLPS自然语言处理子系统和DKBMS知识库管理子系统等构成,能提供纯英文、纯中文和中英文兼容的工作环境。由于设计了良好的用户接口,提供了解释信息,使用极为方便。 展开更多
关键词 专家系统 构造工具 DRNEST 设计
全文增补中
上一页 1 下一页 到第
使用帮助 返回顶部