-
题名中文的同形异码字问题
被引量:1
- 1
-
-
作者
张小衡
-
机构
香港理工大学中文及双语学系
-
出处
《中文信息学报》
CSCD
北大核心
2015年第4期144-150,共7页
-
基金
PolyU RGC Direct Allocation Fund.Project Account Code
A-PK14
-
文摘
同一个字符拥有不同的计算机内部代码,这意味着有两个或两个以上字形在人的眼中是同一个字,而计算机却认为是不同的字。这种"人机看法不一致"会给语言信息处理带来混乱,导致信息检索不全,统计数字不准,字词分类排序不一致等情况。该文结合Unicode实例专题讨论当前计算机上存在的中文同形异码字问题,包括(a)私人造字公有化所形成的同形异码字,(b)兼容编码所形成的同形异码字,(c)建立专门的笔画部首表而形成的同形异码字,(d)半宽和全宽字形分别编码而造成的同形异码字等,并探讨解决问题的方法。
-
关键词
中文字符
同形异码
UNICODE
-
Keywords
Chinese characters
duplicate encoding
unicode
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-