-
题名面向文本数字化的自动纠错方法
被引量:3
- 1
-
-
作者
陈翔
徐平先
张玉志
-
机构
中国科学院计算技术研究所
点通数据有限公司
-
出处
《计算机应用研究》
CSCD
北大核心
2008年第5期1434-1436,共3页
-
基金
国家“863”计划重点资助项目(2006AA010101)
科技部中小企业创新基金资助项目(04C26214420751)
-
文摘
为了提高文本数字化系统的质量,针对该系统的错误特点,采用频率统计树构建查错模型,结合切分信息进行标点纠错,通过表形码和缓存集给出纠错建议,提出了规则与统计结合的自动纠错方法。实验结果表明,该方法召回率为84.65%,准确率为78.89%,误判率为9.07%,能够满足数字化系统需求。
-
关键词
自动纠错
文本数字化
频率统计树
切分信息
表形码
-
Keywords
automatic proofreading
texts digitization
frequency statistical tree
segmentation information
Biao-Xing code
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名数字化时代中文课外阅读文本库的构建
被引量:2
- 2
-
-
作者
姜丽萍
杨曦
-
机构
北京语言大学汉语国际教育研究院
北京语言大学国际汉语教学研究基地
不详
-
出处
《中国大学教学》
CSSCI
北大核心
2023年第3期83-88,共6页
-
基金
北京高校高精尖学科建设项目(中国语言文学)
北京语言大学研究生创新基金(中央高校基本科研业务费专项资金)(22YCX088)。
-
文摘
课外阅读是学习者提升中文阅读能力的重要途径。当前,适合国际中文学习者阅读的文本素材匮乏,而基于数字化的文本阅读具有来源广泛、内容丰富、使用便利等优势。文章综合分析了将数字化文本用于课外阅读的优势与潜在问题,提出构建数字化课外阅读文本库的设想,重点讨论了数字化文本库的特征、功能与实现路径,以期为开展中文课外阅读、促进中文学习者阅读能力提升及阅读习惯的养成提供新的思路。
-
关键词
中文阅读
数字化文本库
构建
课外阅读
-
分类号
H193
[语言文字—汉语]
-
-
题名一种基于自组织神经网络的中文文本聚类新方法
被引量:11
- 3
-
-
作者
徐建锁
王正欧
王莉
-
机构
天津大学系统工程研究所
-
出处
《情报学报》
CSSCI
北大核心
2003年第6期676-680,共5页
-
基金
国家自然科学基金
-
文摘
针对传统K-均值等算法在文本聚类中的缺陷,本文提出了一种树形动态自组织映射(TGSOM)神经网络来实现中文文本聚类,克服了传统的K-均值等算法中文本种类需要预先给定的缺点.本文详尽描述了该网络模型的生成算法和算法中扩展因子的作用,并阐述了中文文本的数字化方法--TF.IDF.IG方法.
-
关键词
中文文本
文本聚类
自组织映射
TGSOM
神经网络
K-均值算法
文本数字化
-
分类号
TP311.131
[自动化与计算机技术—计算机软件与理论]
TP183
[自动化与计算机技术—控制理论与控制工程]
-