期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于长度递减与串频统计的文本切分算法 被引量:14
1
作者 姜韶华 党延忠 《情报学报》 CSSCI 北大核心 2006年第1期74-79,共6页
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本... 提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。 展开更多
关键词 汉字 自动切分 串频 长串优先匹配
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部