- 
                题名基于Spark的中文新词提取
                    被引量:1
            
- 1
- 
                
            
- 
                
                            作者
                                丁祥武
                                张东辉
                
            
- 
                    机构
                    
                            东华大学计算机科学与技术学院
                    
                
- 
                出处
                
                
                    《计算机工程与设计》
                    
                            北大核心
                    
                2017年第11期3185-3191,共7页
            
- 
                        基金
                        
                                    上海市科技行动计划基金项目(15511106900)
                                    上海市智慧城市建设基金项目(2015年1月至2016年12月)
                                    上海市信息化发展资金基金项目(XX-XXFZ-05-16-0139)
                        
                    
- 
                    文摘
                        为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平台对海量语料库中新词提取方案进行研究,提出一种分布式新词提取方案。对文本预处理,统计文本中字串的特征值如互信息、上下文信息熵、时间频率函数值等,建立巨大的领域及时间相关的结构化数据库,通过阈值及背景词库的过滤实现新词提取,将提取的新词添加到背景词中。实验结果表明,该算法具有较高的准确率,在大规模语料库处理效率上相比传统方法有了大幅提升。
                        
                    
            
- 
                    关键词
                    
                            新词识别
                            互信息
                            上下文熵
                            时间频率函数
                            阈值
                    
                
- 
                    Keywords
                    
                            new word detection
                            mutual information
                            context entropy
                            time frequency function
                            threshold
                    
                
- 
                    分类号
                    
                            
                                
                                    TP311
[自动化与计算机技术—计算机软件与理论]                                
                            
                    
                
-