期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于语义的文档特征提取研究方法 被引量:10
1
作者 姜芳 李国和 岳翔 《计算机科学》 CSCD 北大核心 2016年第2期254-258,共5页
中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,... 中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,最后通过信息增益算法从主题相关词中选取特征词。以宏F值和微F值为评价指标,通过有效性实验和对比实验表明,该方法的文本特征选取效果优于其他经典算法。 展开更多
关键词 特征词 语义距离 信息增益 文本分类
在线阅读 下载PDF
广域网大数据传输方案的实现 被引量:2
2
作者 欧阳侃夫 呼和 《计算机应用》 CSCD 北大核心 2014年第A01期35-37,共3页
针对石油专题数据单体文件数据量大的特点,在数据备份过程中,需考虑大文件传输、传输速度以及传输中断后续传的问题。通过分析大文件传输要点及数据传输方式,提出了一种广域网大文件传输解决方案。发送端将单个文件分块,分块数据采用用... 针对石油专题数据单体文件数据量大的特点,在数据备份过程中,需考虑大文件传输、传输速度以及传输中断后续传的问题。通过分析大文件传输要点及数据传输方式,提出了一种广域网大文件传输解决方案。发送端将单个文件分块,分块数据采用用户数据报协议(UDP)传输并在应用层模拟传输控制协议(TCP)的"三次握手"过程,接收端组合分块数据,最后形成完整文件。测试结果表明,该方案能实现企业内部广域网内单体海量数据文件的传输并保证较高的传输速度。 展开更多
关键词 数据传输 大文件 断点续传 传输控制协议 用户数据报协议
在线阅读 下载PDF
基于粗分和词性标注的中文分词方法 被引量:7
3
作者 姜芳 李国和 +4 位作者 岳翔 吴卫江 洪云峰 刘智渊 程远 《计算机工程与应用》 CSCD 北大核心 2015年第6期204-207,265,共5页
中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性... 中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。 展开更多
关键词 分词 词性标注 隐马尔可夫模型 VITERBI算法
在线阅读 下载PDF
基于语义的文档关键词提取方法 被引量:10
4
作者 姜芳 李国和 岳翔 《计算机应用研究》 CSCD 北大核心 2015年第1期142-145,共4页
以语义为基础实现文档关键词提取是提高自动提取准确度的有效途径。以中文文档为处理对象,通过《同义词词林》计算词语间语义距离,对词语进行密度聚类,得到主题相关类。
关键词 语义距离 密度聚类 关键词提取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部