检索结果-维普期刊中文期刊服务平台

基于语义的文档特征提取研究方法被引量：10: 1; 作者姜芳李国和岳翔《计算机科学》 CSCD 北大核心 2016年第2期254-258,共5页; 中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,... 展开更多; 关键词特征词语义距离信息增益文本分类; 在线阅读下载PDF 职称材料

广域网大数据传输方案的实现被引量：2: 2; 作者欧阳侃夫呼和《计算机应用》 CSCD 北大核心 2014年第A01期35-37,共3页; 针对石油专题数据单体文件数据量大的特点,在数据备份过程中,需考虑大文件传输、传输速度以及传输中断后续传的问题。通过分析大文件传输要点及数据传输方式,提出了一种广域网大文件传输解决方案。发送端将单个文件分块,分块数据采用用... 展开更多; 关键词数据传输大文件断点续传传输控制协议用户数据报协议; 在线阅读下载PDF 职称材料

基于粗分和词性标注的中文分词方法被引量：7: 3; 作者姜芳李国和 +4 位作者岳翔吴卫江洪云峰刘智渊程远《计算机工程与应用》 CSCD 北大核心 2015年第6期204-207,265,共5页; 中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性... 展开更多; 关键词分词词性标注隐马尔可夫模型 VITERBI算法; 在线阅读下载PDF 职称材料

基于语义的文档关键词提取方法被引量：10: 4; 作者姜芳李国和岳翔《计算机应用研究》 CSCD 北大核心 2015年第1期142-145,共4页; 以语义为基础实现文档关键词提取是提高自动提取准确度的有效途径。以中文文档为处理对象,通过《同义词词林》计算词语间语义距离,对词语进行密度聚类,得到主题相关类。; 关键词语义距离密度聚类关键词提取; 在线阅读下载PDF 职称材料

题名基于语义的文档特征提取研究方法被引量：10: 1; 作者姜芳李国和岳翔; 机构中国石油大学(北京)地球物理与信息工程学院中国石油大学(北京)油气数据挖掘北京市重点实验室中海油研究总院信息数据中心; 出处《计算机科学》 CSCD 北大核心 2016年第2期254-258,共5页; 基金国家高新技术研究发展计划(2009AA062802) 国家自然科学基金(60473125) +1 种基金国家重大专项子课题(G5800-08-ZS-WX)资助; 文摘中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,最后通过信息增益算法从主题相关词中选取特征词。以宏F值和微F值为评价指标,通过有效性实验和对比实验表明,该方法的文本特征选取效果优于其他经典算法。; 关键词特征词语义距离信息增益文本分类; Keywords Feature word Semantic distance Information gain Text classification; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名广域网大数据传输方案的实现被引量：2: 2; 作者欧阳侃夫呼和; 机构中国地质大学(北京)信息工程学院中海油研究总院信息数据中心; 出处《计算机应用》 CSCD 北大核心 2014年第A01期35-37,共3页; 文摘针对石油专题数据单体文件数据量大的特点,在数据备份过程中,需考虑大文件传输、传输速度以及传输中断后续传的问题。通过分析大文件传输要点及数据传输方式,提出了一种广域网大文件传输解决方案。发送端将单个文件分块,分块数据采用用户数据报协议(UDP)传输并在应用层模拟传输控制协议(TCP)的"三次握手"过程,接收端组合分块数据,最后形成完整文件。测试结果表明,该方案能实现企业内部广域网内单体海量数据文件的传输并保证较高的传输速度。; 关键词数据传输大文件断点续传传输控制协议用户数据报协议; Keywords data transfer large file breakpoint continuous Transmission Control Protocol （TCP） User DatagramProtocol （UDP）; 分类号 TN919.71 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名基于粗分和词性标注的中文分词方法被引量：7: 3; 作者姜芳李国和岳翔吴卫江洪云峰刘智渊程远; 机构中国石油大学(北京)地球物理与信息工程学院中国石油大学(北京)油气数据挖掘北京市重点实验室石大兆信数字身份管理与物联网技术研究院中海油研究总院信息数据中心; 出处《计算机工程与应用》 CSCD 北大核心 2015年第6期204-207,265,共5页; 基金国家高新技术研究发展计划(No.2009AA062802) 国家自然科学基金(No.60473125) +1 种基金国家重大专项子课题(No.G5800-08-ZS-WX); 文摘中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。; 关键词分词词性标注隐马尔可夫模型 VITERBI算法; Keywords word segmentation part-of-speech tagging Hidden Markov Model（HMM） Viterbi algorithm; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于语义的文档关键词提取方法被引量：10: 4; 作者姜芳李国和岳翔; 机构中国石油大学(北京)地球物理与信息工程学院油气数据挖掘北京市重点实验室中海油研究总院信息数据中心; 出处《计算机应用研究》 CSCD 北大核心 2015年第1期142-145,共4页; 基金国家"863"计划资助项目(2009AA062802) 国家自然科学基金资助项目(60473125) +1 种基金国家重大专项子课题(G5800-08-ZS-WX); 文摘以语义为基础实现文档关键词提取是提高自动提取准确度的有效途径。以中文文档为处理对象,通过《同义词词林》计算词语间语义距离,对词语进行密度聚类,得到主题相关类。; 关键词语义距离密度聚类关键词提取; Keywords semantic distance density clustering keyword extraction; 分类号 TP391.43 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料