-
题名基于语义的文档特征提取研究方法
被引量:10
- 1
-
-
作者
姜芳
李国和
岳翔
-
机构
中国石油大学(北京)地球物理与信息工程学院
中国石油大学(北京)油气数据挖掘北京市重点实验室
中海油研究总院信息数据中心
-
出处
《计算机科学》
CSCD
北大核心
2016年第2期254-258,共5页
-
基金
国家高新技术研究发展计划(2009AA062802)
国家自然科学基金(60473125)
+1 种基金
中国石油(CNPC)石油科技中青年创新基金(05E7013)
国家重大专项子课题(G5800-08-ZS-WX)资助
-
文摘
中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,最后通过信息增益算法从主题相关词中选取特征词。以宏F值和微F值为评价指标,通过有效性实验和对比实验表明,该方法的文本特征选取效果优于其他经典算法。
-
关键词
特征词
语义距离
信息增益
文本分类
-
Keywords
Feature word
Semantic distance
Information gain
Text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名广域网大数据传输方案的实现
被引量:2
- 2
-
-
作者
欧阳侃夫
呼和
-
机构
中国地质大学(北京)信息工程学院
中海油研究总院信息数据中心
-
出处
《计算机应用》
CSCD
北大核心
2014年第A01期35-37,共3页
-
文摘
针对石油专题数据单体文件数据量大的特点,在数据备份过程中,需考虑大文件传输、传输速度以及传输中断后续传的问题。通过分析大文件传输要点及数据传输方式,提出了一种广域网大文件传输解决方案。发送端将单个文件分块,分块数据采用用户数据报协议(UDP)传输并在应用层模拟传输控制协议(TCP)的"三次握手"过程,接收端组合分块数据,最后形成完整文件。测试结果表明,该方案能实现企业内部广域网内单体海量数据文件的传输并保证较高的传输速度。
-
关键词
数据传输
大文件
断点续传
传输控制协议
用户数据报协议
-
Keywords
data transfer
large file
breakpoint continuous
Transmission Control Protocol (TCP)
User DatagramProtocol (UDP)
-
分类号
TN919.71
[电子电信—通信与信息系统]
-
-
题名基于粗分和词性标注的中文分词方法
被引量:7
- 3
-
-
作者
姜芳
李国和
岳翔
吴卫江
洪云峰
刘智渊
程远
-
机构
中国石油大学(北京)地球物理与信息工程学院
中国石油大学(北京)油气数据挖掘北京市重点实验室
石大兆信数字身份管理与物联网技术研究院
中海油研究总院信息数据中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第6期204-207,265,共5页
-
基金
国家高新技术研究发展计划(No.2009AA062802)
国家自然科学基金(No.60473125)
+1 种基金
中国石油(CNPC)石油科技中青年创新基金(No.05E7013)
国家重大专项子课题(No.G5800-08-ZS-WX)
-
文摘
中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。
-
关键词
分词
词性标注
隐马尔可夫模型
VITERBI算法
-
Keywords
word segmentation
part-of-speech tagging
Hidden Markov Model(HMM)
Viterbi algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语义的文档关键词提取方法
被引量:10
- 4
-
-
作者
姜芳
李国和
岳翔
-
机构
中国石油大学(北京)地球物理与信息工程学院油气数据挖掘北京市重点实验室
中海油研究总院信息数据中心
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第1期142-145,共4页
-
基金
国家"863"计划资助项目(2009AA062802)
国家自然科学基金资助项目(60473125)
+1 种基金
中国石油(CNPC)石油科技中青年创新基金资助项目(05E7013)
国家重大专项子课题(G5800-08-ZS-WX)
-
文摘
以语义为基础实现文档关键词提取是提高自动提取准确度的有效途径。以中文文档为处理对象,通过《同义词词林》计算词语间语义距离,对词语进行密度聚类,得到主题相关类。
-
关键词
语义距离
密度聚类
关键词提取
-
Keywords
semantic distance
density clustering
keyword extraction
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-