题名 基于划分的信息系统属性约简
被引量:10
1
作者
张海云
梁吉业
钱宇华
机构
计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机应用》
CSCD
北大核心
2006年第12期2961-2963,2966,共4页
基金
国家自然科学基金资助项目(70471003)
高等学校博士学科点专项科研基金资助项目(20050108004)
山西省高等学校拔尖创新人才基金
文摘
从信息系统中属性间划分能力不同的角度出发,提出了属性左划分和属性右划分的观点,研究了它们的特点与性质,给出了在属性划分意义下核属性判定方法,设计了一种基于划分的属性约简算法ARABP,并进行了理论分析和实验仿真,结果表明该约简算法在效率上较现有的启发式算法有显著的提高。
关键词
粗糙集
属性约简
属性划分
区分度
Keywords
rough set
attribute reduction
attribute partition
discembility degree
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于多划分的不完备信息系统的完备化模型
被引量:1
2
作者
康向平
李德玉
李瑞萍
机构
山西大学计算 机与信息 技术学院计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与设计》
CSCD
北大核心
2011年第9期3131-3134,共4页
基金
国家自然科学基金项目(60970014
60875040)
+1 种基金
山西省自然科学基金项目(2010011021-1)
山西省研究生创新基金项目(20103004)
文摘
针对信息系统中的数据缺失问题,提出了基于模糊关系的多划分技术,建立了一个基于多划分的不完备信息系统的完备化模型。在该模型中,将不完备信息系统分解,引入模糊聚类分析方法构建了一个信息完备化平台,该平台融合了不同用户的需求,而非片面的依据某一个用户的喜好,使信息完备化结果更加合理。在信息完备化过程中,该模型考虑了属性重要性之间的差异,并赋予了相应的权值。该模型利用一些隐含在不完备信息系统中的有用知识为缺失信息的获取提供有效支持,是对传统模型"最高频率的属性值"的一个扩展。实例验证了该模型的有效性,该模型可以为不完备信息系统的完备化提供了可行的解决途径。
关键词
信息系统
模糊关系
不完备信息系统
多划分
信息完备化平台
Keywords
information system
fuzzy relation
incomplete information system
multiple-partitions
information completion platform
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于SVM的中文报道关系识别方法研究
被引量:3
3
作者
王强
张永奎
机构
山西大学计算 机与信息 技术学院
计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2008年第33期141-143,共3页
基金
国家自然科学基金No.60475022
山西省自然科学基金No.20041041
山西省回国留学人员基金(No.2002004)。~~
文摘
针对网络新闻的特点,从人名、时间名、地点名、组织机构名、内容五个方面抽取特征词形成特征向量。在此基础上,分别进行了相似度计算,其中,人名、组织机构名、内容采用余弦夹角的方法,时间和地点向量,相似度计算采用了引入报道时间和关联度计算。最后,使用这5个相似度作为特征,使用SVM进行训练,并在测试集上进行了测试。测试结果表明,这种方法可以有效地改善系统的性能。
关键词
报道关系识别
话题检测与跟踪
多向量表示模型
Keywords
story link detection
topic detection and tracking
multi-vector mode
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 形式概念分析对粗糙集理论的表示及扩展
被引量:27
4
作者
曲开社
翟岩慧
梁吉业
李德玉
机构
山西大学计算 机与信息 技术学院计算智能与中文信息处理省部共建教育部重点实验室
出处
《软件学报》
EI
CSCD
北大核心
2007年第9期2174-2182,共9页
基金
Supported by the National Natural Science Foundation of China under Grant Nos.60573074
70471003(国家自然科学基金)
+1 种基金
the Natural Science Foundation of Shanxi Province of China under Grant No.2007011040(山西省自然科学基金)
the Foundation of Doctoral Program Research of the Ministry of Education of China under Grant No.20050108004(高等学校博士学科点专项科研基金)
文摘
侧重于建立形式概念分析与粗糙集之间融合的理论基础.利用形式概念分析中名义梯级背景(nominal scale)的概念,对信息系统进行平面梯级(plain scaling)得到了衍生的形式背景.证明了粗糙集理论中的划分、上下近似、独立、依赖、约简等核心概念都可以在相应的衍生背景中进行表示.揭示了粗糙集理论在分析处理数据时的局限性,指出了利用梯级的方法可以扩展粗糙集理论.
关键词
粗糙集
形式概念分析
名义梯级背号
平面梯级
概念格
Keywords
rough set
formal concept analysis
nominal scale
plain scaling
concept lattice
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于神经网络的支持向量机学习方法研究
被引量:23
5
作者
郭虎升
王文剑
机构
山西大学计算 机与信息 技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2009年第2期51-54,共4页
基金
国家自然科学基金No.60673095)
教育部科学技术研究重点项目No.208021
+3 种基金
教育部新世纪优秀人才支持计划No.NCET-07-0525
山西省青年学术带头人支持计划
山西省高校科技开发项目No.200611001
山西省留学人员科技择优项目~~
文摘
针对支持向量机(Support Vector Machine,SVM)对大规模样本分类效率低下的问题,提出了基于自适应共振理论(Adaptive Resonance Theory,ART)神经网络与自组织特征映射(Self-Organizing feature Map,SOM)神经网络的SVM训练算法,分别称为ART-SVM算法与SOM-SVM算法。这两种算法通过聚类压缩数据集,使SVM训练的速度大大提高,同时可获得令人满意的泛化能力。
关键词
支持向量机
ART-SVM算法
SOM-SVM算法
聚类
Keywords
Support Vector Machine(SVM)
ART-SVM algorithm
SOM-SVM algorithm
cluster
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 Web新闻语料分词和标注错误分析
被引量:4
6
作者
张永奎
张彦
安增波
刘睿
机构
山西大学计算 机与信息 技术学院
计算智能与中文信息处理省部共建教育部重点实验室
中国人民解放军
出处
《计算机工程与应用》
CSCD
北大核心
2007年第15期166-169,共4页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022)
山西省自然科学基金(the Natural Science Foundation of Shanxi Province of China under Grant No.20041041)
山西省回国留学人员基金(No.2002004)。
文摘
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
关键词
中文信息处理
分词
词性标注
错误类型
Web突发事件新闻语料库
Keywords
Chinese information processing
word segmentation
part of speech tagging
inaccurate style
Web accidental news corpora
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于新闻网页主题要素的网页去重方法研究
被引量:7
7
作者
王鹏
张永奎
张彦
刘睿
机构
山西大学计算 机与信息 技术学院
计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2007年第28期177-180,共4页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022)
山西省自然科学基金(the Natural Science Foundation of Shanxi Province of China under Grant No.20041041)
山西省回国留学人员基金(No.2002004)
文摘
网页检索结果中,用户经常会得到内容相同的冗余页面。提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容;最终,根据学习的新闻内容通过计算它们的相似度来判断新闻网页的重复度。实验结果表明,该方法能够完成针对新闻内容的新闻网页的去重,并得到较高的查全率和查准率。
关键词
新闻主题要素
模糊匹配
去重算法
Keywords
elements of news subject
fuzzy matching
duplicate removal algorithm
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 煤矿瓦斯预测知识获取模型的应用研究
被引量:9
8
作者
孙林嘉
李茹
屈元子
机构
山西大学计算 机与信息 技术学院
山西大学计算 机智能 与中文信息处理 省 部 共建 教育部 重点 实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第12期169-171,共3页
基金
山西省高校拔尖人才基金资助项目(0710003)
太原市科技明星专项基金资助项目(08121005)
山西大学大学生科研训练基金资助项目(0803012)
文摘
将粗糙集与神经网络结合,提出由样本更新、粗糙集预处理、神经网络训练、规则提取4个模块组成的煤矿瓦斯预测知识获取模型,将其应用于实时数据进行实验,结果表明,该模型实时性好、可靠性及精度高,可以较好地解决煤矿瓦斯预测知识获取困难的问题,为煤矿瓦斯预测专家系统知识库的建立奠定基础。
关键词
知识获取
煤矿瓦斯预测
粗糙集
神经网络
Keywords
knowledge acquisition
colliery gas forecast
rough sets
neural networks
分类号
TP39
[自动化与计算机技术—计算机应用技术]
题名 基于邻域模型的K-means初始聚类中心选择算法
被引量:6
9
作者
曹付元
梁吉业
姜广
机构
计算智能与中文信息处理省部共建教育部重点实验室
山西大学计算 机与信息 技术学院
出处
《计算机科学》
CSCD
北大核心
2008年第11期181-184,共4页
基金
国家863计划项目(2007AA01Z165)
国家自然科学基金(70471003
+5 种基金
60773133)
高等学校博士学科点专项科研基金(20050108604)
教育部科学技术研究重点项目(206017)
山西省重点实验室开放基金(200603023)
山西省高校科技开发项目(2007103)
太原市科技局科技兴市专项项目(07010724)
文摘
传统的K-means算法由于其方法简单,在模式识别和机器学习中被广泛讨论和应用。但由于K-means算法随机选择初始聚类中心,而初始聚类中心的选择对最终的聚类结果有着直接的影响,因此算法不能保证得到一个唯一的聚类结果。利用邻域模型中对象邻域的上下近似,定义了对象邻域耦合度和分离度的概念,给出了对象在初始聚类中心选择中的重要性,提出了一种初始聚类中心的选择算法。另外,分析了邻域模型中三种范数对聚类精度的影响,并和随机选择初始聚类中心、CCIA选择初始聚类中心算法进行了比较,实验结果表明,该算法是有效的。
关键词
邻域模型
初始聚类中心
K-MEANS聚类
粗糙集
Keywords
Neighborhood model, Initial cluster centers, K-means clustering, Rough set
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 非平衡数据集分类问题研究进展
被引量:16
10
作者
高嘉伟
梁吉业
机构
山西大学计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机科学》
CSCD
北大核心
2008年第4期10-13,共4页
基金
国家自然科学基金(No70471003)
高等学校博士学科点专项科研基金(No200501080604)
+1 种基金
教育部科学技术研究重点项目(No206017)
山西省重点实验室开放基金(No200603023)的资助
文摘
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点。文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题。
关键词
非平衡数据集
分类
算法
Keywords
Imbalanced data sets, Classification, Algorithm
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TK124
[动力工程及工程热物理—工程热物理]
题名 形式概念分析的概念之间包含度理论
被引量:3
11
作者
曲开社
梁亮
梁吉业
李德玉
陈红星
机构
山西大学计算 机与信息 技术学院计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机科学》
CSCD
北大核心
2009年第2期210-213,219,共5页
基金
国家自然科学基金(60773133
70471003
+1 种基金
60573074)
山西省自然科学基金(2007011040)资助
文摘
在形式概念分析中的概念之间引进了包含度理论,利用包含度理论描述了概念之间的量化关系,对概念格中概念之间的亚概念和超概念进行了刻画。同时,采用包含度在概念格中进行关联规则的提取,给出了由包含度进行无冗余关联规则的提取算法,并由实例验证了该算法是有效的。
关键词
概念格
包含度
关联规则
Keywords
Concept lattice, Inclusion degree, Association rules
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP311.5
[自动化与计算机技术—计算机软件与理论]
题名 现代汉语缩略语自动识别的方法研究
被引量:8
12
作者
武子英
郑家恒
机构
忻州师范学院
山西大学计算 机与信息 技术学院
计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与设计》
CSCD
北大核心
2007年第16期4052-4054,共3页
基金
国家自然科学基金项目(60473139)
山西省自然科学基金项目(20051034)
山西大学青年基金项目(2006011)
文摘
在中文信息处理领域,缩略语识别是研究中很重要的一个方面。针对缩略语词典资源稀少的现状,提出一种在生语料中自动抽取现代汉语缩略语的方法。首先获取候选缩略语的源短语候选集,然后利用基于上下文的源短语与缩略语配对方法,可自动生成一部缩略语词典,实验结果证明,该方法是一种相对"智能"的方法。
关键词
源短语
缩略语
上下文
余弦相似度
未登录词
Keywords
source phrase
abbreviation
context
cosine similarity
unknown words
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于2DPCA和RBF神经网络的人脸识别方法
被引量:9
13
作者
白雪飞
李茹
机构
山西大学计算 机与信息 技术学院
计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2007年第34期200-203,共4页
基金
山西省自然科学基金(the Natural Science Foundation of Shanxi Province of China under Grant No.2006011028。
文摘
采用2DPCA方法提取人脸图像的特征值,通过RBF神经网络进行训练和识别,提出一种基于2DPCA和RBF神经网络的人脸识别方法,并将此方法应用于ORL人脸库。实验结果表明,该方法不仅具有较好的人脸图像识别能力,而且能明显缩短识别算法的运行时间。
关键词
二维主成分分析
RBF神经网络
人脸识别
Keywords
two-dimensional principal component analysis
RBF neutral network
face recognition
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 一种基于知识量的约简算法
被引量:3
14
作者
张海云
梁吉业
梁春华
机构
计算智能与中文信息处理省部共建教育部重点实验室
山西大学计算 机与信息 技术学院
出处
《小型微型计算机系统》
CSCD
北大核心
2007年第11期1968-1971,共4页
基金
国家自然科学基金项目(70471003)资助
高等学校博士学科点专项科研基金项目(20050108004)资助
文摘
提出一种新的属性约简算法,该算法基于粗糙集理论认为知识是区分事物的能力的观点,对知识进行了新的量化,并以量化后的区分能力作为启发式信息进行约简,提高了约简效率,理论分析与实例证明该算法是有效的.
关键词
粗糙集理论
知识约简
区分能力
知识量
Keywords
rough set theory
attribute reduction
discerniblity ability
knowledge quantity
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 网页去重方法研究
被引量:7
15
作者
樊勇
郑家恒
机构
山西大学计算 机与信息 技术学院
计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2009年第12期141-143,183,共4页
基金
国家自然科学基金No.60775041~~
文摘
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。
关键词
组块
主题句向量
网页去重
Keywords
chunking
topic sentence vector
elimination of similar web pages
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 神经网络集成的多表情人脸识别方法
被引量:5
16
作者
白雪飞
李茹
机构
山西大学计算 机与信息 技术学院
计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2010年第4期145-148,共4页
基金
山西省自然科学基金No.2006011028~~
文摘
将神经网络集成应用于多表情人脸识别,通过二维主成分分析获得人脸表情特征,并为每一表情的特征空间各训练一个神经网络,利用另一神经网络对其进行集成。实验结果表明,多神经网络集成方法的识别精度高于单一神经网络所获得的结果。
关键词
神经网络集成
二维主成分分析
人脸表情识别
Keywords
neural network ensemble
Two-Dimension Principal Component Analysis(2DPCA)
face expression recognition
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 不完备形式背景中的知识获取方法
被引量:1
17
作者
康向平
李德玉
曲开社
机构
山西大学计算 机与信息 技术学院计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2010年第36期16-18,28,共4页
基金
国家自然科学基金(No.60970014No.60875040)
山西省自然科学基金(No.2010011021-1)
山西省研究生创新项目(No.20103004)~~
文摘
重点讨论了不完备形式背景中的相容概念以及基于相容概念的相容规则获取方法,同时给出了相应的构造算法。为了压缩规模庞大的相容规则集合,提出了一条推理规则来减少生成冗余相容规则的数目,最终得到一个完备的无冗余的相容规则集合。通过参数的设定可以满足不同用户的实际需求,实例证明该方法是有效的。该方法不仅为不完备形式背景的处理提供了一条新的途径,同时也为更深入的研究奠定了基础。
关键词
不完备形式背景
近似概念
相容概念
相容规则
Keywords
incomplete formal contexta
pproximate conceptst
olerant conceptst
olerant rules
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 互联网络RCP(n)的最短路算法
18
作者
王敏
高太平
刘宏英
闫宇琦
机构
山西大学计算 机与信息 技术学院
计算智能与中文信息处理省部共建教育部重点实验室
山西大同大学数学与计算 机科学学院
出处
《计算机工程与应用》
CSCD
北大核心
2009年第10期108-109,112,共3页
基金
国家自然科学基金No.10471081
山西省自然科学基金No.2007011043~~
文摘
RCP(n)是最近提出的一种新型互联网络拓扑结构,是由环、Petersen图和交叉立方体所组成的,具有短直径、良好的可扩展性和正则性以及较小的构造开销的性质,是一种具有良好拓扑性质的互联网络。针对RCP(n)上节点编码的特点,采用逐步分解编码,依次寻找路径的方法给出了寻找RCP(n)上任意两点间最短路的一个多项式算法,为RCP(n)上作进一步的路由算法、最优分组等通讯性能的研究提供了理论支持,因此具有一定的理论意义和应用价值。
关键词
交叉立方体环连接的Petersen图(RCP(n))
编码
最短路算法
Keywords
RCP(n) code shortest path algorithm
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 基于词对向量空间模型的新事件检测方法
被引量:4
19
作者
樊旭琴
张永奎
机构
山西大学计算 机与信息 技术学院
山西大学计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2010年第12期123-125,共3页
基金
国家自然科学基金No.60475022
山西省自然科学基金No.20041041
山西省回国留学人员基金(No.2002004)~~
文摘
新事件检测(NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。传统向量空间模型采用单个词来表示文本特征,考虑到词的位置信息以及其他的表示内容的信息,提出了词对表示文本的方法,并结合HowNet资源对所抽取的词对进行归一化处理,最后对不同类别新闻中不同词性对的权重参数进行优化。通过在已有的突发性新闻语料上进行实验,表明这种改进方法的效果比较明显,性能也有一定的提高。
关键词
向量空间模型
词对特征
新事件检测
Keywords
vector space model
word pair feature
new event detection
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于偏序粒的动态决策规则挖掘
20
作者
程欣
梁吉业
钱宇华
机构
计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机应用》
CSCD
北大核心
2007年第3期556-558,共3页
基金
国家自然科学基金资助项目(70471003)
高等学校博士学科点专项科研(20050108004)
+1 种基金
山西省高等学校拔尖创新人才基金资助项目
教育部科学技术研究重点项目(2006017)
文摘
针对决策表,引入了偏序粒的概念,提出了一种基于偏序粒的动态决策规则提取算法。该算法利用了偏序粒在粒度表达上的优势,区别于经典粗糙集理论中采用的单一等价关系,对同一决策表从不同的角度和多个层次来研究。实例表明该算法是有效的。
关键词
决策表
偏序粒
决策规则
粒度
动态挖掘
Keywords
decision table
partial granulation
decision rule
granularity
dynarnie mining
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP18
[自动化与计算机技术—控制理论与控制工程]