期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
层次化中文文档分类 被引量:6
1
作者 袁时金 李荣陆 +1 位作者 周水庚 胡运发 《通信学报》 EI CSCD 北大核心 2004年第11期55-63,共9页
对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别... 对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别、多标注分类问题进行求解,分别利用KNN和基于Boosting的分类方法进行层次化中文文档分类。测试结果显示层次化分类比平面分类能够取得更好的分类效果。 展开更多
关键词 文档分类 属性选择 层次分类 分类
在线阅读 下载PDF
面向恶意PDF文档分类的对抗样本生成方法研究 被引量:1
2
作者 刘超 娄尘哲 +2 位作者 喻民 姜建国 黄伟庆 《信息安全学报》 CSCD 2023年第5期14-26,共13页
通过恶意文档来传播恶意软件在现代互联网中是非常普遍的,这也是众多机构面临的最高风险之一。PDF文档是全世界应用最广泛的文档类型,因此由其引发的攻击数不胜数。使用机器学习方法对恶意文档进行检测是流行且有效的途径,在面对攻击者... 通过恶意文档来传播恶意软件在现代互联网中是非常普遍的,这也是众多机构面临的最高风险之一。PDF文档是全世界应用最广泛的文档类型,因此由其引发的攻击数不胜数。使用机器学习方法对恶意文档进行检测是流行且有效的途径,在面对攻击者精心设计的样本时,机器学习分类器的鲁棒性有可能暴露一定的问题。在计算机视觉领域中,对抗性学习已经在许多场景下被证明是一种有效的提升分类器鲁棒性的方法。对于恶意文档检测而言,我们仍然缺少一种用于针对各种攻击场景生成对抗样本的综合性方法。在本文中,我们介绍了PDF文件格式的基础知识,以及有效的恶意PDF文档检测器和对抗样本生成技术。我们提出了一种恶意文档检测领域的对抗性学习模型来生成对抗样本,并使用生成的对抗样本研究了多检测器假设场景的检测效果(及逃避有效性)。该模型的关键操作为关联特征提取和特征修改,其中关联特征提取用于找到不同特征空间之间的关联,特征修改用于维持样本的稳定性。最后攻击算法利用基于动量迭代梯度的思想来提高生成对抗样本的成功率和效率。我们结合一些具有信服力的数据集,严格设置了实验环境和指标,之后进行了对抗样本攻击和鲁棒性提升测试。实验结果证明,该模型可以保持较高的对抗样本生成率和攻击成功率。此外,该模型可以应用于其他恶意软件检测器,并有助于检测器鲁棒性的优化。 展开更多
关键词 恶意PDF文档 对抗样本 文档分类 样本生成 鲁棒性
在线阅读 下载PDF
无需词典支持和切词处理的中文文档分类 被引量:1
3
作者 周水庚 关佶红 胡运发 《高技术通讯》 EI CAS CSCD 2001年第3期31-35,共5页
利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明 。
关键词 中文文档分类 N-gram信息 属性选择 贝叶斯分类 kNN法
在线阅读 下载PDF
基于ART半监督在线学习的文档分类
4
作者 徐敏 张丽萍 朱梧檟 《西南交通大学学报》 EI CSCD 北大核心 2006年第3期335-340,共6页
根据自适应谐振理论提出了半监督学习自适应谐振理论系统.在该系统中取消了一般半监督学习算法中假定已知数据概率分布的条件限制,利用自适应谐振理论的稳定性和可塑性,使其具有非常强的学习新模式和纠正错误能力.为了提高系统自适应性... 根据自适应谐振理论提出了半监督学习自适应谐振理论系统.在该系统中取消了一般半监督学习算法中假定已知数据概率分布的条件限制,利用自适应谐振理论的稳定性和可塑性,使其具有非常强的学习新模式和纠正错误能力.为了提高系统自适应性能力,将警戒参数设置为动态变化。实验结果表明半监督学习自适应谐振理论系统的性能优于判别式CEM算法,特别是在含有噪音和新模式数据情况下,其优势更为明显. 展开更多
关键词 在线学习 文档分类 自适应谐振理论 半监督学习 警戒参数
在线阅读 下载PDF
一种改进的ML-kNN多标记文档分类方法 被引量:4
5
作者 程圣军 黄庆成 +1 位作者 刘家锋 唐降龙 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2013年第11期45-49,共5页
针对应用传统k近邻算法进行多标记文档分类时忽略了标记之间相关性的问题,提出了一种改进的ML-kNN多标记文档分类方法.针对文本特征的特点,采用一种基于KL散度的距离尺度来更好地描述文档相似度.根据近邻样本所属类别的统计信息,通过一... 针对应用传统k近邻算法进行多标记文档分类时忽略了标记之间相关性的问题,提出了一种改进的ML-kNN多标记文档分类方法.针对文本特征的特点,采用一种基于KL散度的距离尺度来更好地描述文档相似度.根据近邻样本所属类别的统计信息,通过一种模糊最大化后验概率法则来推理未标记文档的标记集合.与ML-kNN不同的是,该方法可以有效地利用标记相关性来提升分类性能.在3个标准数据集上,5个多标记学习常用评测指标下的实验结果表明:所提方法在多标记文档分类问题上要明显优于ML-kNN、Rank-SVM和BoosTexter等主流多标记学习算法. 展开更多
关键词 文档分类 多标记学习 标记相关性 K近邻 KL散度
在线阅读 下载PDF
依托信息传输平台 实现文档分类管理
6
作者 丁彦英 《山东煤炭科技》 2009年第4期204-205,共2页
该文论述了依托信息传输平台,实现文档分类管理的必要性。文档管理模块提供了强大的检索功能,通过文档管理器,实现了文档的分类管理,使文档管理规范统一,提高了文档管理水平,提高了工作效率。
关键词 信息 传输平台 文档分类 检索
在线阅读 下载PDF
面向知识管理系统的文档自然分类方法及其实现
7
作者 冯天佑 阮羚 +3 位作者 宿磊 李成华 张世娟 欧阳由 《信息通信》 2014年第10期35-36,共2页
采用多维标签式分类方法,为某单位知识管理系统建立符合自然管理习惯的动态可维护的知识分类体系,使用非模式的面向文档的MongoDB数据库技术实现了该分类体系以及海量知识文档文件的存储。
关键词 知识管理系统 知识文档分类 MongoDB数据库
在线阅读 下载PDF
自动分类模型及算法研究 被引量:4
8
作者 王伟 王惠荣 刘志强 《微电子学与计算机》 CSCD 北大核心 2004年第5期93-96,共4页
自动文档分类是信息处理技术的一个重要部分。本文介绍了分类的模型、相似度的计算方法以及分类算法。在分析比较的基础上,选择合适的模型和算法应用于元搜索引擎系统中。
关键词 文档分类 向量空间模型 相关性计算
在线阅读 下载PDF
工程项目分解结构工程文档信息管理研究 被引量:4
9
作者 陈建国 贾广社 《建设监理》 2003年第1期62-63,共2页
目前,我国以纸张为主要媒介的工程文档传输方式存在的问题是成本高、速度慢、效率低,未发挥IT技术的优势。而实现电子工程文档的首要任务是建立工程文档的信息分类与编码模型,按项目时间、文档内容、文档文件类型对工程文档信息进行分层... 目前,我国以纸张为主要媒介的工程文档传输方式存在的问题是成本高、速度慢、效率低,未发挥IT技术的优势。而实现电子工程文档的首要任务是建立工程文档的信息分类与编码模型,按项目时间、文档内容、文档文件类型对工程文档信息进行分层,以PBS为标识系统,形成工程文档编码的目录集成结构模型。该模型不仅可为业主方所使用,也可为项目的参与者如项目管理方、设计方、施工总包方所共享,提供及时、准确的项目实施信息,为项目的决策者和管理者服务。 展开更多
关键词 工程项目 信息管理 项目分解结构 工程文档 文档分类 信息编码
在线阅读 下载PDF
基于朴素贝叶斯的垂直搜索引擎分类器设计 被引量:2
10
作者 于秀丽 王阳 齐幸辉 《无线电工程》 2015年第11期13-16,25,共5页
随着互联网的网页数量呈现爆炸式增长,传统的通用搜索引擎越来越遭人诟病,查询不准、深度不够等问题,使用户倍感烦恼。因此,针对特定行业的垂直搜索引擎逐渐兴起,与之相关的研究也日益受到重视。网页分类是垂直搜索引擎的基础和难点,分... 随着互联网的网页数量呈现爆炸式增长,传统的通用搜索引擎越来越遭人诟病,查询不准、深度不够等问题,使用户倍感烦恼。因此,针对特定行业的垂直搜索引擎逐渐兴起,与之相关的研究也日益受到重视。网页分类是垂直搜索引擎的基础和难点,分类器的好坏直接决定了一个垂直搜索引擎系统的性能。基于朴素贝叶斯的垂直搜索引擎分类器通过CHI方法进行特征提取,利用朴素贝叶斯模型对从互联网爬取的网页按内容类别进行分类。实验结果表明,该分类器对网页分类有着良好的表现,为构建大型专业的垂直搜索引擎系统奠定了一定的理论基础。 展开更多
关键词 朴素贝叶斯 垂直搜索引擎 特征提取 文档分类
在线阅读 下载PDF
基于卷积神经网络的隐式评价对象识别 被引量:3
11
作者 胡荣 崔荣一 赵亚慧 《吉林大学学报(信息科学版)》 CAS 2019年第6期638-644,共7页
为解决课程评论中隐式评价对象识别问题,提出了一种基于文本分类的隐式评价对象的识别方法。首先通过word2vec模型获得训练文本对应的词向量,获得短文本特征;其次将短文本特征在Text CNN中进一步提取高层次特征,通过K-max池化操作后放入... 为解决课程评论中隐式评价对象识别问题,提出了一种基于文本分类的隐式评价对象的识别方法。首先通过word2vec模型获得训练文本对应的词向量,获得短文本特征;其次将短文本特征在Text CNN中进一步提取高层次特征,通过K-max池化操作后放入Softmax分类器中进行训练得出分类模型;最后利用训练好的分类器对隐式评价句进行分类,获取隐式评价句对应的评价对象。实验表明,基于卷积神经网络对隐式课程评论进行属性分类,课程评论的隐式评价对象识别正确率达到89. 9%,满足了课程评论中对隐式评价句对象识别的需求。 展开更多
关键词 隐式评价对象 卷积神经网络 文档分类 词向量
在线阅读 下载PDF
基于支撑向量机的多媒体图像半结构化技术研究
12
作者 彭勇军 张娟 《信息通信》 2012年第6期6-7,共2页
多媒体图像半结构化处理具有广泛的应用前景,已成为研究的一个热点。针对SVG以非结构化方式描述图像的局限性,利用图像整体与局部、局部与局部相似性,研究大容量和粗纹理等复杂图片中的各个局部实体对象及关系,以SVG指令集与图像描述的... 多媒体图像半结构化处理具有广泛的应用前景,已成为研究的一个热点。针对SVG以非结构化方式描述图像的局限性,利用图像整体与局部、局部与局部相似性,研究大容量和粗纹理等复杂图片中的各个局部实体对象及关系,以SVG指令集与图像描述的所有标记为基础,本文以经验模态分解EMD方法和Lagrangemultiplier乘子为基础,研究一种多层次自适应分解的图像半结构化分离算法,分离二进制光栅图像转换为XGML的半结构化文档;研究一种基于支撑向量机SVM的XGML文档优化与压缩算法,以得到存储空间较少基于XGML半结构化图像文档。该研究成果将解决基于大容量和粗纹理等典型的古建筑图片或文物图片快速载入、展示、基于图像内容的定位和检索所涉及的关键问题。 展开更多
关键词 图像分离 半结构化 文档优化与分类
在线阅读 下载PDF
Meaningful String Extraction Based on Clustering for Improving Webpage Classification
13
作者 Chen Jie Tan Jianlong +1 位作者 Liao Hao Zhou Yanquan 《China Communications》 SCIE CSCD 2012年第3期68-77,共10页
Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with ... Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with this problem,we propose two scenarios to extract meaningful strings based on document clustering and term clustering with multi-strategies to optimize a Vector Space Model(VSM) in order to improve webpage classification.The results show that document clustering work better than term clustering in coping with document content.However,a better overall performance is obtained by spectral clustering with document clustering.Moreover,owing to image existing in a same webpage with document content,the proposed method is also applied to extract image meaningful terms,and experiment results also show its effectiveness in improving webpage classification. 展开更多
关键词 webpage classification meaningfulstring extraction document clustering term cluste-ring K-MEANS spectral clustering
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部