期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于集成学习的标题分类算法研究 被引量:10
1
作者 高元 刘柏嵩 《计算机应用研究》 CSCD 北大核心 2017年第4期1004-1007,共4页
标题分类是对一个标题性语句进行分类,通常这个标题是不超过20个字的短文本,内容精炼且概括性强。针对标题文本的特征稀疏性和含义不确定性,提出了一种融合随机森林与贝叶斯多项式的标题分类算法。该算法将贝叶斯多项式模型引入到随机... 标题分类是对一个标题性语句进行分类,通常这个标题是不超过20个字的短文本,内容精炼且概括性强。针对标题文本的特征稀疏性和含义不确定性,提出了一种融合随机森林与贝叶斯多项式的标题分类算法。该算法将贝叶斯多项式模型引入到随机森林底层分类器构建过程中,同时利用随机森林附带的OOB数据提出了一种基于二维权重分布的投票机制。最后在图书馆真实书目数据上进行实验,针对分类性能与当前基于LDA主题扩展的SVM算法进行对比,实验结果表明在一定条件下,该方法性能稳定、表现较佳。 展开更多
关键词 自然语言处理 标题分类 集成学习 改进随机森林 OOB二维权重分布
在线阅读 下载PDF
基于示例的文本标题分类机制 被引量:17
2
作者 林鸿飞 《计算机研究与发展》 EI CSCD 北大核心 2001年第9期1132-1136,共5页
文本分类有助于用户有选择地阅读和处理海量文本 ,给出了基于示例的文本标题分类机制 .它以具有确定分类标准的标题分类为应用背景 ,在计算标题与分类主题词表直接匹配的基础上 ,利用基于分类树的上位概念匹配机制和基于潜在语义空间的... 文本分类有助于用户有选择地阅读和处理海量文本 ,给出了基于示例的文本标题分类机制 .它以具有确定分类标准的标题分类为应用背景 ,在计算标题与分类主题词表直接匹配的基础上 ,利用基于分类树的上位概念匹配机制和基于潜在语义空间的相似度判定 ,综合评价文本标题与类别的相关关系 .其特点是充分利用上下文环境来确定标题与类别相关程度 ,而不是单纯地依赖于其共现信息 . 展开更多
关键词 潜在语义索引 文本标题分类 示例 信息处理 计算机
在线阅读 下载PDF
基于层级类别信息的标题自动分类研究 被引量:6
3
作者 葛文镇 刘柏嵩 +1 位作者 王洋洋 赵福青 《计算机应用研究》 CSCD 北大核心 2016年第7期2030-2033,共4页
针对标题文本特征少、特征维度高和分布不均匀导致分类性能不佳的问题,提出了一种利用分类体系结构信息的双向特征选择算法,并在该算法的基础上实现标题分类。该方法以具有严格层级关系的分类体系为应用前提,利用类别与词的同现及分布... 针对标题文本特征少、特征维度高和分布不均匀导致分类性能不佳的问题,提出了一种利用分类体系结构信息的双向特征选择算法,并在该算法的基础上实现标题分类。该方法以具有严格层级关系的分类体系为应用前提,利用类别与词的同现及分布关系进行特征词和候选类别的双向选择,构建类别向量空间;通过分析标题文本特征词在层级类别向量空间的分布所表现出的类别语义信息,确定文本所在层级以及所在层级的候选类别;之后利用分类器对未能成功分类的标题进行分类。在人工标引数据集上的实验结果表明,该方法在不进行语料扩展和外部知识库添加的基础上仍可有效地确定文本所在层级,实现多级学科的分类;并可在识别类别语义信息的基础上,降低候选类别数目,提高分类效率。 展开更多
关键词 标题分类 特征选择 层级结构分类体系 同现分析 向量空间
在线阅读 下载PDF
基于多模型的新闻标题分类 被引量:4
4
作者 董孝政 宋睿 +2 位作者 洪宇 朱芬红 朱巧明 《中文信息学报》 CSCD 北大核心 2018年第10期69-77,共9页
该文研究中文新闻标题的领域分类方法(domain-oriented headline classification,DHC)。现有研究将DHC限定为一种短文本分类问题,并将传统分类模型和基于卷积神经网络的分类模型应用于这一问题的求解。然而,这类方法忽视了新闻标题的内... 该文研究中文新闻标题的领域分类方法(domain-oriented headline classification,DHC)。现有研究将DHC限定为一种短文本分类问题,并将传统分类模型和基于卷积神经网络的分类模型应用于这一问题的求解。然而,这类方法忽视了新闻标题的内在特点,即为"标题是建立在凝练全文且弱相关的词语之上的一种强迫性的语义表述"。目前,融合了序列化记忆的循环神经网络在语义理解方面取得了重要成果。借助这一特点,该文将长短时记忆网络模型(long-short term memory,LSTM)及其变型——门控循环单元(gated recurrent unit,GRU)也应用于标题的语义理解与领域分类,实验验证其性能可达81%的F1值。此外,该文对目前前沿的神经网络分类模型进行综合分析,尝试寻找各类模型在DHC任务上共有的优势和劣势。通过对比"全类型多元分类"与"单类型二元分类",发现在领域性特征较弱和领域歧义性较强的样本上,现有方法难以取得更为理想的结果(F1值<81%)。借助上述分析,该文旨在推动DHC研究在标题语言特性上投入更为充分的关注。 展开更多
关键词 领域标题分类 卷积神经网络 循环神经网络
在线阅读 下载PDF
一级标题分类检索表
5
《柑桔科技与市场信息》 1998年第4期49-50,共2页
关键词 矿质营养 营养诊断 标题分类 检索表 栽培技术 砧木 遗传育种 授粉 施肥 植物生长调节剂
在线阅读 下载PDF
一级标题分类检索表
6
《柑桔科技与市场信息》 1997年第4期49-50,共2页
关键词 植物生长调节剂 矿质营养 营养诊断 标题分类 检索表 栽培技术 砧木 施肥 生理生化特性 品种资源
在线阅读 下载PDF
结合语义扩展和卷积神经网络的中文短文本分类方法 被引量:19
7
作者 卢玲 杨武 +1 位作者 杨有俊 陈梦晗 《计算机应用》 CSCD 北大核心 2017年第12期3498-3503,共6页
中文新闻标题通常包含一个或几十个词,由于字符数少、特征稀疏,在分类问题中难以提升正确率。为解决此问题,提出了基于Word Embedding的文本语义扩展方法。首先,将新闻标题扩展为(标题、副标题、主题词)构成的三元组,用标题的同义词结... 中文新闻标题通常包含一个或几十个词,由于字符数少、特征稀疏,在分类问题中难以提升正确率。为解决此问题,提出了基于Word Embedding的文本语义扩展方法。首先,将新闻标题扩展为(标题、副标题、主题词)构成的三元组,用标题的同义词结合词性过滤方法构造副标题,对多尺度滑动窗口内的词进行语义组合,提取主题词;然后,针对扩展文本构造卷积神经网络(CNN)分类模型,该模型通过max pooling及随机dropout进行特征过滤及防止过拟合;最后,将标题、副标题拼接为双词表示,与多主题词集分别作为模型的输入。在2017自然语言处理与中文计算评测(NLP&CC2017)的新闻标题分类数据集上进行实验。实验结果表明,用三元组扩展结合相应的CNN模型在18个类别新闻标题上分类的正确率为79.42%,比未经扩展的CNN模型提高了9.5%,且主题词扩展加快了模型的收敛速度,验证了三元组扩展方法及所构建CNN分类模型的有效性。 展开更多
关键词 新闻标题分类 语义扩展 卷积神经网络 同义词 语义组合
在线阅读 下载PDF
论清末“新学”
8
作者 钟少华 《学习与探索》 CSSCI 北大核心 1996年第1期135-139,共5页
论清末“新学”钟少华一、前言中文“新”字,原义为取木,常常用来和“旧”字作对。新与旧是永远相对正确,只是“新”绝不一定代表真理,“旧”也并非全是垃圾。不过人们多爱弃旧迎新。新而且能成为“新学”,其意义就复杂多了。中国... 论清末“新学”钟少华一、前言中文“新”字,原义为取木,常常用来和“旧”字作对。新与旧是永远相对正确,只是“新”绝不一定代表真理,“旧”也并非全是垃圾。不过人们多爱弃旧迎新。新而且能成为“新学”,其意义就复杂多了。中国的知识分子恐怕都知道,从汉朝就开始... 展开更多
关键词 《皇朝经世文编》 知识体系 百科全书 “正统” 日本 学术体系 师夷长技以制夷 洋务运动 分类标题 中国知识分子
在线阅读 下载PDF
黄页:掀起你的盖头来 被引量:1
9
作者 友林 《企业经济》 1996年第11期45-46,共2页
黄页掀起你的盖头来●友林一种新的广告形式正悄悄地走进人们的生活:在一个地区,大部分人都不可避免地要见到她;作为一个不说话的推销员,她可以将信息送到一般推销员无法进入的办公室乃至家庭;她最后一天引人注目的程度与第一天... 黄页掀起你的盖头来●友林一种新的广告形式正悄悄地走进人们的生活:在一个地区,大部分人都不可避免地要见到她;作为一个不说话的推销员,她可以将信息送到一般推销员无法进入的办公室乃至家庭;她最后一天引人注目的程度与第一天完全相同;她不仅能吸收近在咫尺的买... 展开更多
关键词 黄页广告 电话号簿 广告媒体 目标消费者 使用频率 盖头 广告主 重复使用 发展前景 分类标题
在线阅读 下载PDF
关于少数人体育——记国际体育史学会第一届学术讨论会
10
作者 年剑 《体育文化导刊》 1992年第5期18-20,8,共4页
“孩子们的声音”、“我是谁?我的身体是谁?”、“我的性别是怎样形成的?”、“我们的过去在哪里?”、“谁是胜者?”“我们是冠军!”
关键词 学术讨论 体育史学 分类标题 性别 芬兰 少数民族 冠军 政治权力 舞蹈 运动员
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部