期刊文献+
共找到1,459篇文章
< 1 2 73 >
每页显示 20 50 100
Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark 被引量:22
1
作者 LIU Peng ZHAO Hui-han +3 位作者 TENG Jia-yu YANG Yan-yan LIU Ya-feng ZHU Zong-wei 《Journal of Central South University》 SCIE EI CAS CSCD 2019年第1期1-12,共12页
The sharp increase of the amount of Internet Chinese text data has significantly prolonged the processing time of classification on these data.In order to solve this problem,this paper proposes and implements a parall... The sharp increase of the amount of Internet Chinese text data has significantly prolonged the processing time of classification on these data.In order to solve this problem,this paper proposes and implements a parallel naive Bayes algorithm(PNBA)for Chinese text classification based on Spark,a parallel memory computing platform for big data.This algorithm has implemented parallel operation throughout the entire training and prediction process of naive Bayes classifier mainly by adopting the programming model of resilient distributed datasets(RDD).For comparison,a PNBA based on Hadoop is also implemented.The test results show that in the same computing environment and for the same text sets,the Spark PNBA is obviously superior to the Hadoop PNBA in terms of key indicators such as speedup ratio and scalability.Therefore,Spark-based parallel algorithms can better meet the requirement of large-scale Chinese text data mining. 展开更多
关键词 Chinese text classification naive Bayes SPARK HADOOP resilient distributed dataset PARALLELIZATION
在线阅读 下载PDF
中文短文本情感分类:融入位置感知强化的Transformer-TextCNN模型研究
2
作者 李浩君 王耀东 汪旭辉 《计算机工程与应用》 北大核心 2025年第11期216-226,共11页
针对当前中文短文本情感分类模型文本位置信息与关键特征获取不足的问题,提出了一种融入位置感知强化的Transformer-TextCNN情感分类模型。利用BERT可学习绝对位置编码与正弦位置编码强化模型的位置感知能力,融合Transformer的全局上下... 针对当前中文短文本情感分类模型文本位置信息与关键特征获取不足的问题,提出了一种融入位置感知强化的Transformer-TextCNN情感分类模型。利用BERT可学习绝对位置编码与正弦位置编码强化模型的位置感知能力,融合Transformer的全局上下文理解能力与TextCNN的局部特征捕捉能力,分别提取中文短文本全局特征与局部特征,构建位置感知强化与特征协同的情感特征输出服务,实现中文短文本情感准确分类。实验结果表明,该模型在视频弹幕数据集上的准确率达到90.23%,在SMP2020数据集上的准确率达到87.38%。相较于最优的基线模型,准确率在视频弹幕数据集和SMP2020数据集上分别提高了1.98和0.44个百分点,在中文短文本情感分类任务中取得更好的分类效果。 展开更多
关键词 文本情感分类 BERT TRANSFORMER textCNN 位置编码
在线阅读 下载PDF
Chinese micro-blog sentiment classification through a novel hybrid learning model 被引量:2
3
作者 LI Fang-fang WANG Huan-ting +3 位作者 ZHAO Rong-chang LIU Xi-yao WANG Yan-zhen ZOU Bei-ji 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第10期2322-2330,共9页
With the rising and spreading of micro-blog, the sentiment classification of short texts has become a research hotspot. Some methods have been developed in the past decade. However, since the Chinese and English are d... With the rising and spreading of micro-blog, the sentiment classification of short texts has become a research hotspot. Some methods have been developed in the past decade. However, since the Chinese and English are different in language syntax, semantics and pragmatics, sentiment classification methods that are effective for English twitter may fail on Chinese micro-blog. In addition, the colloquialism and conciseness of short Chinese texts introduces additional challenges to sentiment classification. In this work, a novel hybrid learning model was proposed for sentiment classification of Chinese micro-blogs, which included two stages. In the first stage, emotional scores were calculated over the whole dataset by utilizing an improved Chinese-oriented sentiment dictionary classification method. Data with extremely high or low scores were directly labeled. In the second stage, the remaining data were labeled by using an integrated classification method based on sentiment dictionary, support vector machine(SVM) and k-nearest neighbor(KNN). An improved feature selection method was adopted to enhance the discriminative power of the selected features. The two-stage hybrid framework made the proposed method effective for sentiment classification of Chinese micro-blogs. Experiments on the COAE2014(Chinese Opinion Analysis Evaluation 2014) dataset show that the proposed method outperforms other schemes. 展开更多
关键词 CHINESE micro-blog SHORT text HYBRID LEARNING SENTIMENT classification
在线阅读 下载PDF
融合FastText模型和注意力机制的网络新闻文本分类模型 被引量:10
4
作者 王婉 张向先 +1 位作者 卢恒 张莉曼 《现代情报》 CSSCI 2022年第3期40-47,共8页
[目的/意义]构建融合Fast Text模型和注意力机制的网络新闻文本分类模型,为网络新闻平台运营提供了智能化的知识组织思路。[方法/过程]基于Word2vec模型与Fast Text模型相结合的词向量模型Ngram2vec进行网络新闻文本的语义表达,并运用... [目的/意义]构建融合Fast Text模型和注意力机制的网络新闻文本分类模型,为网络新闻平台运营提供了智能化的知识组织思路。[方法/过程]基于Word2vec模型与Fast Text模型相结合的词向量模型Ngram2vec进行网络新闻文本的语义表达,并运用融合注意力机制的Bi LSTM;tte模型实现新闻文本分类。[结果/结论]实验结果显示,融合了Fast Text模型与注意力机制的网络新闻文本分类模型使F1值从90.62%提升到92.03%,说明本文提出的文本分类模型能够提升网络新闻文本分类的精确率,对网络新闻平台提升知识组织效率、优化服务水平具有重要参考价值。 展开更多
关键词 网络新闻 文本分类 注意力机制 双向长短期记忆神经网络模型
在线阅读 下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:6
5
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fasttext 类别特征 词汇信息熵 N-GRAM
在线阅读 下载PDF
针对文本情感分类任务的textSE-ResNeXt集成模型 被引量:9
6
作者 康雁 李浩 +2 位作者 梁文韬 宁浩宇 霍雯 《计算机工程与应用》 CSCD 北大核心 2020年第7期205-209,共5页
针对深度学习方法中文本表示形式单一,难以有效地利用语料之间细化的特征的缺陷,利用中英文语料的不同特性,有区别地对照抽取中英文语料的特征提出了一种新型的textSE-ResNeXt集成模型。通过PDTB语料库对语料的显式关系进行分析,从而截... 针对深度学习方法中文本表示形式单一,难以有效地利用语料之间细化的特征的缺陷,利用中英文语料的不同特性,有区别地对照抽取中英文语料的特征提出了一种新型的textSE-ResNeXt集成模型。通过PDTB语料库对语料的显式关系进行分析,从而截取语料主要情感部分,针对不同中、英文情感词典进行情感程度关系划分以此获得不同情感程度的子数据集。在textSE-ResNeXt神经网络模型中采用了动态卷积核策略,以此对文本数据特征进行更为有效的提取,模型中融合了SEnet和ResNeXt,有效地进行了深层次文本特征的抽取和分类。将不同情感程度的子集上对textSE-ResNeXt模型采用投票集成的方法进一步提高分类效率。分别在中文酒店评论语料和六类常见英文分类数据集上进行实验。实验结果表明了本模型的有效性。 展开更多
关键词 文本情感分类 textSE-ResNeXt 特征划分 集成模型
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
7
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 Fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
肝肿瘤切除术治疗POST-TEXTⅢ期和Ⅳ期肝母细胞瘤的中长期疗效分析 被引量:2
8
作者 姚伟 董岿然 +4 位作者 李凯 柳龚堡 白成浩 肖现民 郑珊 《临床小儿外科杂志》 CAS 2020年第5期386-391,共6页
目的探讨肝肿瘤切除术治疗POST-TEXT(post-treatment extent of disease)Ⅲ期和Ⅳ期肝母细胞瘤的中长期治疗效果。方法回顾性分析2009年1月至2019年6月复旦大学附属儿科医院肿瘤外科收治的POST-TEXTⅢ期和Ⅳ期肝母细胞瘤患儿的临床资料... 目的探讨肝肿瘤切除术治疗POST-TEXT(post-treatment extent of disease)Ⅲ期和Ⅳ期肝母细胞瘤的中长期治疗效果。方法回顾性分析2009年1月至2019年6月复旦大学附属儿科医院肿瘤外科收治的POST-TEXTⅢ期和Ⅳ期肝母细胞瘤患儿的临床资料(包括PRETEXT分期、甲胎蛋白、CT或MRI影像学资料、肿瘤切除术式及预后结果)。采用SPSS18.0统计软件包中的Kaplan-Meier法进行生存分析。结果本研究共纳入POST-TEXTⅢ期和Ⅳ期肝母细胞瘤患儿37例,其中男25例,女12例,发病年龄2~91个月,平均发病年龄(23.92±22.45)个月。POST-TEXTⅢ期和Ⅳ期分别为34例和3例,其中1例PRETEXTⅡ期病例治疗过程中升级为POST-TEXTⅣ期,3例PRETEXTⅣ期病例治疗过程中降级为POST-TEXTⅢ期。新辅助化疗2个、4个和6个疗程内手术人数分别为8例(21.6%)、22例(59.4%)和7例(18.9%)。除2例被建议行肝移植手术后放弃治疗外,其余35例均进行肝肿瘤切除术,其中肝三叶切除术7例,扩大半肝切除术8例,不规则肝切除术4例,肝中叶切除术12例,ALPPS(associating liver partition and portal vein ligation for staged hepatectomy)术4例。平均手术时间(262.29±107.16)min,术中平均出血量(236.86±212.41)m L。采用Glisson蒂横断技术22例,平均出血量(147.73±137.46)m L,胆漏发生率27.3%,与未采用该技术的病例比较,出血量明显减少[(147.73±137.46)m L vs.(387.69±235.69)m L,P=0.001],胆漏发生率相似(27.3%vs.23.1%,P=0.784)。术中切缘>1 cm者7例(20.0%),切缘0.5~1 cm者15例(42.9%),切缘<0.5 cm者7例(18.9%),紧贴肿瘤边缘切除者6例(16.2%)。随访时间4~124个月,术后肿瘤复发7例,平均复发时间(6±3.96)个月。肿瘤复发率与手术方式及术中切缘距离均无相关性(P>0.05)。5年总体生存率为72.3%,5年无瘤生存率为67.4%。根据切缘距离分类,切缘>1 cm、切缘0.5~1 cm、切缘<0.5 cm及紧贴肿瘤者5年总体生存率分别为85.7%、78.0%、83.3%和53.3%,各组间差异均无统计学意义(P=0.701)。结论对于POST-TEXTⅢ期和Ⅳ期的肝母细胞瘤,根据肿瘤累及的不同部位选择相应的术式,可以取得较好的治疗效果。熟练掌握Glisson鞘分离技术可以减少术中出血和胆道损伤的发生。手术中只需确保一定的切缘距离,就可以减少肿瘤复发,提高远期生存率。 展开更多
关键词 肝肿瘤 POST-text分期 肝肿瘤切除术 治疗结果
在线阅读 下载PDF
基于TextRank和字符级卷积神经网络的小学作文素材自动分类模型研究 被引量:7
9
作者 朱晓亮 石昀东 《计算机应用与软件》 北大核心 2019年第1期220-226,共7页
随着教育技术与信息技术的融合,实现面向小学生的语文写作自动辅助成为可能。快速自动地进行范文素材的分类入库是实现写作自动辅助的关键。作文素材语义信息丰富、种类较多,若采用现有方法进行自动分类入库操作往往难以取得好的效果。... 随着教育技术与信息技术的融合,实现面向小学生的语文写作自动辅助成为可能。快速自动地进行范文素材的分类入库是实现写作自动辅助的关键。作文素材语义信息丰富、种类较多,若采用现有方法进行自动分类入库操作往往难以取得好的效果。因此,在分析小学作文的类别特征并构建了一个数据集的基础上,提出基于TextRank和字符级卷积神经网络的小学作文自动分类模型。运用基于TextRank的关键句提取模型为范文素材,去除部分冗余的语义信息。应用word embedding对数据集进行文本表示,并将其作为卷积神经网络的输入。通过不断地迭代训练和测试,最终实现了该模型。实验表明了该方法对于作文分类任务能显著地提高分类的性能。 展开更多
关键词 textRank 卷积神经网络 作文素材库 文档分类
在线阅读 下载PDF
TI-FastText自动商品分类算法 被引量:3
10
作者 邵欣欣 《计算机科学》 CSCD 北大核心 2022年第S01期206-210,共5页
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在... 为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。 展开更多
关键词 商品分类 中文短文本分类 Fasttext TF-IDF
在线阅读 下载PDF
Text-CRNN+attention架构下的多类别文本信息分类 被引量:13
11
作者 卢健 马成贤 +1 位作者 杨腾飞 周嫣然 《计算机应用研究》 CSCD 北大核心 2020年第6期1693-1696,1701,共5页
迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN并引入attention机制,提出一种Text-CRNN+attention模型用于文本分... 迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN并引入attention机制,提出一种Text-CRNN+attention模型用于文本分类。首先利用CNN处理局部特征的位置不变性,提取高效局部特征信息;然后在RNN进行序列特征建模时引入attention机制对每一时刻输出序列信息进行自动加权,减少关键特征的丢失,最后完成时间和空间上的特征提取。实验结果表明,提出模型较其他模型准确率提升了2%~3%;在提取文本特征时,该模型既保证了数据的局部相关性又起到强化序列特征的有效组合能力。 展开更多
关键词 文本分类 卷积神经网络 循环神经网络 convolutional recurrent neural network 注意力机制
在线阅读 下载PDF
基于Fasttext网络的煤矿事故案例文本分类方法对比 被引量:7
12
作者 闫琰 杨梦 +1 位作者 周法国 葛逸凡 《煤炭工程》 北大核心 2021年第11期186-192,共7页
随着大数据时代的到来,煤矿企业积累了大量煤矿数据资源。其中煤矿事故案例信息丰富,包括对事故发生时间、事故发生经过、导致事故的原因以及事故报告等多个方面的分析和总结,但是对这些非结构化文本信息提取很困难,不能有效的获得隐含... 随着大数据时代的到来,煤矿企业积累了大量煤矿数据资源。其中煤矿事故案例信息丰富,包括对事故发生时间、事故发生经过、导致事故的原因以及事故报告等多个方面的分析和总结,但是对这些非结构化文本信息提取很困难,不能有效的获得隐含的语义特征。因此针对煤矿事故案例,对比基于Fasttext网络的文本表示与分类方法,更好的挖掘文本中的语义信息,并准确有效的对案例事故进行类别预测,为后续建立专家知识库、构建应急救援平台提供有力的技术支撑。该文实验的所有代码均已放在GitHub上。 展开更多
关键词 深度学习 煤矿案例 文本分类 文本表示
在线阅读 下载PDF
基于DAN与FastText的藏文短文本分类研究 被引量:1
13
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
在线阅读 下载PDF
基于改进分层注意网络和TextCNN联合建模的暴力犯罪分级算法 被引量:1
14
作者 张家伟 高冠东 +1 位作者 肖珂 宋胜尊 《计算机应用》 CSCD 北大核心 2024年第2期403-410,共8页
为了科学、智能地对服刑人员的暴力倾向分级,将自然语言处理(NLP)中的文本分类方法引入犯罪心理学领域,提出一种基于改进分层注意网络(HAN)与TextCNN(Text Convolutional Neural Network)两通道联合建模的犯罪语义卷积分层注意网络(CCHA... 为了科学、智能地对服刑人员的暴力倾向分级,将自然语言处理(NLP)中的文本分类方法引入犯罪心理学领域,提出一种基于改进分层注意网络(HAN)与TextCNN(Text Convolutional Neural Network)两通道联合建模的犯罪语义卷积分层注意网络(CCHA-Net),通过分别挖掘犯罪事实与服刑人员基本情况的语义信息,完成暴力犯罪气质分级。首先,采用Focal Loss同时替代两通道中的Cross-Entropy函数,优化样本数量不均衡问题。其次,在两通道输入层中,同时引入位置编码,改进对位置信息的感知能力;改进HAN通道,采用最大池化构建显著向量。最后,输出层都采用全局平均池化替代全连接方法,以避免过拟合。实验结果表明,与AC-BiLSTM(Attention-based Bidirectional Long Short-Term Memory with Convolution layer)、支持向量机(SVM)等17种相关基线模型相比,CCHA-Net各项指标均最优,微平均F1(Micro_F1)为99.57%,宏平均和微平均下的曲线下面积(AUC)分别为99.45%和99.89%,相较于次优的AC-BiLSTM提高了4.08、5.59和0.74个百分点,验证了CCHA-Net能有效胜任暴力犯罪气质分级任务。 展开更多
关键词 深度学习 文本分类 卷积神经网络 分层注意网络 暴力犯罪分级 气质类型
在线阅读 下载PDF
基于BERT字向量和TextCNN的农业问句分类模型分析 被引量:14
15
作者 鲍彤 罗瑞 +2 位作者 郭婷 贵淑婷 任妮 《南方农业学报》 CAS CSCD 北大核心 2022年第7期2068-2076,共9页
【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问... 【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问句进行字符编码,利用文本卷积神经网络(TextCNN)提取问句高维度特征对农业问句进行分类。【结果】在词向量对比实验中,BERT字向量与TextCNN结合时农业问句分类F1值达93.32%,相比Word2vec字向量提高2.1%。在深度学习模型的分类精度对比方面,TextCNN与Word2vec和BERT字向量结合的F1值分别达91.22%和93.32%,均优于其他模型。在农业问句的细分试验中,BERT-TextCNN在栽培技术、田间管理、土肥水管理和其他4个类别中分类F1值分别为86.06%、90.56%、95.04%和85.55%,均优于其他深度学习模型。超参数设置方面,BERT-TextCNN农业问句分类模型卷积核大小设为[3,4,5]、学习率设为5e-5、迭代次数设为5时效果最优,该模型在数据样本不均衡的情况下,对于农业问句的平均分类准确率依然能达93.00%以上,可满足农业智能问答系统的问句分类需求。【建议】通过阿里NLP等开源平台提升数据标注质量;在分类过程中补充词频和文档特征,提高模型分类精度;农业相关政府职能部门加强合作,积极探索农业技术数字化推广和服务新模式。 展开更多
关键词 农业问句 智能问答系统 问句分类 预训练语言模型(BERT) 文本卷积神经网络
在线阅读 下载PDF
基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究 被引量:1
16
作者 武帅 杨秀璋 +1 位作者 何琳 公佐权 《情报学报》 CSSCI CSCD 北大核心 2024年第5期601-615,共15页
以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人... 以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking,word,pattern,and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。 展开更多
关键词 多维特征融合 古籍文本 主题分类 SWPF2vec DJ-textRCNN
在线阅读 下载PDF
基于Bert-TextCNN的开源威胁情报文本的多标签分类方法 被引量:8
17
作者 陆佳丽 《信息安全研究》 CSCD 北大核心 2024年第8期760-768,共9页
开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则... 开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则判断的多标签分类方法.根据情报源发布文本的特点,设置正则判断规则,以弥补模型的欠缺;为更全面反映开源威胁情报文本所涉及的威胁主题,针对标题和正文分别设置了Bert-TextCNN多标签分类模型,并将2部分标签整理去重以得到文本的最终威胁类别.通过与只依据正文建立的Bert-TextCNN多标签分类模型进行对比,所设置的模型在性能上有所提升,且召回率提升明显,能为开源威胁情报分类工作提供有价值的参考. 展开更多
关键词 开源威胁情报 多标签分类 文本分类 Bert模型 textCNN模型
在线阅读 下载PDF
基于GRW和FastText模型的电信用户投诉文本分类应用 被引量:3
18
作者 赵进 杨小军 《电信科学》 2021年第6期125-131,共7页
随着神经网络的广泛应用,将神经网络应用到自然语言处理文本分类问题中,成为一种有效的解决方法。电信运营商客户服务中心通过多种渠道收集用户投诉信息,为了对投诉文本信息进行自动分类并将其落实到具体责任部门,提升用户感知,提出了... 随着神经网络的广泛应用,将神经网络应用到自然语言处理文本分类问题中,成为一种有效的解决方法。电信运营商客户服务中心通过多种渠道收集用户投诉信息,为了对投诉文本信息进行自动分类并将其落实到具体责任部门,提升用户感知,提出了一种基于GRW模型和FastText模型的文本分类方法。首先通过GRW模型对投诉文本进行特征选择,提取有效特征词;然后构建基于FastText模型的用户投诉文本分类方法;最后在公开数据集和运营商已标注的投诉文本数据集上进行实验。结果表明,基于GRW和FastText模型的文本分类方法比朴素贝叶斯、双向LSTM和Bert模型在准确率、Kappa系数及汉明损失方面的性能有较大提升。 展开更多
关键词 神经网络 文本分类 GRW模型 Fasttext模型
在线阅读 下载PDF
CINO-TextGCN:融合CINO与TextGCN的藏文文本分类模型研究 被引量:2
19
作者 李果 杨进 陈晨 《高原科学研究》 CSCD 2024年第1期121-129,共9页
为提高藏文新闻文本分类准确性,文章提出一种融合少数民族语言预训练模型(Chinese Minority Pr-etrained Language Model,CINO)和图卷积神经网络模型(Text Graph Convolutional Networks,TextGCN)的方法,即CINO-TextGCN模型。为有效评... 为提高藏文新闻文本分类准确性,文章提出一种融合少数民族语言预训练模型(Chinese Minority Pr-etrained Language Model,CINO)和图卷积神经网络模型(Text Graph Convolutional Networks,TextGCN)的方法,即CINO-TextGCN模型。为有效评测该模型对藏文文本的分类性能,自建了较大规模和较高质量的藏文新闻文本公开数据集TNEWS(https://github.com/LG2016/CINO-TextGCN),通过实验发现,CINO-Text-GCN在公开数据集TNCC上的准确率为74.20%,在TNEWS上为83.96%。因此,该融合模型能够较好地捕捉到藏文文本语义,提升藏文文本分类性能。 展开更多
关键词 藏文 图卷积神经网络 融合模型 新闻文本 文本分类
在线阅读 下载PDF
基于BiGRU TextCNN框架的漏洞自动分类技术研究
20
作者 张浩 何东昊 《信息安全研究》 CSCD 北大核心 2024年第5期446-452,共7页
通用缺陷枚举(CVE)信息可以用于记录已知漏洞并提供标准化的语义描述,利用CWE信息对漏洞进行分类,可以为漏洞挖掘提供更丰富的背景知识和更详细的预防措施.但由于人工分类的不确定性和漏洞本身信息参数的变化,在具体实践中漏洞分类的准... 通用缺陷枚举(CVE)信息可以用于记录已知漏洞并提供标准化的语义描述,利用CWE信息对漏洞进行分类,可以为漏洞挖掘提供更丰富的背景知识和更详细的预防措施.但由于人工分类的不确定性和漏洞本身信息参数的变化,在具体实践中漏洞分类的准确性亟待提高,此外大量且不断增加的新漏洞对人工分类的效率和准确性也提出了巨大挑战.为解决这一问题,提出了一个基于BiGRU TextCNN模型的漏洞分类方法,可用于对漏洞信息的处理、训练和预测,并根据漏洞自身所表征的描述信息自动进行分类.为验证所提方法的适用性和可行性,首先对不同分类模型进行对比分析,然后利用所提出的框架模型通过对漏洞所表征的描述信息进行预测分类,结果证明了所提方法的正确性. 展开更多
关键词 漏洞分类 文本分类 条件抽取 深度学习 安全告警
在线阅读 下载PDF
上一页 1 2 73 下一页 到第
使用帮助 返回顶部