期刊文献+
共找到1,149篇文章
< 1 2 58 >
每页显示 20 50 100
马铃薯GRAM基因家族鉴定与表达分析 被引量:1
1
作者 刘涛 王志淇 +4 位作者 吴文博 石文婷 王超楠 杜崇 杨中敏 《生物技术通报》 北大核心 2025年第4期145-155,共11页
【目的】GRAM(Glucosyltransferases,Rab-like GTPase activators and Myotubularins)是普遍存在于动、植物蛋白中的结构域,在植物生长发育及响应逆境胁迫等过程中发挥着重要功能。在马铃薯全基因组中鉴定GRAM基因家族成员,分析马铃薯G... 【目的】GRAM(Glucosyltransferases,Rab-like GTPase activators and Myotubularins)是普遍存在于动、植物蛋白中的结构域,在植物生长发育及响应逆境胁迫等过程中发挥着重要功能。在马铃薯全基因组中鉴定GRAM基因家族成员,分析马铃薯GRAM家族基因在盐胁迫下的表达模式,探究GRAM家族在马铃薯盐胁迫过程中的作用。【方法】采用生物信息学方法鉴定马铃薯中GRAM家族成员,并对蛋白理化性质、染色体定位、亚细胞定位、基因结构、motif及共线性等方面进行分析。利用转录组测序和荧光定量PCR(RT-qPCR)对该家族成员在盐胁迫下的表达模式进行研究。【结果】在马铃薯中共鉴定到26个GRAM家族基因,不均匀地分布于7条染色体上;理化性质分析显示StGRAM全部为亲水性蛋白,大部分为碱性蛋白;亚细胞定位预测StGRAM蛋白大部分存在于叶绿体和细胞核;根据系统进化分析可将StGRAM家族分为3个亚族,同一亚族成员具有相似的基因结构及motif分布;通过马铃薯物种内共线性分析发现StGRAM仅有一对同源基因,物种间共线性显示StGRAM在水稻和拟南芥中分别存在5对和3对同源基因;在StGRAM基因启动子区发现大量的激素响应元件和逆境胁迫响应元件;转录组测序分析和RT-qPCR分析显示,StGRAM基因受盐胁迫的诱导表达,可能参与了马铃薯对盐胁迫的响应过程,StGRAM25基因可能对中性盐和碱性盐有不同的响应模式。【结论】StGRAM基因家族在马铃薯盐胁迫响应和信号转导过程中发挥着重要作用。 展开更多
关键词 马铃薯 gram基因家族 生物信息学 盐胁迫 表达分析
在线阅读 下载PDF
融合N-Gram和多重注意力机制的能源领域新词发现方法
2
作者 王祎涵 张思佳 +2 位作者 曹恒 刘珈宁 张正龙 《科学技术与工程》 北大核心 2025年第18期7668-7677,共10页
随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据... 随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据特性,提出了一种融合N-Gram和多重注意力机制的能源领域新词发现方法(new word discovery method in the energy field combining N-Gram and multiple attention mechanism, ENFM)。该方法首先利用N-Gram模型对能源领域的文本数据进行初步处理,通过统计和分析词频来生成新词候选列表。随后,引入融合多重注意力机制的ERNIE-BiLSTM-CRF模型,以进一步提升新词发现的准确性和效率。与传统的新词发现技术相比,在新词的准确识别和整体效率上均有显著提升,将其于能源领域政策文本数据集,准确率、召回率和F1分别为95.71%、95.56%、95.63%。实验结果表明,该方法能够准确地在能源领域的大量文本数据中识别新词,有效识别出能源领域特有的词汇和表达方式,显著提高了中文分词任务中对能源领域专业术语的识别能力。 展开更多
关键词 能源领域 新词发现 预训练模型 N-gram 中文分词
在线阅读 下载PDF
基于GRAM矩阵的粒感知机
3
作者 吴少华 陈玉明 《计算机科学》 北大核心 2025年第S2期664-670,共7页
感知机是一种简单的线性分类器,也是SVM及深度学习的基石。然而,大部分复杂问题是非线性模型,感知机在处理这类问题时,分类效果不佳。因此,引入粒计算理论,以参考样本为模板,将训练样本粒化为特征粒子及特征粒向量,进而定义粒GRAM矩阵,... 感知机是一种简单的线性分类器,也是SVM及深度学习的基石。然而,大部分复杂问题是非线性模型,感知机在处理这类问题时,分类效果不佳。因此,引入粒计算理论,以参考样本为模板,将训练样本粒化为特征粒子及特征粒向量,进而定义粒GRAM矩阵,提出一种基于GRAM矩阵的粒感知机模型。该模型优化感知机的对偶形式,构造新的粒感知机模型。为处理非线性分类问题,引入核函数,构造基于粒向量的核GRAM矩阵,并给出GRAM粒感知机的损失函数和学习方法。最后,从收敛性、非线性处理能力、参考样本的数量以及模型分类效果4方面进行实验分析,结果表明了GRAM粒感知机的有效性与正确性。 展开更多
关键词 粒计算 感知机 gram矩阵 非线性分类 核函数
在线阅读 下载PDF
基于前后文n-gram模型的古汉语句子切分 被引量:29
4
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 N-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
在线阅读 下载PDF
基于N-gram频率和1D-CAN-DAT的网络入侵检测模型
5
作者 郑淳戈 安洋 +1 位作者 赵利辉 孟迪 《火力与指挥控制》 北大核心 2025年第9期54-64,共11页
为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构... 为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构建关联特征,并提取深层次会话特征。实验结果表明,不同攻击类型的加权检测准确率达到了97.68%,同部分现有研究相比有所提升。 展开更多
关键词 入侵检测 N-gram频率 CNN 可变形注意力机制 时间感知 Transformer
在线阅读 下载PDF
一种基于随机n-Grams的文本相似度计算方法 被引量:9
6
作者 王贤明 胡智文 谷琼 《情报学报》 CSSCI 北大核心 2013年第7期716-723,共8页
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gra... 文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明:基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。 展开更多
关键词 文本相似度 评价函数 集合 N-gram R-gram
在线阅读 下载PDF
关于Gram行列式两个问题的解答
7
作者 朱小琨 《华中师范大学学报(自然科学版)》 CAS CSCD 北大核心 2003年第4期457-460,共4页
研究了在通常Riemann积分的意义下Gram不等式的积分形式等号成立的充要条件.同时,还给出了向量组α1,a2,…,ak可由向量组β1,β2,…,βk线性表示时,两向量组的Gram行列式的关系.
关键词 向量组 线性相关 gram行列式 gram不等式
在线阅读 下载PDF
基于Gram Schmidt变换的高光谱遥感图像改进融合方法 被引量:33
8
作者 于海洋 闫柏琨 +2 位作者 甘甫平 迟文学 武法东 《地理与地理信息科学》 CSCD 北大核心 2007年第5期39-42,共4页
遥感图像融合的目的是综合来自不同空间分辨率和光谱分辨率的遥感信息,生成一幅具有新空间和波谱特征的合成图像。针对高光谱图像的特点,对基于Gram Schmidt变换的图像融合方法进行改进,首先采用光谱重采样方法模拟产生Gram Schmidt变... 遥感图像融合的目的是综合来自不同空间分辨率和光谱分辨率的遥感信息,生成一幅具有新空间和波谱特征的合成图像。针对高光谱图像的特点,对基于Gram Schmidt变换的图像融合方法进行改进,首先采用光谱重采样方法模拟产生Gram Schmidt变换的第一分量,通过Gram Schmidt变换将高光谱图像转换到正交空间,再利用高空间分辨率图像替换Gram Schmidt变换的第一分量,最后通过Gram Schmidt反变换获得融合图像。利用EO1-Hyperion航天高光谱数据与ALI全色波段进行融合试验,发现改进方法可有效提高高光谱遥感图像与全色高分辨率图像的融合质量。 展开更多
关键词 gram Schmidt变换 高光谱图像 光谱重采样 图像融合
在线阅读 下载PDF
基于设计结构化Gram矩阵的ISAR运动补偿方法 被引量:12
9
作者 俞翔 朱岱寅 +1 位作者 张劲东 蒋锐 《电子学报》 EI CAS CSCD 北大核心 2014年第3期452-461,共10页
运动补偿是ISAR(Inverse Synthetic Aperture Radar)成像算法中的重要步骤.本文将运动补偿归结为多参数估计问题,基于设计结构化Gram矩阵的最优化理论提出了一种运动补偿方法.该方法可分为距离对准和相位补偿两部分,其中距离对准算法通... 运动补偿是ISAR(Inverse Synthetic Aperture Radar)成像算法中的重要步骤.本文将运动补偿归结为多参数估计问题,基于设计结构化Gram矩阵的最优化理论提出了一种运动补偿方法.该方法可分为距离对准和相位补偿两部分,其中距离对准算法通过让所有距离像之间的相关性同时逼近最大值的准则实现偏移量的估计,而相位补偿算法则通过分析信号模型推导出最优矩阵从而利用最优化方法提取相位误差.实测数据处理结果表明,这两种算法都具有较强的鲁棒性和较高的估计精度,是一种有效的运动补偿方法. 展开更多
关键词 ISAR 结构化gram矩阵 距离对准 相位补偿 压缩感知
在线阅读 下载PDF
基于点估计和Gram-Charlier展开的含风电电力系统概率潮流实用算法 被引量:65
10
作者 艾小猛 文劲宇 +2 位作者 吴桐 孙树敏 李广磊 《中国电机工程学报》 EI CSCD 北大核心 2013年第16期16-22,共7页
概率潮流(probabilistic load flow,PLF)计算是评估风电并网影响的基础。风电功率具有随机性和波动性,其分布特征难以用常见的概率密度函数进行拟合,而且潮流计算的输出变量与输入变量之间是非线性关系。针对上述特点,提出一种基于点估... 概率潮流(probabilistic load flow,PLF)计算是评估风电并网影响的基础。风电功率具有随机性和波动性,其分布特征难以用常见的概率密度函数进行拟合,而且潮流计算的输出变量与输入变量之间是非线性关系。针对上述特点,提出一种基于点估计(point estimate method,PEM)和Gram-Charlier展开的概率潮流实用算法(PG算法),无需知道输入随机变量的概率密度函数,仅根据其样本数据,在有n个输入随机变量的情况下仅需计算2n+1次潮流便可估计出输出随机变量的期望、方差、累积分布等统计信息。对IEEE 16机系统的仿真结果表明:该方法精度高,计算量小。此外,本文提出的PG算法还可用于分析其他考虑不确定因素但其概率密度函数未知的电力系统问题。 展开更多
关键词 概率潮流 风电功率 概率密度函数 点估计 gram-Charlier展开 累积分布
在线阅读 下载PDF
快速Gram-Schmidt回归方法 被引量:5
11
作者 王惠文 夏棒 孟洁 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2013年第9期1259-1262,1268,共5页
提出一种快速的变量筛选与回归建模方法.该方法将在建模过程中,一方面筛选出对因变量有最佳解释作用的信息;另一方面基于Gram-Schmidt正交变换,识别和检验模型中的冗余变量,以便能够及时和成批量地删除所有冗余信息.仿真分析指出,在自... 提出一种快速的变量筛选与回归建模方法.该方法将在建模过程中,一方面筛选出对因变量有最佳解释作用的信息;另一方面基于Gram-Schmidt正交变换,识别和检验模型中的冗余变量,以便能够及时和成批量地删除所有冗余信息.仿真分析指出,在自变量数量巨大,同时变量之间的多重相关程度又非常高的情形下,与经典的逐步回归相比,该方法的计算速度更快,建模过程更加简洁有效. 展开更多
关键词 gram—Schmidt正交变换 冗余变量 变量筛选 快速建模
在线阅读 下载PDF
一种基于N-Gram的垃圾邮件过滤方法研究 被引量:5
12
作者 林伟 柳荣其 徐熙 《计算机应用与软件》 CSCD 2010年第2期121-123,共3页
为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提... 为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提高了垃圾邮件过滤的性能。 展开更多
关键词 邮件过滤 N—gram 贝叶斯模型 特征选择
在线阅读 下载PDF
中文微博情感词提取:N-Gram为特征的分类方法 被引量:13
13
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 N-gram特征
在线阅读 下载PDF
通过Gram-Schmidt投影方法在高山区提取TM数据中含矿蚀变带信息 被引量:19
14
作者 刘素红 马建文 蔺启忠 《地质与勘探》 CAS CSCD 北大核心 2000年第5期62-65,共4页
在冰雪覆盖的高山地区 ,蚀变岩反射光谱信息被高山上的冰雪和河谷中砂石等强反射率信息所抑制。TM6波段反映热红外发射光谱信息 ,根据温度差异反映不同的目标 ,对岩性区分有较好的效果。研究了在TM6波段信息的基础上 ,利用Gram -Schmid... 在冰雪覆盖的高山地区 ,蚀变岩反射光谱信息被高山上的冰雪和河谷中砂石等强反射率信息所抑制。TM6波段反映热红外发射光谱信息 ,根据温度差异反映不同的目标 ,对岩性区分有较好的效果。研究了在TM6波段信息的基础上 ,利用Gram -Schmidt投影方法将反射光谱信息叠加到TM6波段上进而进行弱信息提取的方法。这一方法在新疆康西瓦地区得到成功利用。 展开更多
关键词 TM数据 热液蚀变 gram-Schmidt投影 遥感勘探
在线阅读 下载PDF
基于半不变量和Gram-Charlier级数展开法的随机潮流算法 被引量:17
15
作者 卫鹏 刘建坤 +2 位作者 周前 徐青山 黄煜 《电力工程技术》 2017年第1期34-38,共5页
随着新能源规模的日益扩大,新能源电站的出力往往呈现较强的相关性,在传统的随机潮流算法中对强相关性随机变量考虑较少。综合考虑风电出力的随机波动、负荷的变化、发电机的强迫停运及线路的故障等各种不确定情况,根据节点电压和支路... 随着新能源规模的日益扩大,新能源电站的出力往往呈现较强的相关性,在传统的随机潮流算法中对强相关性随机变量考虑较少。综合考虑风电出力的随机波动、负荷的变化、发电机的强迫停运及线路的故障等各种不确定情况,根据节点电压和支路潮流的期望值及灵敏度矩阵,计算了负荷及常规发电机、风电机组出力、各节点注入功率的各阶半不变量,由Gram-Charlier级数展开求得概率密度函数和概率分布函数。IEEE-30节点测试表明:该算法能反映大规模新能源接入下系统的不确定性,将求取随机变量和的概率密度函数的卷积运算简化为半不变量的代数运算,极大地缩短了计算时间,并具有良好的收敛性。 展开更多
关键词 随机模型 半不变量 随机潮流 风电 gram-Charlier级数
在线阅读 下载PDF
N-gram统计模型在机器翻译系统中的应用 被引量:5
16
作者 张健 李素建 刘群 《计算机工程与应用》 CSCD 北大核心 2002年第8期73-75,78,共4页
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时... 文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 展开更多
关键词 机器翻译系统 N-gram统计模型 语料库 自然语言处理 计算机
在线阅读 下载PDF
基于卷积神经网络的自适应权重multi-gram语句建模系统 被引量:7
17
作者 张春云 秦鹏达 尹义龙 《计算机科学》 CSCD 北大核心 2017年第1期60-64,共5页
如今信息量呈爆炸式增长,自然语言处理得到了越来越广泛的重视。传统的自然语言处理系统过多地依赖昂贵的人工标注特征和语言分析工具的语法信息,导致预处理中语法信息的错误传递到系统训练和预测过程中。因此,深度学习的应用受到了学... 如今信息量呈爆炸式增长,自然语言处理得到了越来越广泛的重视。传统的自然语言处理系统过多地依赖昂贵的人工标注特征和语言分析工具的语法信息,导致预处理中语法信息的错误传递到系统训练和预测过程中。因此,深度学习的应用受到了学者们的关注。因为它能实现端对端预测并尽可能少地依赖外部信息。自然语言处理领域流行的深度学习框架为了更好地获取句子信息,采用multi-gram策略。但不同任务和不同数据集的信息分布状况不尽相同,而且这种策略并没有考虑到不同n-gram的重要性分布。针对该问题,提出了一种基于深度学习的自适应学习multi-gram权重的策略,从而根据各n-gram特征的贡献为其分配相应的权重;并且还提出了一种新的multigram特征向量结合方法,大大降低了系统复杂度。将该模型应用到电影评论正负倾向判断和关系分类两种分类任务中,实验结果证明采用的自适应multi-gram权重策略能够大大改善模型的分类效果。 展开更多
关键词 深度学习 自然语言处理 自适应权重 multi-gram
在线阅读 下载PDF
一种基于N-Gram技术的中文文献自动分类方法 被引量:19
18
作者 何浩 杨海棠 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n... 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 展开更多
关键词 N-gram 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类
在线阅读 下载PDF
基于Gram-Schmidt过程的多项式回归建模方法 被引量:3
19
作者 王惠文 郭丽娟 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2008年第11期1349-1352,共4页
多项式回归模型是一种常用的非线性回归方法.由于在多项式回归模型中,自变量之间往往存在较强的相关关系,采用普通最小二乘回归方法来估计回归系数会存在较大的计算误差.为了提高多项式回归模型的预测准确性和可靠性,提出一种基于Gram-S... 多项式回归模型是一种常用的非线性回归方法.由于在多项式回归模型中,自变量之间往往存在较强的相关关系,采用普通最小二乘回归方法来估计回归系数会存在较大的计算误差.为了提高多项式回归模型的预测准确性和可靠性,提出一种基于Gram-Schmidt过程进行多项式回归的建模方法,可以实现自变量集合的正交化,克服自变量集合多重共线对回归建模的不良影响,从而有效地运用最小二乘建立回归模型.同时可以进行信息筛选有效选取对因变量有显著解释作用的自变量,排除自变量中的冗余信息.采用仿真数据分析,检验了该方法的有效性. 展开更多
关键词 gram—Schmidt过程 多项式回归 多重相关性
在线阅读 下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:6
20
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fastText 类别特征 词汇信息熵 N-gram
在线阅读 下载PDF
上一页 1 2 58 下一页 到第
使用帮助 返回顶部