期刊文献+
共找到327篇文章
< 1 2 17 >
每页显示 20 50 100
基于word embedding的短文本特征扩展与分类 被引量:8
1
作者 孟欣 左万利 《小型微型计算机系统》 CSCD 北大核心 2017年第8期1712-1717,共6页
近几年短文本的大量涌现,给传统的自动文本分类技术带来了挑战.针对短文本特征稀疏、特征覆盖率低等特点,提出了一种基于word embedding扩展短文本特征的分类方法.word embedding是一种词的分布式表示,表示形式为低维连续的向量形式,并... 近几年短文本的大量涌现,给传统的自动文本分类技术带来了挑战.针对短文本特征稀疏、特征覆盖率低等特点,提出了一种基于word embedding扩展短文本特征的分类方法.word embedding是一种词的分布式表示,表示形式为低维连续的向量形式,并且好的word embedding训练模型可以编码很多语言规则和语言模式.本文利用word embedding空间分布特点和其蕴含的线性规则提出了一种新的文本特征扩展方法.结合扩展特征我们分别在谷歌搜索片段、中国日报新闻摘要两类数据集上进行了短文本分类实验,对比于仅使用词袋表示文本特征的分类方法,准确率分别提高:8.59%,7.42%. 展开更多
关键词 word embedding 文本特征 语义推理 短文本分类
在线阅读 下载PDF
基于Word Embedding语义相似度的字母缩略术语消歧 被引量:6
2
作者 于东 荀恩东 《中文信息学报》 CSCD 北大核心 2014年第5期51-59,共9页
该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧。方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据。利用该数据训练多份Word Embeddin... 该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧。方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据。利用该数据训练多份Word Embedding模型,以余弦相似度均值表示两个词之间的语义关系。在第二步聚类时,提出使用特征词扩展和语义线性加权来提高歧义分辨能力,提高消歧性能。该方法根据语义相似度扩展待消歧文档的特征词集合,挖掘聚类文档中缺失的语义信息,并使用语义相似度对特征词权重进行线性加权。针对25个多义缩略术语的消歧实验显示,特征词扩展使系统F值提高约4%,使用语义线性加权后F值再提高约2%,达到89.40%。 展开更多
关键词 字母缩略术语 术语消歧 word embedding 语义相似度
在线阅读 下载PDF
基于Word Embedding的遥感影像检测分割 被引量:6
3
作者 尤洪峰 田生伟 +1 位作者 禹龙 吕亚龙 《电子学报》 EI CAS CSCD 北大核心 2020年第1期75-83,共9页
遥感影像检测分割技术通常需提取影像特征并通过深度学习算法挖掘影像的深层特征来实现.然而传统特征(如颜色特征、纹理特征、空间关系特征等)不能充分描述影像语义信息,而单一结构或串联算法无法充分挖掘影像的深层特征和上下文语义信... 遥感影像检测分割技术通常需提取影像特征并通过深度学习算法挖掘影像的深层特征来实现.然而传统特征(如颜色特征、纹理特征、空间关系特征等)不能充分描述影像语义信息,而单一结构或串联算法无法充分挖掘影像的深层特征和上下文语义信息.针对上述问题,本文通过词嵌入将空间关系特征映射成实数密集向量,与颜色、纹理特征的结合.其次,本文构建基于注意力机制下图卷积网络和独立循环神经网络的遥感影像检测分割并联算法(Attention Graph Convolution Networks and Independently Recurrent Neural Network,ATGIR).该算法首先通过注意力机制对结合后的特征进行概率权重分配;然后利用图卷积网络(GCNs)算法对高权重的特征进一步挖掘并生成方向标签,同时使用独立循环神经网络(IndRNN)算法挖掘影像特征中的上下文信息,最后用Sigmoid分类器完成影像检测分割任务.以胡杨林遥感影像检测分割任务为例,我们验证了提出的特征提取方法和ATGIR算法能有效提升胡杨林检测分割任务的性能. 展开更多
关键词 注意力机制 图卷积网络 独立循环神经网络 并联算法 词嵌入
在线阅读 下载PDF
基于word embedding和CNN的情感分类模型 被引量:20
4
作者 蔡慧苹 王丽丹 段书凯 《计算机应用研究》 CSCD 北大核心 2016年第10期2902-2905,2909,共5页
尝试将word embedding和卷积神经网络(CNN)相结合来解决情感分类问题。首先,利用skip-gram模型训练出数据集中每个词的word embedding,然后将每条样本中出现的word embedding组合为二维特征矩阵作为卷积神经网络的输入,此外每次迭代训... 尝试将word embedding和卷积神经网络(CNN)相结合来解决情感分类问题。首先,利用skip-gram模型训练出数据集中每个词的word embedding,然后将每条样本中出现的word embedding组合为二维特征矩阵作为卷积神经网络的输入,此外每次迭代训练过程中,输入特征也作为参数进行更新;其次,设计了一种具有三种不同大小卷积核的神经网络结构,从而完成多种局部抽象特征的自动提取过程。与传统机器学习方法相比,所提出的基于word embedding和CNN的情感分类模型成功地将分类正确率提升了5.04%。 展开更多
关键词 卷积神经网络 自然语言处理 深度学习 词嵌入 情感分类
在线阅读 下载PDF
融合Word2Vec词嵌入的多核卷积神经网络音乐歌词多情感分类方法 被引量:1
5
作者 张昱 冯亚寒 丁千惠 《科学技术与工程》 北大核心 2024年第20期8598-8605,共8页
目前,音乐歌词情感分类大多以二标签极性情感为主,多情感标签分类较少,并且对于情感性不确定的歌词而言,得到的分类性能不高。为了解决多情感标签研究分类的不足,以及提高分类准确性,提出一种利用Word2Vec词嵌入技术,并使用多核卷积神... 目前,音乐歌词情感分类大多以二标签极性情感为主,多情感标签分类较少,并且对于情感性不确定的歌词而言,得到的分类性能不高。为了解决多情感标签研究分类的不足,以及提高分类准确性,提出一种利用Word2Vec词嵌入技术,并使用多核卷积神经网络作为分类器的音乐歌词多情感分类方法。该方法首先结合音乐歌词文本,进行数据预处理和可视化分析;其次利用Word2Vec词嵌入提取歌词局部特征,构建特征情感向量,挖掘歌词中情感信息,将歌词转化为更利于分类器模型输入的词向量;最后在分类器中,选用卷积神经网络模型,并在此基础上采用不同高度卷积核的方式构建新模型以此得到多情感分类。结果表明:音乐歌词多情感分类的结果达到94.26%,与传统CNN相比,分类精确率提高了6.86%,取得了良好性能。 展开更多
关键词 自然语言处理 情感分类 卷积神经网络 词嵌入 文本分类 音乐歌词
在线阅读 下载PDF
基于Transformer和Text-CNN的日志异常检测
6
作者 尹春勇 张小虎 《计算机工程与科学》 北大核心 2025年第3期448-458,共11页
日志数据作为软件系统中最为重要的数据资源之一,记录着系统运行期间的详细信息,自动化的日志异常检测对于维护系统安全至关重要。随着大型语言模型在自然语言处理领域的广泛应用,基于Transformer的日志异常检测方法被广泛地提出。传统... 日志数据作为软件系统中最为重要的数据资源之一,记录着系统运行期间的详细信息,自动化的日志异常检测对于维护系统安全至关重要。随着大型语言模型在自然语言处理领域的广泛应用,基于Transformer的日志异常检测方法被广泛地提出。传统的基于Transformer的方法,难以捕捉日志序列的局部特征,针对上述问题,提出了基于Transformer和Text-CNN的日志异常检测方法LogTC。首先,通过规则匹配将日志转换成结构化的日志数据,并保留日志语句中的有效信息;其次,根据日志特性采用固定窗口或会话窗口将日志语句划分为日志序列;再次,使用自然语言处理技术Sentence-BERT生成日志语句的语义化表示;最后,将日志序列的语义化向量输入到LogTC日志异常检测模型中进行检测。实验结果表明,LogTC能够有效地检测日志数据中的异常,且在2个数据集上都取得了较好的结果。 展开更多
关键词 日志异常检测 深度学习 词嵌入 TRANSFORMER Text-CNN
在线阅读 下载PDF
基于预训练模型和双向二维卷积的命名实体识别算法
7
作者 林楠 刘志慧 杨聪 《计算机科学》 北大核心 2025年第S1期218-223,共6页
针对命名实体识别在处理嵌套结构时语义信息逐层减弱的问题,提出了一种基于预训练模型和双向二维卷积的命名实体识别算法BAM-TDNN。该算法首先通过四词嵌入策略即BERT、距离、局部和注意力嵌入,来提取语句中的不同层次语义特征,将多个... 针对命名实体识别在处理嵌套结构时语义信息逐层减弱的问题,提出了一种基于预训练模型和双向二维卷积的命名实体识别算法BAM-TDNN。该算法首先通过四词嵌入策略即BERT、距离、局部和注意力嵌入,来提取语句中的不同层次语义特征,将多个层次的语义特征转换为二维语义表示,以更好地捕捉嵌套结构之间的语义信息;其次,采用Bi-TDNN模型学习语句中实体的长距离语义依赖关系,扩展跨度表示的感受野,提取嵌套实体间更准确的语义信息,更好地理解嵌套实体之间的语义关联。通过在4个公共数据集上进行评估,实验结果表明,所提出的命名实体识别算法在多个实体识别数据集上均取得了良好的性能。BAM-TDNN在ACE2005数据集上的精确率、召回率和F1值分别为86.83%,87.93%和86.83%,在GENIA数据集上的精确率、召回率和F1值分别为86.52%,82.37%和84.36%,在CoNLL2003数据集上的精确率、召回率和F1值分别为92.24%,93.72%和91.97%等。 展开更多
关键词 命名实体识别 四词嵌入策略 BERT Bi-TDNN
在线阅读 下载PDF
框架问题、文学创作与DeepSeek等大语言模型——从“偶然性哲学”的角度看
8
作者 徐英瑾 《上海师范大学学报(哲学社会科学版)》 北大核心 2025年第2期16-29,共14页
在符号人工智能时代提出的“框架问题”,可以表述为:如何让一个计算系统以可控的成本,在常识推理中区分出哪些信念与当下推理相关,哪些又不相关,并在此基础上以合理的方式将相关信念并入当下的推理进程。尽管今天基于深度学习的大语言... 在符号人工智能时代提出的“框架问题”,可以表述为:如何让一个计算系统以可控的成本,在常识推理中区分出哪些信念与当下推理相关,哪些又不相关,并在此基础上以合理的方式将相关信念并入当下的推理进程。尽管今天基于深度学习的大语言模型进路貌似在所占据的算力资源上远多于符号AI时代,却很难说这一进路已经真正解决“框架问题”。具体而言,考察几款主流大语言模型(包括“文心一言”、DeepSeek与ChatGPT-4)的小说续写能力,发现它们都很难在设置反转性剧情的同时维护常识推理所应该具有的“各向同性”与“奎因性”要求。换言之,若用日本哲学家九鬼周造的“偶然性哲学”所提供的哲学话术来说,主流大语言模型在追求新奇情节的同时都忽略了其与基于常识的“可能性之球”之间的关联。从这个角度看,让主流大语言模型全面取代人类作家的创作活动的时机,还远未成熟。考虑到大语言模型在这一问题上显示出的无能乃是与大语言模型基于“词向量嵌入矩阵”的基本工作原理相关的,因此,在不对这一基本原理进行挑战的情况下,业界是无法仅仅通过提高数据与算力的投入来使得未来的大语言模型能够解决“框架问题”的。 展开更多
关键词 框架问题 偶然性 文学创作 大语言模型 各向同性 奎因性 词向量嵌入矩阵
在线阅读 下载PDF
基于词性与词序的相关因子训练的word2vec改进模型 被引量:12
9
作者 潘博 于重重 +2 位作者 张青川 徐世璇 曹帅 《电子学报》 EI CAS CSCD 北大核心 2018年第8期1976-1982,共7页
词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性... 词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性两种信息,不仅使模型可以感知词语位置顺序,而且利用词性关联信息来建立上下文窗口内词语之间的固有句法关系.Structured word2vec on POS将词语按其位置顺序定向嵌入,对词向量和词性相关加权矩阵进行联合优化.实验通过词语类比、词相似性任务,证明了所提出的方法的有效性. 展开更多
关键词 word embedding 词性 相关权重 词序 word2vec
在线阅读 下载PDF
供应链中断风险的度量与应用:基于词嵌入模型的分析 被引量:2
10
作者 江伟 王楠 曹少鹏 《南开管理评论》 北大核心 2025年第4期109-120,共12页
随着近年来供应链中断给一国乃至全球带来巨大经济损失和社会影响,如何在事前对企业层面的供应链中断风险进行量化成为学术界和实务界关注的一个重要议题。本文根据我国上市公司年报M D&A部分的文本信息,采用词嵌入模型度量企业层... 随着近年来供应链中断给一国乃至全球带来巨大经济损失和社会影响,如何在事前对企业层面的供应链中断风险进行量化成为学术界和实务界关注的一个重要议题。本文根据我国上市公司年报M D&A部分的文本信息,采用词嵌入模型度量企业层面的供应链中断风险。检验结果表明:这一供应链中断风险指标对于企业未来的会计业绩与市场价值具有预测能力,企业面临的供应链中断风险越高,其未来的会计业绩与市场价值越低。进一步研究发现,在非国有企业且客户集中度越高、海外销售比重越低、企业所属行业竞争程度越高时,本文度量的供应链中断风险指标的上述预测能力越强。最后,当面临较高的供应链中断风险时,企业会储备更多的存货来应对。研究结果表明,本文度量的企业层面的供应链中断风险指标能够在事前向企业提供有关供应链中断风险的特有信息,因而具有良好的有效性。本研究不仅有助于学术界利用企业层面供应链中断风险的量化指标开展相关影响因素和经济后果的大样本经验研究,而且有助于实务界和政府根据该量化指标在事前更好地评估和管控企业的供应链中断风险,以增强供应链的稳定性与韧性。 展开更多
关键词 文本信息 词嵌入模型 供应链中断风险 特有信息
在线阅读 下载PDF
基于word2vec和LSTM的饮食健康文本分类研究 被引量:43
11
作者 赵明 杜会芳 +1 位作者 董翠翠 陈长松 《农业机械学报》 EI CAS CSCD 北大核心 2017年第10期202-208,共7页
为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维... 为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。 展开更多
关键词 文本分类 word2vec 词向量 长短期记忆网络 K-means++
在线阅读 下载PDF
结合依存图卷积的中文文本相似度计算研究 被引量:1
12
作者 胡书林 张华军 +1 位作者 邓小涛 王征华 《计算机工程》 北大核心 2025年第3期76-85,共10页
目前中文文本相似度计算能够通过词嵌入技术在语义层面判别文本相似度,但通常忽略了文本中蕴含的丰富的句法结构信息,而以词为单位的中文句法分析与动态词嵌入模型中以字为单位的分词粒度不一致,使得当前大多数结合句法分析的研究只能... 目前中文文本相似度计算能够通过词嵌入技术在语义层面判别文本相似度,但通常忽略了文本中蕴含的丰富的句法结构信息,而以词为单位的中文句法分析与动态词嵌入模型中以字为单位的分词粒度不一致,使得当前大多数结合句法分析的研究只能使用静态词嵌入来表征词的语义向量。针对此问题,根据依存句法分析构建依存图,通过分词掩码映射与注意力混合池化的方法实现动态词嵌入表征词节点的语义特征,然后使用图卷积网络提取依存图中词节点之间的依存关系信息,最终读出依存图,将其作为句子的特征向量,从语义与句法2个层面计算句子间的相似度。在表示型与交互型2种结构模型上应用所提方法,并在BQ_Corpus与ATEC数据集上进行实验,结果显示,该模型的准确率最高分别达到87.12%与88.33%,结合依存句法信息后模型的各项评估指标均有提升。 展开更多
关键词 图卷积神经网络 依存句法分析 动态词嵌入 文本相似度 注意力机制
在线阅读 下载PDF
基于word2vec和双向LSTM的情感分类深度模型 被引量:45
13
作者 黄贤英 刘广峰 +1 位作者 刘小洋 阳安志 《计算机应用研究》 CSCD 北大核心 2019年第12期3583-3587,3596,共6页
针对社交网络文本传统情感分类模型存在先验知识依赖以及语义理解不足的问题,提出一种基于word2vec和双向长短时记忆循环神经网络的情感分类模型--WEEF-BILSTM。采用基于CBOW (continuous bag-of-words)方式的word2vec模型针对语料训练... 针对社交网络文本传统情感分类模型存在先验知识依赖以及语义理解不足的问题,提出一种基于word2vec和双向长短时记忆循环神经网络的情感分类模型--WEEF-BILSTM。采用基于CBOW (continuous bag-of-words)方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,通过双向LSTM神经网络获取更为完整的文本上下文信息从而提取出深度词向量特征,继而使用one-versus-one SVM对其进行情感分类。实验结果表明,提出的WEEF-BILSTM模型较其他模型分类效果更好,能达到更优的准确率和F值。 展开更多
关键词 文本分类 情感分析 双向长短时记忆循环神经网络 词向量 社交网络
在线阅读 下载PDF
VC平台下基于OLE的Word自动化操作应用 被引量:16
14
作者 陈特放 方斌 《计算机应用与软件》 CSCD 2009年第9期123-125,共3页
在工程项目中,需要将最后的实验结果和数据提供给用户。但简单的文本形式无法生成复杂的表格和图形,而程序界面的形式不便让用户对实验结果和数据进行进一步的总结和修改。采用Word文档形式可以利用Word的强大文档编辑处理功能,生成复... 在工程项目中,需要将最后的实验结果和数据提供给用户。但简单的文本形式无法生成复杂的表格和图形,而程序界面的形式不便让用户对实验结果和数据进行进一步的总结和修改。采用Word文档形式可以利用Word的强大文档编辑处理功能,生成复杂的图文及报表,便于用户进行进一步的编辑打印等操作。介绍在VC开发平台下,基于OLE技术,实现了对Word的自动化操作,将实验结果以复杂Word文档的形式反馈给用户。结合一个工程项目中的Word报表生成过程,并给出了具体的实现步骤。 展开更多
关键词 OLE VC word自动化
在线阅读 下载PDF
基于Word2Vec模型特征扩展的Web搜索结果聚类性能的改进 被引量:5
15
作者 杨楠 李亚平 《计算机应用》 CSCD 北大核心 2019年第6期1701-1706,共6页
对于用户泛化和模糊的查询,将Web搜索引擎返回的列表内容聚类处理,便于用户有效查找感兴趣的内容。由于返回的列表由称为片段(snippet)的短文本组成,而传统的单词频率-逆文档频率(TF-IDF)特征选择模型不能适用于稀疏的短文本,使得聚类... 对于用户泛化和模糊的查询,将Web搜索引擎返回的列表内容聚类处理,便于用户有效查找感兴趣的内容。由于返回的列表由称为片段(snippet)的短文本组成,而传统的单词频率-逆文档频率(TF-IDF)特征选择模型不能适用于稀疏的短文本,使得聚类性能下降。一个有效的方法就是通过一个外部的知识库对短文本进行扩展。受到基于神经网络词表示方法的启发,提出了通过词嵌入技术的Word2Vec模型对短文本扩展,即采用Word2Vec模型的TopN个最相似的单词用于对片段(snippet)的扩展,扩展文档使得TF-IDF模型特征选择得到聚类性能的提高。同时考虑到通用性单词造成的噪声引入,对扩展文档的TF-IDF矩阵进行了词频权重修正。实验在两个公开数据集ODP239和SearchSnippets上完成,将所提方法和纯snippet无扩展的方法、基于Wordnet的特征扩展方法和基于Wikipedia的特征扩展方法进行了对比。实验结果表明,所提方法在聚类性能方面优于对比方法。 展开更多
关键词 特征扩展 片段 词嵌入技术 搜索结果聚类
在线阅读 下载PDF
基于词嵌入的词汇稀疏分布式编码方法
16
作者 吴开 武新乾 +1 位作者 陈祖刚 张冀 《中文信息学报》 北大核心 2025年第7期27-43,共17页
词嵌入被用作各种自然语言处理和信息检索任务的构建块。它们在大型语料库上进行训练,在各种自然语言任务中表现优异,但不适用于需要二值输入的层次时间记忆模型、伯努利朴素贝叶斯模型等机器学习模型,且用浮点数表示的词向量会占用大... 词嵌入被用作各种自然语言处理和信息检索任务的构建块。它们在大型语料库上进行训练,在各种自然语言任务中表现优异,但不适用于需要二值输入的层次时间记忆模型、伯努利朴素贝叶斯模型等机器学习模型,且用浮点数表示的词向量会占用大量内存空间。该研究基于非参数和非线性映射的编码结构,提出了一种新的二值化词向量的稀疏分布式编码方法,在尽可能降低语义精度损失的同时提高计算效率。在词语义相似度、词类比和词概念分类任务中使用多个中文和英文数据集进行实验。结果表明,该文所提编码方法在词语相似度任务上优于语义折叠方法,在词语概念分类任务中相较于原始词嵌入方法,精度损失仅为1%~4%。此外,在Top-K查询任务中,该方法的执行速度更快,所生成的词向量在内存占用方面仅为原始词向量的几分之一,内存消耗减少至1/5~1/3倍。 展开更多
关键词 词嵌入 分位数转换 非线性映射 稀疏二进制编码 内存优化
在线阅读 下载PDF
OLE和Word对象模型在题库管理系统开发中的应用 被引量:20
17
作者 范明虎 《计算机工程与设计》 CSCD 北大核心 2007年第10期2487-2490,共4页
以一个已经完成的试题库管理系统为基础,以复合文本的录入和试卷的生成为中心,对OLE技术和Word对象模型在该类系统开发中的应用进行了深入地探讨。首先概述了OLE在这类系统开发中的常用技术和Word对象模型,然后详尽地分析和比较了对象... 以一个已经完成的试题库管理系统为基础,以复合文本的录入和试卷的生成为中心,对OLE技术和Word对象模型在该类系统开发中的应用进行了深入地探讨。首先概述了OLE在这类系统开发中的常用技术和Word对象模型,然后详尽地分析和比较了对象嵌入在数据录入中的3种应用方法及其优缺点,最后以模板为重点,深入探讨了OLE自动化和Word对象模型在试卷生成中的应用。同时,给出了部分应用在VB中的基本实现代码。 展开更多
关键词 对象嵌入 自动化 word对象模型 试题库 模板
在线阅读 下载PDF
基于TB-IDACNN的新闻推荐模型
18
作者 辛春花 鲁晓波 何婷 《计算机工程与设计》 北大核心 2025年第5期1387-1394,共8页
针对现有新闻推荐方法存在未考虑新闻的动态特性、难以深度挖掘新闻的语义信息等问题,提出一种融合TinyBERT和改进型动态注意卷积神经网络的个性化新闻推荐模型(TB-IDACNN)。充分利用TinyBERT词向量模型、卷积神经网络和内积注意力网络... 针对现有新闻推荐方法存在未考虑新闻的动态特性、难以深度挖掘新闻的语义信息等问题,提出一种融合TinyBERT和改进型动态注意卷积神经网络的个性化新闻推荐模型(TB-IDACNN)。充分利用TinyBERT词向量模型、卷积神经网络和内积注意力网络等深度学习模型的优势,综合考虑新闻的动态特性和静态特性,实现个性化新闻推荐。在MIND和Adressa数据集上的结果表明,相比其它几种先进的新闻推荐模型,所提模型可以获得更好的推荐性能,能够有效满足用户在新闻推荐任务中的需求。 展开更多
关键词 动态神经网络 新闻推荐 词嵌入模型 内积注意力机制 卷积神经网络 词向量化 平均加权池化
在线阅读 下载PDF
基于社会化聆听的服装品牌个性维度构建与量化
19
作者 章冰珏 宋琨 顾新荣 《丝绸》 北大核心 2025年第5期22-33,共12页
品牌个性是品牌资产的重要组成部分。本文旨在结合社会化聆听数据与自然语言处理技术,构建服装品牌个性维度框架,并提出量化方法。本文通过采集社交媒体上消费者关于服装品牌的推文,运用文本分词和情感分析提取品牌核心词汇,并借助词嵌... 品牌个性是品牌资产的重要组成部分。本文旨在结合社会化聆听数据与自然语言处理技术,构建服装品牌个性维度框架,并提出量化方法。本文通过采集社交媒体上消费者关于服装品牌的推文,运用文本分词和情感分析提取品牌核心词汇,并借助词嵌入与聚类方法筛选出品牌个性词汇并构建维度框架。最后,利用TF-IDF方法对不同品牌在个性维度上的表现进行量化分析。本文基于特质论构建涵盖5主维度、28子维度和176核心词汇的服装品牌个性维度,系统捕捉社交媒体语境下的品牌个性特征,同时验证了TF-IDF方法在品牌个性测量中的应用,可为品牌追踪与管理提供新的理论基础和方法论支持。 展开更多
关键词 品牌个性 社会化聆听 自然语言处理 情感分析 词嵌入 GPT模型 零样本学习 层次聚类
在线阅读 下载PDF
中文专利文本结构信息提取方法
20
作者 吕国燕 戴佳呈 +1 位作者 吕学强 游新冬 《计算机工程与设计》 北大核心 2025年第3期665-672,共8页
专利文本的主体-行为-客体(SAO)结构提取直接影响着专利相似性计算、专利聚类与分类等专利文本挖掘下游任务的应用与效果,但目前存在效率低下和提取结构信息不充分等问题。对此进一步提取中文专利文本的技术方法F和功能效果E。为解决这... 专利文本的主体-行为-客体(SAO)结构提取直接影响着专利相似性计算、专利聚类与分类等专利文本挖掘下游任务的应用与效果,但目前存在效率低下和提取结构信息不充分等问题。对此进一步提取中文专利文本的技术方法F和功能效果E。为解决这一全新任务,提出一种基于深度语义的提取模型,通过词嵌入更好理解专利文本的语义信息,利用双向长短期记忆捕捉长距离的上下文依赖关系,应用多头注意力对关键特征进行更精准的关注。实验结果表明,该方法相较于传统SAO提取方法F1值提升了5.15%,验证了高效提取SAO、F和E结构时,模型各部分的正向效果。 展开更多
关键词 主体-行为-客体结构 中文专利 技术方法 功能效果 词嵌入 双向长短期记忆 多头注意力
在线阅读 下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部