期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于数据并行的神经语言模型多卡训练分析 被引量:2
1
作者 李垠桥 阿敏巴雅尔 +3 位作者 肖桐 薄乐 朱靖波 张俐 《中文信息学报》 CSCD 北大核心 2018年第7期37-43,共7页
数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,... 数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIA TITAN X(Pascal)GPU设备在循环神经语言模型上进行训练,两种方法分别可获得约25%和41%的速度提升。同时,该文还针对数据并行方法的适用性以及不同的硬件设备连接方式对传输速度的影响进行了讨论。 展开更多
关键词 数据并行 神经语言模型 All-Reduce 采样
在线阅读 下载PDF
基于神经网络语言模型的时间序列趋势预测方法 被引量:33
2
作者 王慧健 刘峥 +1 位作者 李云 李涛 《计算机工程》 CAS CSCD 北大核心 2019年第7期13-19,25,共8页
对于时序数据的预测,传统方法多数通过分析历史数据预测出后面的一个或者多个具体值,但预测的具体数值准确率较低。为此,提出一种新的时间序列短期趋势预测方法。通过对时序数据进行离散化,用字符表示各个时间段数据的范围,并利用神经... 对于时序数据的预测,传统方法多数通过分析历史数据预测出后面的一个或者多个具体值,但预测的具体数值准确率较低。为此,提出一种新的时间序列短期趋势预测方法。通过对时序数据进行离散化,用字符表示各个时间段数据的范围,并利用神经网络语言模型预测得到下一个字符,即下一段数据的范围。实验结果表明,与支持向量机、循环神经网络、随机森林等算法相比,在预测结果分为5个区间的情况下,该算法平均预测准确率为 56.7 %,具有较高的可行性,且由于字符表示带有语义信息,所得预测结果可以反映数据趋势以及趋势变化程度。 展开更多
关键词 数据挖掘 时间序列预测 数据离散 长短时记忆 神经网络语言模型 深度学习
在线阅读 下载PDF
基于深度学习的语言模型研究进展 被引量:54
3
作者 王乃钰 叶育鑫 +3 位作者 刘露 凤丽洲 包铁 彭涛 《软件学报》 EI CSCD 北大核心 2021年第4期1082-1115,共34页
语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.围绕语言模型... 语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,从语言模型的基本概念和理论出发,介绍了神经概率与预训练模型的应用情况和当前面临的挑战,对现有神经概率、预训练语言模型及方法进行了对比和分析.同时又从新型训练任务和改进网络结构两方面对预训练语言模型训练方法进行了详细阐述,并对目前预训练模型在规模压缩、知识融合、多模态和跨语言等研究方向进行了概述和评价.最后总结了语言模型在当前自然语言处理应用中的瓶颈,对未来可能的研究重点做出展望. 展开更多
关键词 语言模型 预训练 深度学习 自然语言处理 神经语言模型
在线阅读 下载PDF
一种神经范畴标注模型
4
作者 吴惠甲 张家俊 宗成庆 《软件学报》 EI CSCD 北大核心 2016年第11期2691-2700,共10页
范畴标注是组合范畴语法解析中的子任务之一,可用于提高解析器的效率和性能.传统的最大熵模型需要手工定义特征模板,神经网络则通过隐含层学习到离散特征的分布式表示,从而自动提取分类需要的特征.引入该模型来解决该问题,在原有神经语... 范畴标注是组合范畴语法解析中的子任务之一,可用于提高解析器的效率和性能.传统的最大熵模型需要手工定义特征模板,神经网络则通过隐含层学习到离散特征的分布式表示,从而自动提取分类需要的特征.引入该模型来解决该问题,在原有神经语言模型的基础上加入了向量化的词性表示层和范畴表示层,并通过反向传播自动更新词向量、词性向量和范畴向量,学习到它们的分布式表示.此外,在预测时采用束搜索的序列解码方式来引入标签之间的依赖信息.实验结果表明,这两种改进都能提升模型的性能,使其在范畴标注任务上比传统的最大熵模型效果要好(提升1%). 展开更多
关键词 范畴标注 分布式表示 神经语言模型 束搜索
在线阅读 下载PDF
基于神经网络特征的句子级别译文质量估计 被引量:15
5
作者 陈志明 李茂西 王明文 《计算机研究与发展》 EI CSCD 北大核心 2017年第8期1804-1812,共9页
机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约... 机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约着后续支持向量回归算法的性能,提出了利用深度学习中上下文单词预测模型和矩阵分解模型提取句子向量特征,并将其与递归神经网络语言模型特征相结合来提高译文质量自动估计与人工评价的相关性.在WMT15和WMT16译文质量估计子任务数据集上的实验结果表明:利用上下文单词预测模型提取句子向量特征的方法性能统计一致地优于传统的QuEst方法和连续空间语言模型句子向量特征提取方法,这揭示了提出的特征提取方法不仅不需要语言学分析,而且显著地提高了译文质量估计的效果. 展开更多
关键词 机器翻译质量估计 句子级别 词向量 递归神经网络语言模型 支持向量回归
在线阅读 下载PDF
基于双记忆注意力的方面级别情感分类模型 被引量:46
6
作者 曾义夫 蓝天 +1 位作者 吴祖峰 刘峤 《计算机学报》 EI CSCD 北大核心 2019年第8期1845-1857,共13页
方面级别情感分类的研究目标是针对给定语句所描述对象的特定方面,分析该语句所表达出的情感极性.现有的解决方案中,基于注意力机制的循环神经网络模型和多层模型性能表现较好,二者都借助了深度网络和外部记忆做注意力调优,但实验结果... 方面级别情感分类的研究目标是针对给定语句所描述对象的特定方面,分析该语句所表达出的情感极性.现有的解决方案中,基于注意力机制的循环神经网络模型和多层模型性能表现较好,二者都借助了深度网络和外部记忆做注意力调优,但实验结果表明这些模型在处理复杂语句时的性能不够理想.本文提出一种基于双记忆注意力机制的方面级别情感分类模型,基本设计思想是借助循环神经网络的序列学习能力得到语句编码,并构造相应的注意力机制从语句编码中提取出关于给定方面词的情感表达.为此,构造了两个外部记忆:陈述性记忆和程序性记忆,分别用于捕获语句中与给定方面词相关的词级别和短语级别信息,并设计了一个分段解码器,用于从相关记忆中选择并提取情感语义信息.为验证模型的有效性,在三个基准数据集上进行了测试,包括SemEval 2014的Laptop和Restaurant数据集和一组常用的Twitter数据集,实验结果表明,本文提出的模型在分类准确率和泛化能力上的表现优于相关工作.此外,还设计了专门实验以验证本文提出的方面级别注意力机制和情感语义提取机制的有效性,为进一步研究方面级别情感语义抽取问题提供了新的思路和实验证据. 展开更多
关键词 方面级别情感分类 情感分析 注意力机制 记忆 神经语言模型
在线阅读 下载PDF
基于跨语言语料的汉泰词分布表示 被引量:2
7
作者 张金鹏 周兰江 +2 位作者 线岩团 余正涛 何思兰 《计算机工程与科学》 CSCD 北大核心 2015年第12期2358-2365,共8页
词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习... 词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。 展开更多
关键词 弱监督学习扩展 语言语料 语言词汇分布表示 神经概率语言模型
在线阅读 下载PDF
基于深层结构模型的新词发现与情感倾向判定 被引量:1
8
作者 孙晓 孙重远 任福继 《计算机科学》 CSCD 北大核心 2015年第9期208-213,共6页
随着社交网络的发展,新的词汇不断出现。新词的出现往往表征了一定的社会热点,同时也代表了一定的公众情绪,新词的识别与情感倾向判定为公众情绪预测提供了一种新的思路。通过构建深层条件随机场模型进行序列标记,引入词性、单字位置和... 随着社交网络的发展,新的词汇不断出现。新词的出现往往表征了一定的社会热点,同时也代表了一定的公众情绪,新词的识别与情感倾向判定为公众情绪预测提供了一种新的思路。通过构建深层条件随机场模型进行序列标记,引入词性、单字位置和构词能力等特征,结合众包网络词典等第三方词典。传统的基于情感词典的方法难以对新词情感进行判定,基于神经网络的语言模型将单词表示为一个K维的词义向量,通过寻找新词词义向量空间中距离该新词最近的词,根据这些词的情感倾向以及与新词的词义距离,判断新词的情感倾向。通过在北京大学语料上的新词发现和情感倾向判定实验,验证了所提模型及方法的有效性,其中新词判断的F值为0.991,情感识别准确率为70%。 展开更多
关键词 新词发现 条件随机场 深层结构模型 情感倾向判定 神经网络语言模型
在线阅读 下载PDF
使用语义解析构建面向分布式SCADA系统的自然语言接口 被引量:1
9
作者 王涛 郭武士 +1 位作者 邓健 陈亮 《计算机科学》 CSCD 北大核心 2023年第S01期74-82,共9页
受限于传统的程式固定的视窗界面人机交互方式,大型分布式工业过程SCADA系统主要运营于中控机房,配置专业人员维持运行,系统建设和运营维护成本很高,因此探索人机自然交互接口,引导系统自适应服务意义重大。以一种面向多种专业领域的分... 受限于传统的程式固定的视窗界面人机交互方式,大型分布式工业过程SCADA系统主要运营于中控机房,配置专业人员维持运行,系统建设和运营维护成本很高,因此探索人机自然交互接口,引导系统自适应服务意义重大。以一种面向多种专业领域的分布式SCADA系统为背景,从实际运营的角度分析人机自然交互的核心需求。按照自然语言指令的复杂程度,推荐不同的语义解析算法。首先对指令采取词性标注,确定指令是否包含子指令。对于基本自然语言指令,采用TF-IDF关键词提取算法并结合余弦相似度进行结构化抽取,将其解析为SCADA操控中间语言后经形式化转换为实际操控指令。对于复杂自然语言指令,采用基于依存句法分析的结构化指令解析算法,实现实时操控接口。实验结果表明,所提出的自然语言接口能较好地解决SCADA系统的人机自然语言交互问题,指令解析方面的平均精确率、召回率以及F值分别达到了89.27%,89.28%以及89.27%,平均响应时间为1.593s,特别是为工农业信息化管控提供了更为便捷的交互手段。 展开更多
关键词 自然语言接口 神经网络语言模型 依存句法分析 SCADA系统 语义解析
在线阅读 下载PDF
基于话题翻译模型的双语文本纠错 被引量:1
10
作者 陈欢 张奇 《计算机应用与软件》 CSCD 2016年第3期284-287,共4页
近年来,随着信息全球化的影响,社交网络文本上的多语言混合现象越来越普遍。许多中文文本中混杂着其他语言的情况已很常见。绝大多数现有的自然语言处理算法都是基于单一语言的,并不能很好地处理多语言混合的文本,因此在进行其他自然语... 近年来,随着信息全球化的影响,社交网络文本上的多语言混合现象越来越普遍。许多中文文本中混杂着其他语言的情况已很常见。绝大多数现有的自然语言处理算法都是基于单一语言的,并不能很好地处理多语言混合的文本,因此在进行其他自然语言处理任务之前对文本进行预处理显得尤为重要。面对网络文本语义空间双语对齐语料的匮乏,提出一种基于话题翻译模型的方法,利用不同语义空间的语料计算网络文本语义空间的双语对齐概率,再结合神经网络语言模型将网络混合文本中的英文翻译成对应中文。实验在人工标注的测试语料上进行,实验结果表明,通过不同的对比试验证明文中的方法是有效的,能提升翻译正确率。 展开更多
关键词 网络文本 话题翻译模型 神经网络语言模型
在线阅读 下载PDF
基于深度学习的查询建议综述
11
作者 田萱 徐泽洲 王子涵 《计算机研究与发展》 EI CSCD 北大核心 2024年第12期3168-3187,共20页
查询建议是当今搜索引擎必不可少的一个组成部分,它可以在用户输入完整查询前提供查询候选项,帮助用户更准确、更快速地表达信息需求.深度学习技术有助于提升查询建议的准确度,成为近年来推动查询建议发展的主流技术.主要对基于深度学... 查询建议是当今搜索引擎必不可少的一个组成部分,它可以在用户输入完整查询前提供查询候选项,帮助用户更准确、更快速地表达信息需求.深度学习技术有助于提升查询建议的准确度,成为近年来推动查询建议发展的主流技术.主要对基于深度学习的查询建议研究现状进行归纳整理与分析对比,根据深度学习应用阶段不同,把其分为生成式查询建议与排名式查询建议2类,分析其中每种模型的建模思路和处理特征.此外还介绍了查询建议领域常用的数据集、基线方法与评价指标,并对比其中不同模型的技术特点与实验结果.最后总结了基于深度学习的查询建议研究目前面临的挑战与未来发展趋势. 展开更多
关键词 查询建议 深度学习 查询自动补全 编码器-解码器 神经语言模型
在线阅读 下载PDF
Tomato Growth Height Prediction Method by Phenotypic Feature Extraction Using Multi-modal Data
12
作者 GONG Yu WANG Ling +3 位作者 ZHAO Rongqiang YOU Haibo ZHOU Mo LIU Jie 《智慧农业(中英文)》 2025年第1期97-110,共14页
[Objective]Accurate prediction of tomato growth height is crucial for optimizing production environments in smart farming.However,current prediction methods predominantly rely on empirical,mechanistic,or learning-base... [Objective]Accurate prediction of tomato growth height is crucial for optimizing production environments in smart farming.However,current prediction methods predominantly rely on empirical,mechanistic,or learning-based models that utilize either images data or environmental data.These methods fail to fully leverage multi-modal data to capture the diverse aspects of plant growth comprehensively.[Methods]To address this limitation,a two-stage phenotypic feature extraction(PFE)model based on deep learning algorithm of recurrent neural network(RNN)and long short-term memory(LSTM)was developed.The model integrated environment and plant information to provide a holistic understanding of the growth process,emploied phenotypic and temporal feature extractors to comprehensively capture both types of features,enabled a deeper understanding of the interaction between tomato plants and their environment,ultimately leading to highly accurate predictions of growth height.[Results and Discussions]The experimental results showed the model's ef‐fectiveness:When predicting the next two days based on the past five days,the PFE-based RNN and LSTM models achieved mean absolute percentage error(MAPE)of 0.81%and 0.40%,respectively,which were significantly lower than the 8.00%MAPE of the large language model(LLM)and 6.72%MAPE of the Transformer-based model.In longer-term predictions,the 10-day prediction for 4 days ahead and the 30-day prediction for 12 days ahead,the PFE-RNN model continued to outperform the other two baseline models,with MAPE of 2.66%and 14.05%,respectively.[Conclusions]The proposed method,which leverages phenotypic-temporal collaboration,shows great potential for intelligent,data-driven management of tomato cultivation,making it a promising approach for enhancing the efficiency and precision of smart tomato planting management. 展开更多
关键词 tomato growth prediction deep learning phenotypic feature extraction multi-modal data recurrent neural net‐work long short-term memory large language model
在线阅读 下载PDF
基于Word2Vec的情感词典自动构建与优化 被引量:43
13
作者 杨小平 张中夏 +4 位作者 王良 张永俊 马奇凤 吴佳楠 张悦 《计算机科学》 CSCD 北大核心 2017年第1期42-47,74,共7页
情感词典的构建是文本挖掘领域中重要的基础性工作。近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显。但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关... 情感词典的构建是文本挖掘领域中重要的基础性工作。近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显。但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关注也大大限制了情感词典的适用性[1]。通过神经网络语言模型对大规模中文语料进行统计训练,并在此基础上提出了基于转换约束集的多维情感词典自动构建方法;然后研究了基于词分布密度的感情色彩消歧方法,对兼具褒贬意味词语的感情极性进行区分和识别,并分别计算两种感情色彩下的情感类别与强度;最后提出基于多个语义资源的全局优化方案,得到包含10种情绪标注的多维汉语情感词典SentiRuc。实验证实该词典1)在类别标注检验、强度标注检验、情感消歧效果及情感分类任务中均具有良好的效果,其中的情感强度检验证实该词典具有极强的情感语义描述力。 展开更多
关键词 情感分析 多元情感分类 神经网络语言模型 情感消歧 情感强度优化框架
在线阅读 下载PDF
借重于人工知识库的词和义项的向量表示:以HowNet为例 被引量:13
14
作者 孙茂松 陈新雄 《中文信息学报》 CSCD 北大核心 2016年第6期1-6,14,共7页
该文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个问题:一是低频词的词向量质量难以保证;二是多义词的义项向量无... 该文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个问题:一是低频词的词向量质量难以保证;二是多义词的义项向量无法获得。该文提出了融合HowNet和大规模语料库的义原向量学习神经网络模型,并以义原向量为桥梁,自动得到义项向量及完善词向量。初步的实验结果表明该模型能有效提升在词相似度和词义消歧任务上的性能,有助于低频词和多义词的处理。作者指出,借重于人工知识库的神经网络语言模型应该成为今后一段时期自然语言处理的研究重点之一。 展开更多
关键词 词向量 义项向量 义原向量 HOWNET 神经网络语言模型
在线阅读 下载PDF
基于依存句法分析的病理报告结构化处理方法 被引量:10
15
作者 田驰远 陈德华 +1 位作者 王梅 乐嘉锦 《计算机研究与发展》 EI CSCD 北大核心 2016年第12期2669-2680,共12页
病理检查报告中的文本通常为非结构化数据,不利于计算机自动分析和处理.目前文本结构化主要采用信息关系抽取方法,然而病理检查报告所具有的语义特殊性,给中文信息关系抽取带来了挑战.为解决上述问题,设计了一种针对病理检查报告的结构... 病理检查报告中的文本通常为非结构化数据,不利于计算机自动分析和处理.目前文本结构化主要采用信息关系抽取方法,然而病理检查报告所具有的语义特殊性,给中文信息关系抽取带来了挑战.为解决上述问题,设计了一种针对病理检查报告的结构化方法,首先通过神经网络语言模型获得病理报告中的同义词表,合并一义多词现象;在此基础上,生成病理检查报告文本的依存关系树,并提出切分短句和信息标注的剪裁策略,以简化初始生成的依存关系树结构,从而使语法关系更加清晰,提高结构化结果的准确度;进而,利用依存句法分析结果从中文检查报告中提取指标及对应指标值,并自动生成结构化模板.实验采用医生真实使用的医疗病理检查报告进行验证,其结果表明:该方法在指标词和对应指标值提取任务中的准确率可以分别达到82.91%和79.11%,为相关研究打下了基础. 展开更多
关键词 医疗数据 病理报告 依存句法分析 文本结构化处理 神经网络语言模型
在线阅读 下载PDF
基于深度信念网络的命名实体识别 被引量:14
16
作者 冯蕴天 张宏军 +1 位作者 郝文宁 陈刚 《计算机科学》 CSCD 北大核心 2016年第4期224-230,共7页
传统的命名实体识别方法是将大量手工制定的特征输入到统计学习模型中以实现对词语的标记,能够取得较好的效果,但其手工特征制定的方式增加了模型建立的难度。为了减轻传统方法中手工特征制定的工作量,首先对神经网络语言模型进行无监... 传统的命名实体识别方法是将大量手工制定的特征输入到统计学习模型中以实现对词语的标记,能够取得较好的效果,但其手工特征制定的方式增加了模型建立的难度。为了减轻传统方法中手工特征制定的工作量,首先对神经网络语言模型进行无监督训练以得到词语特征的分布式表示,然后将分布式的特征输入到深度信念网络中以发现词语的深层特征,最后进行命名实体识别。该方法在前人研究的基础上利用深度信念网络对神经网络语言模型进行了扩展,提出了一种可用于命名实体识别的深层架构。实验表明,在仅使用词特征和词性特征的条件下,该方法用于命名实体识别的性能略优于基于条件随机场模型的方法,具有一定的使用价值。 展开更多
关键词 深度信念网络 命名实体识别 神经网络语言模型
在线阅读 下载PDF
基于知网相关概念场的中文词向量 被引量:2
17
作者 冯煜博 蔡东风 宋彦 《中文信息学报》 CSCD 北大核心 2020年第3期13-22,共10页
词向量是词的低维稠密实数向量表示,在自然语言处理的各项任务中都扮演了重要角色。目前词向量大多都是通过构造神经网络模型,在大规模语料库上以无监督学习的方式训练得到,这样的模型存在着两个问题:一是低频词词向量的语义表示质量较... 词向量是词的低维稠密实数向量表示,在自然语言处理的各项任务中都扮演了重要角色。目前词向量大多都是通过构造神经网络模型,在大规模语料库上以无监督学习的方式训练得到,这样的模型存在着两个问题:一是低频词词向量的语义表示质量较差;二是忽视了知识库可以对该模型提供的帮助。该文提出了利用知网相关概念场来提升词向量语义表示质量的模型。实验结果表明,在词语相似度任务、词语相关度任务和词语类比任务上,该模型使得斯皮尔曼相关性系数和准确率都得到了显著的提升。 展开更多
关键词 词向量 知网相关概念场 低频词 神经网络语言模型
在线阅读 下载PDF
基于词向量的产品评论有用度评估方法
18
作者 郑华飞 周向东 《计算机工程》 CAS CSCD 北大核心 2017年第4期188-193,共6页
产品评论的快速增长以及质量的参差不齐,使得消费者获得有用的产品评论变得困难。为此,提出一种新的产品评论有用度评估方法。引入词向量作为评论文本的深度特征表示,结合结构特征、情感特征、元数据特征等训练回归模型,自动地对评论进... 产品评论的快速增长以及质量的参差不齐,使得消费者获得有用的产品评论变得困难。为此,提出一种新的产品评论有用度评估方法。引入词向量作为评论文本的深度特征表示,结合结构特征、情感特征、元数据特征等训练回归模型,自动地对评论进行有用度评估并基于有用度对评论进行排序。在Amazon真实数据集上的实验结果表明,该方法在回归性能和排序性能上均优于UGR+LEN+STR方法和基准方法。另外通过挖掘特定领域的词向量特征,该向量模型在RMSE,NDCG等评价指标上可有效地改善评估效果。 展开更多
关键词 产品评论 词向量 有用度 深度学习 神经网络语言模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部