期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
一种PST_LDA中文文本相似度计算方法 被引量:18
1
作者 张超 陈利 李琼 《计算机应用研究》 CSCD 北大核心 2016年第2期375-377,383,共4页
为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LD... 为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集分别用LDA和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。 展开更多
关键词 词性标注 LDA模型 PST_LDA模型 文本相似度计算
在线阅读 下载PDF
湖泊岸边移动物体的定位技术研究 被引量:1
2
作者 王维虎 刘延申 《华中师范大学学报(自然科学版)》 CAS 北大核心 2014年第4期516-519,共4页
目前,湖泊污染已经成为中国各个城市迫切解决的问题,其中湖泊的监管至关重要,关键是要及时确定事件发生的位置,即定位问题,来进行预防与治理.本文提出了一种基于物联网的湖泊污染预防的技术,首先介绍蓝牙Bluetooth技术中的接收信号强度... 目前,湖泊污染已经成为中国各个城市迫切解决的问题,其中湖泊的监管至关重要,关键是要及时确定事件发生的位置,即定位问题,来进行预防与治理.本文提出了一种基于物联网的湖泊污染预防的技术,首先介绍蓝牙Bluetooth技术中的接收信号强度指示(RSSI)测距法基本原理;然后运用德州仪器(TI)公司的CC2540芯片做仿真实验,建立湖泊岸边移动物体的距离与RSSI值相关的数学模型,据此来设计其定位算法,对湖泊岸边的移动物体进行定位监控,能够在一定程度上对湖泊起到保护作用. 展开更多
关键词 湖泊污染 蓝牙 定位
在线阅读 下载PDF
自适应进化模型下的土壤重金属含量预测 被引量:1
3
作者 李亮亮 张聪 +1 位作者 曹坤 黎帅锋 《湖南农业大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期120-126,共7页
针对Elman神经网络在土壤重金属含量预测时出现预测精度低、模型收敛速度慢等问题,提出一种自适应进化模型(AEM)。该模型以Elman神经网络为基础,运用贝叶斯正则化优化Elman神经网络的目标函数,提高网络模型预测精度;为解决网络模型收敛... 针对Elman神经网络在土壤重金属含量预测时出现预测精度低、模型收敛速度慢等问题,提出一种自适应进化模型(AEM)。该模型以Elman神经网络为基础,运用贝叶斯正则化优化Elman神经网络的目标函数,提高网络模型预测精度;为解决网络模型收敛速度慢和易陷入局部极值等缺陷,采用自适应灰狼算法(AGWA)对网络模型初始参数进行优化;采用基于熵权距离的离群点检测法剔除数据中的离群点,以降低离群点对预测结果的干扰。以武汉市农业科学院采集的农田土壤重金属含量数据进行预测试验,AEM模型预测重金属含量的平均绝对误差和平均绝对百分比误差分别为1.623和17.48%,其决定系数比Elman的提高了0.394。AEM、自调整反距离加权插值模型(SIDIM)、小波神经网络模型(CBSA-WNN)、双向门控循环神经网络模型(SBGRNN)及Elman神经网络模型等5种不同预测模型进行对比试验表明,AEM模型在土壤重金属含量预测上具有更高的准确性。消融试验结果表明,贝叶斯正则化优化、自适应灰狼算法优化和基于熵权距离的离群点检测的离群点数据剔除等3个改进点对于提升土壤重金属含量预测精度均有一定的贡献。 展开更多
关键词 土壤重金属 自适应进化模型 灰狼算法 ELMAN神经网络 数据预测
在线阅读 下载PDF
深度学习在农作物病虫害识别领域的应用 被引量:2
4
作者 何前 《中南农业科技》 2024年第7期120-122,共3页
准确快速地识别和分类农作物的病虫害问题,是保障农作物正常生长、结果的重要前提,既可以及时对农作物生长过程中出现的病虫害问题进行有效治疗,也可以减少一定的经济损失。通过对深度学习的定义进行阐述,介绍了深度学习在农作物病虫害... 准确快速地识别和分类农作物的病虫害问题,是保障农作物正常生长、结果的重要前提,既可以及时对农作物生长过程中出现的病虫害问题进行有效治疗,也可以减少一定的经济损失。通过对深度学习的定义进行阐述,介绍了深度学习在农作物病虫害识别领域的相关研究,对深度学习在农作物病虫害识别领域的应用前景进行了展望,以期推动机器学习在农作物病虫害防治的应用,更好地帮助种植人员取得更好的农作物收获和经济效益收获。 展开更多
关键词 深度学习 机器学习 农作物 病虫害领域 应用
在线阅读 下载PDF
Web大数据环境下的不一致跨源数据发现 被引量:24
5
作者 余伟 李石君 +4 位作者 杨莎 胡亚慧 刘晶 丁永刚 王骞 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期295-308,共14页
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源We... Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性. 展开更多
关键词 Web大数据 WEB数据挖掘 数据一致性 Web数据管理 数据质量评估 跨源数据分析
在线阅读 下载PDF
一种新的用于跨领域推荐的迁移学习模型 被引量:26
6
作者 王俊 李石君 +2 位作者 杨莎 金红 余伟 《计算机学报》 EI CSCD 北大核心 2017年第10期2367-2380,共14页
协同过滤是一种简单常用的推荐方法,但是当目标数据非常稀疏时,其性能会严重退化,借助与目标数据跨域关联的辅助数据进行跨领域推荐是解决此问题的一种有效途径.已有的跨领域推荐模型大多假设不同领域完全共享一个评分模式,忽略了领域... 协同过滤是一种简单常用的推荐方法,但是当目标数据非常稀疏时,其性能会严重退化,借助与目标数据跨域关联的辅助数据进行跨领域推荐是解决此问题的一种有效途径.已有的跨领域推荐模型大多假设不同领域完全共享一个评分模式,忽略了领域特有评分模式,可能导致推荐性能退化.此外,许多模型基于单一桥梁迁移跨领域信息,正迁移不足.特别是在考虑领域特有被评分模式的前提下,据作者所知目前还没有模型利用项目的共享被评分模式进行跨领域推荐.因此,该文提出一种新的三元桥迁移学习模型,用于跨领域推荐.首先通过评分矩阵的集合分解提取用户的潜在因子和共享评分模式,以及项目的潜在因子和共享被评分模式,在此过程中考虑了领域特有模式,并对潜在因子施加相似性约束;然后利用潜在因子中的聚类信息构造邻接图;最后通过用户端和项目端的基于共享模式、潜在因子和邻接图的三元桥迁移学习联合预测缺失评分.在三个公开的真实数据集上进行的大量实验表明,该模型的推荐精度优于一些目前最先进的推荐模型. 展开更多
关键词 迁移学习 推荐 协同过滤 跨领域 稀疏 矩阵分解
在线阅读 下载PDF
基于UTAUT的移动图书馆用户行为模型及实证研究 被引量:30
7
作者 明均仁 张俊 +1 位作者 杨艳妮 陈康丽 《图书馆论坛》 CSSCI 北大核心 2017年第6期70-77,共8页
文章基于技术接受和利用整合模型理论(UTAUT),结合移动图书馆的特点,引入绩效期望、努力期望、感知趣味性、感知风险、信息质量、服务质量、社会影响和促成因素等8个变量,构建基于UTAUT的高校学生使用移动图书馆的技术采纳模型;利用问... 文章基于技术接受和利用整合模型理论(UTAUT),结合移动图书馆的特点,引入绩效期望、努力期望、感知趣味性、感知风险、信息质量、服务质量、社会影响和促成因素等8个变量,构建基于UTAUT的高校学生使用移动图书馆的技术采纳模型;利用问卷调查获得244份样本数据,并进行实证分析。研究发现:绩效期望、感知趣味性、信息质量、促成因素和社会影响正向影响学生使用移动图书馆的行为意愿文章从上述5个方面提出发展策略。 展开更多
关键词 移动服务 移动图书馆 用户行为 UTAUT 行为意愿
在线阅读 下载PDF
大数据环境下的电子商务商品实体同一性识别 被引量:11
8
作者 胡亚慧 李石君 +4 位作者 余伟 杨莎 甘琳 王凯 方其庆 《计算机研究与发展》 EI CSCD 北大核心 2015年第8期1794-1805,共12页
怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、... 怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性. 展开更多
关键词 Web大数据 电子商务 层次概率模型 商品 HADOOP
在线阅读 下载PDF
基于Web大数据挖掘的证券价格波动实时影响研究 被引量:8
9
作者 杨莎 余伟 +2 位作者 李石君 曹晶晶 刘晶 《计算机科学》 CSCD 北大核心 2015年第4期166-171,共6页
随着Web大数据的发展,互联网中海量、快捷的信息为证券市场变化预测提供了丰富的数据支撑,如何利用大数据分析技术进行实时可靠的证券市场价格变化预测成为重要的科学问题。从证券市场价格变化的核心价值问题研究出发,分析了股票价值所... 随着Web大数据的发展,互联网中海量、快捷的信息为证券市场变化预测提供了丰富的数据支撑,如何利用大数据分析技术进行实时可靠的证券市场价格变化预测成为重要的科学问题。从证券市场价格变化的核心价值问题研究出发,分析了股票价值所反映的基本面要求,建立了影响股票价值内涵和价格表现的10项准确可度量的特征因素:经济周期、财政政策、利率变动、汇率变动、物价变动、通货膨胀、政治政策、行业变化、经营状况、上下游影响等。在此基础上,构造互联网中信息内容与各个特征因素的提取方法、变化关系和影响模型,提出了针对大盘、行业、个股的互联网信息指标来反映Web数据对其的支撑程度,最终实现了基于Web大数据的综合特征因素度量来预测证券市场的方法。实验表明,该方法具有良好的可行性,将带来明显的学术和商业价值。 展开更多
关键词 数据挖掘 股票价格预测 Web大数据
在线阅读 下载PDF
一种大数据环境下的在线社交媒体位置推断方法 被引量:5
10
作者 王凯 余伟 +3 位作者 杨莎 吴敏 胡亚慧 李石君 《软件学报》 EI CSCD 北大核心 2015年第11期2951-2963,共13页
随着在线社交媒体的快速发展和可定位设备的大量普及,地理位置作为社交媒体大数据中一种质量极高的信息资源,开始在疾病控制、人口流动性分析和广告精准投放等方面得到广泛应用.但是,由于大量用户没有指定或者不能准确指定位置,社交媒... 随着在线社交媒体的快速发展和可定位设备的大量普及,地理位置作为社交媒体大数据中一种质量极高的信息资源,开始在疾病控制、人口流动性分析和广告精准投放等方面得到广泛应用.但是,由于大量用户没有指定或者不能准确指定位置,社交媒体上的地理位置数据十分稀疏.针对此数据稀疏性问题,提出一种基于用户生成内容的位置推断方法 UGC-LI(user generate content driven location inference method),实现对社交媒体用户和生成文本位置的推断,为基于位置的个性化信息服务提供数据支撑.通过抽取用户生成文本中的本地词语,构建一个基于词汇地理分布差异和用户社交图谱的概率模型,在多层次的地理范围内推断用户位置.同时,提出一个基于位置的参数化语言模型,计算用户生成文本发出的城市.在真实数据集上进行的评估实验表明:UGC-LI方法能够在15km偏移距离准确定位64.2%的用户,对用户所在城市的推断准确率达到81.3%;同时,可正确定位32.7%的用户生成文本发出的城市,与现有方法相比有明显的提高. 展开更多
关键词 位置推断 用户生成内容 数据稀疏性 在线社交媒体 社交图谱
在线阅读 下载PDF
基于邻居选取策略的人群定向算法 被引量:3
11
作者 周孟 朱福喜 《计算机研究与发展》 EI CSCD 北大核心 2017年第7期1465-1476,共12页
人群定向是广告推荐系统中的一种重要技术,它是通过分析种子人群的行为数据,找出潜在的目标人群,而现有人群定向算法大多依赖于传统的协同过滤推荐算法.由于传统的协同过滤算法具有推荐精度低和抗攻击能力较弱的问题,为了解决这些问题,... 人群定向是广告推荐系统中的一种重要技术,它是通过分析种子人群的行为数据,找出潜在的目标人群,而现有人群定向算法大多依赖于传统的协同过滤推荐算法.由于传统的协同过滤算法具有推荐精度低和抗攻击能力较弱的问题,为了解决这些问题,提出了一种基于邻居选取策略的人群定向算法.1)通过用户行为相似,动态选择出与种子人群具有相似行为的用户;2)以用户特征和用户行为作为邻居选取的依据,通过用户相似度从行为相似人群中选择出每个种子用户的邻居,并将所有的相似邻居作为候选人群;3)通过基于邻居选取策略的人群定向算法,从候选人群中择出潜在的目标用户,以完成人群定向.实验结果表明:与现有方法相比,该方法不仅提高了人群定向的精度,而且也增强了系统的抗攻击能力. 展开更多
关键词 种子人群 行为相似人群 邻居选取策略 用户相似度 人群定向
在线阅读 下载PDF
URTP:一种基于用户-区域-时间-商品的因子分解推荐模型 被引量:1
12
作者 胡亚慧 杨莎 +4 位作者 刘晶 余伟 李石君 王俊 方其庆 《计算机科学》 CSCD 北大核心 2016年第9期107-110,130,共5页
如何从海量的数据中将不同的商品在恰当的时间、合理的位置推荐给适当的人(或人群)是当前面临的主要挑战。考虑到不同国家不同区域的人(或人群)在宗教信仰、职业、教育程度等方面有着不同的文化背景差异,以及大数据环境下商品推荐常常... 如何从海量的数据中将不同的商品在恰当的时间、合理的位置推荐给适当的人(或人群)是当前面临的主要挑战。考虑到不同国家不同区域的人(或人群)在宗教信仰、职业、教育程度等方面有着不同的文化背景差异,以及大数据环境下商品推荐常常面临数据稀疏和冷启动等问题,从签到数据中抽取出目标用户所在的地理位置,根据该位置的文化背景特点筛选出与目标用户有相似或相同的文化背景的人群;再根据每个商品适宜购买的最佳合理时间和间隔购买时间选出恰当的商品,运用因子分解机的思想建立用户-区域-时间-商品因子分解模型。大量真实数据集上的实验表明该模型能够在数据量大、高稀疏的数据环境下进行商品推荐,验证了该方法的可行性、有效性和高效性。 展开更多
关键词 商品推荐 文化 大数据
在线阅读 下载PDF
闭回路采样的网络结点特征学习方法
13
作者 刘世超 朱福喜 《小型微型计算机系统》 CSCD 北大核心 2017年第9期1940-1944,共5页
近年来,由于网络数据规模膨胀而导致传统的网络挖掘模型效率低下的现象,使得网络嵌入模型成为当前社会网络分析的热点.不同于以往模型的随机采样方式,本文考虑闭合回路机制对结点采样序列的影响,提出一种闭回路采样的网络嵌入模型,能够... 近年来,由于网络数据规模膨胀而导致传统的网络挖掘模型效率低下的现象,使得网络嵌入模型成为当前社会网络分析的热点.不同于以往模型的随机采样方式,本文考虑闭合回路机制对结点采样序列的影响,提出一种闭回路采样的网络嵌入模型,能够将大规模网络中结点的结构特征映射到连续的、低维度的向量空间.这样学习到的结点特征向量能够更好地反应网络的真实结构特性,并且可以很容易地应用到网络数据挖掘的分类、推荐和预测等任务.本文选取3个真实网络数据集进行多标签分类和聚类的实验,并与多个最新的基准方法对比,结果验证了该方法能够学习到更好的结点特征向量. 展开更多
关键词 网络嵌入 闭回路采样 特征学习
在线阅读 下载PDF
基于SkipGram模型的链路预测方法 被引量:6
14
作者 赵超 朱福喜 刘世超 《计算机应用与软件》 2017年第10期241-247,共7页
现有的基于节点相似性的链路预测算法,在提升预测准确度时往往无法兼顾计算复杂度。受自然语言概率图模型在词向量表征上的运用启发,提出一种基于SkipGram模型的链路预测方法。首先提出基于概率的随机游走方法,通过这种方法得到网络节... 现有的基于节点相似性的链路预测算法,在提升预测准确度时往往无法兼顾计算复杂度。受自然语言概率图模型在词向量表征上的运用启发,提出一种基于SkipGram模型的链路预测方法。首先提出基于概率的随机游走方法,通过这种方法得到网络节点的采样序列;然后结合SkipGram模型将网络节点映射到一个低维向量空间来降低复杂度;最终以向量间的距离作为衡量网络节点间相似性的指标,进而完成链路预测。通过在6个具有代表性的真实网络中进行实验和比较发现,提出的模型在预测准确度上得到大幅提高。 展开更多
关键词 链路预测 向量表征 SkipGram模型 节点相似性
在线阅读 下载PDF
基于Skip-gram模型的社区查询算法 被引量:3
15
作者 廖宇 朱福喜 刘世超 《计算机工程与应用》 CSCD 北大核心 2018年第8期143-148,共6页
社会网络的巨大规模和复杂结构使得探索整个网络的社区结构的代价变得高昂。因此,着眼于网络局部结构特征的社区查询有着重要的应用意义。常见的社区查询算法易将与查询无关的子结构合并到目标社区中。利用Skip-gram模型将序列化后的社... 社会网络的巨大规模和复杂结构使得探索整个网络的社区结构的代价变得高昂。因此,着眼于网络局部结构特征的社区查询有着重要的应用意义。常见的社区查询算法易将与查询无关的子结构合并到目标社区中。利用Skip-gram模型将序列化后的社会网络映射到连续的向量空间以求解节点之间的相似度,并结合节点的度这个属性特征修正了原有的社区尺度,以此作为标准进行节点聚类,从而得到查询节点所属的社区结构。经过在真实数据集上的实验,改进的社区查询算法的准确性和查询一致性较已有算法有了较大提高。 展开更多
关键词 社区查询 局部社区发现 Skip-gram模型 节点相似度
在线阅读 下载PDF
基于深度游走模型的标签传播社区发现算法
16
作者 冯曦 朱福喜 刘世超 《计算机工程》 CAS CSCD 北大核心 2018年第3期220-225,232,共7页
针对传统标签传播算法准确率较低的问题,提出一种基于深度游走模型的改进标签传播算法。以社会网络作为深度游走模型的输入,通过深度随机游走的方式对网络中的节点进行采样得到随机序列,并基于Skip Gram模型对其进行神经网络训练。运用... 针对传统标签传播算法准确率较低的问题,提出一种基于深度游走模型的改进标签传播算法。以社会网络作为深度游走模型的输入,通过深度随机游走的方式对网络中的节点进行采样得到随机序列,并基于Skip Gram模型对其进行神经网络训练。运用层次Softmax对Skip Gram模型进行求解,得到节点的特征向量后在邻居节点之间计算节点相似度,将其作为标签传播概率的权重进行标签的传播迭代,最终得到社区发现的结果。在6个真实网络数据集和合成数据集上进行实验,结果表明,与传统标签传播算法相比,该改进算法具有较高的准确率,尤其对于节点个数在100以上的真实网络,Q值提高10%以上。 展开更多
关键词 深度游走模型 随机序列 特征向量 SkipGram模型 节点相似度 传播迭代
在线阅读 下载PDF
结合半监督与主动学习的时间序列PU问题分类
17
作者 陈娟 朱福喜 《计算机工程与应用》 CSCD 北大核心 2018年第11期116-121,共6页
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标... 目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集U中数据进行人工标注从而构建分类器的方法 OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。 展开更多
关键词 时间序列 正例和无标记样本(PU)问题 分类 主动学习 半监督学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部