针对传统协同过滤(CF)存在的数据稀疏和冷启动的问题以及在矩阵分解方法生成结果矩阵的过程中由于各种变换产生误差的问题,提出一种混合信息增强的低秩稀疏矩阵分解(LSMF)论文推荐方法。首先,利用预训练的文档级表示学习和引文感知转换...针对传统协同过滤(CF)存在的数据稀疏和冷启动的问题以及在矩阵分解方法生成结果矩阵的过程中由于各种变换产生误差的问题,提出一种混合信息增强的低秩稀疏矩阵分解(LSMF)论文推荐方法。首先,利用预训练的文档级表示学习和引文感知转换器SPECTER(Scientific Paper Embeddings using Citation-informed TransformERs)学习论文的表示,计算并构造文章之间的相似度矩阵,将相似度矩阵与引文矩阵相加得到一个混合信息矩阵;其次,通过矩阵乘法将内容相似信息与引用信息融入到论文-作者矩阵中;最后,利用LSMF模型分解论文-作者矩阵以得到推荐列表。在ACL文集网络(AAN)和DBLP数据集上的实验结果表明,所提方法取得了较好的推荐性能,且所提方法引入内容信息与引用信息的方式同样适用于其他矩阵分解模型。对于非负矩阵分解(NMF)、奇异值分解(SVD)、低秩稀疏矩阵补全(LSMC)和去分解(GoDec),利用混合信息后的模型比未利用混合信息的原模型在2个数据集上的前30个推荐结果的召回率(R@30)分别提升了18.72、7.43、11.53、14.62和20.58、2.11、7.91、5.01个百分点。展开更多
为了减轻地质灾害对人类生产、生活的影响,通过易发性评价对地质灾害易发区进行划分,对于地质灾害防治具有重要意义。以雅砻江中上游新龙段为研究区,初选坡度、坡向、起伏度、坡形、工程岩组、降雨、与水系距离、与道路距离和与断层距...为了减轻地质灾害对人类生产、生活的影响,通过易发性评价对地质灾害易发区进行划分,对于地质灾害防治具有重要意义。以雅砻江中上游新龙段为研究区,初选坡度、坡向、起伏度、坡形、工程岩组、降雨、与水系距离、与道路距离和与断层距离为评价因子。以236处地质灾害隐患点为依据,运用确定系数法计算各评价因子分级的确定性系数(CF),将CF值带入逻辑回归模型(Logistic),剔除未通过显著性检验的评价因子,建立了CF-Logistic模型。通过ArcGIS空间分析平台,对研究区进行了地质灾害易发性评价,并将单一的CF模型作对比,运用ROC曲线检验模型精度。结果表明:极高易发区最主要分布在贯通南北的G227线两侧,该处同时也是雅砻江主干两岸,面积为245.53 km 2,占比2.69%;高易发区主要分布在中部断层周围,面积573.48 km 2,占比6.28%;中、低、极低易发区面积分别为1518.54,4245.11,2553.05 km 2。模型精度结果显示:CF-Logistic模型(0.889)优于单一的CF模型(0.878),可以更加精确地划分研究区易发性分区。展开更多
[目的]以山西省吕梁市吕梁山区的离石、石楼、柳林三区(县)为例研究高精度地质灾害易发性评价模型,为该地区区域规划提供辅助决策支持。[方法]基于地理信息系统,以区域内525个历史灾害点及500个非灾害点为样本,选取19个地灾影响因素,应...[目的]以山西省吕梁市吕梁山区的离石、石楼、柳林三区(县)为例研究高精度地质灾害易发性评价模型,为该地区区域规划提供辅助决策支持。[方法]基于地理信息系统,以区域内525个历史灾害点及500个非灾害点为样本,选取19个地灾影响因素,应用地理探测器(geographic detectors,GD)判断各因素的相对重要性,在JupyterNotebook平台展开相关性检验并筛选指标因子,以信息量模型(information method,IM)为基础,利用灾害点计算其所提供的信息量的同时结合非灾害点提供信息量得到指标因子改进信息量模型(improved information method,IIM),并借助地理探测器空间分异性q值计算权重。利用综合确定性系数法(certainty factor,CF)分别建立GD-IIM,GD-IM,GD-CF,IM,CF,IIM共6大评价体系,采用自然断点分类法将研究区易发性依次划分为5,4,3个等级,以种子细胞面积指数(seed cell area index,SCAI)验证其分区结果准确性,采用ROC曲线对比模型结果精确度。[结果]经SCAI检验将各模型分为极低、低、高、极高4个等级,满足合理性要求,GD-IIM模型的灾易发性评价成功率、预测率分别为90.5%,85.5%,精度较高。[结论]双变量统计方法耦合地理探测器在构建研究区的易发性评价预测模型中表现出较为准确的结果。考虑非灾害点信息量进行模型构建比IM单一考虑灾害点信息量模型精度有所提升,适宜研究区的模型构建。展开更多
文摘构建准确的滑坡预测模型和确定环境因子的贡献程度,对滑坡易发性评价具有重要意义。在以往研究中,最大熵物种分布(maximum entropy model,MaxEnt)模型因其对样本量要求低、预测精度高和可避免模型过度拟合等优点,被广泛运用在生态学领域。以沅陵县为研究区,基于342处滑坡灾害点数据和9个环境变量,分别采用确定性系数(certainty factor,CF)模型、逻辑回归(Logistic)模型和MaxEnt模型对沅陵县进行滑坡易发性分区预测。同时采用刀切法(Jackknife)检验环境因子对预测结果的贡献程度,确定滑坡地质灾害的主要影响因素。结果表明:确定性系数模型、逻辑回归模型和MaxEnt模型的受试者特征曲线(receiver operating characteristic,ROC)下面积(area under the curve,AUC)值分别为0.827、0.803、0.911,3种模型的预测精度均较高,且MaxEnt模型精度最高,表现较好;河流是影响研究区滑坡灾害发生贡献程度最高的环境因子;滑坡灾害主要发育在以河流为中心向外延伸100 m范围内,集中分布在沅江、深溪和兰溪附近。研究能为沅陵县地质灾害易发性评价提供一种新的方法。
文摘针对传统协同过滤(CF)存在的数据稀疏和冷启动的问题以及在矩阵分解方法生成结果矩阵的过程中由于各种变换产生误差的问题,提出一种混合信息增强的低秩稀疏矩阵分解(LSMF)论文推荐方法。首先,利用预训练的文档级表示学习和引文感知转换器SPECTER(Scientific Paper Embeddings using Citation-informed TransformERs)学习论文的表示,计算并构造文章之间的相似度矩阵,将相似度矩阵与引文矩阵相加得到一个混合信息矩阵;其次,通过矩阵乘法将内容相似信息与引用信息融入到论文-作者矩阵中;最后,利用LSMF模型分解论文-作者矩阵以得到推荐列表。在ACL文集网络(AAN)和DBLP数据集上的实验结果表明,所提方法取得了较好的推荐性能,且所提方法引入内容信息与引用信息的方式同样适用于其他矩阵分解模型。对于非负矩阵分解(NMF)、奇异值分解(SVD)、低秩稀疏矩阵补全(LSMC)和去分解(GoDec),利用混合信息后的模型比未利用混合信息的原模型在2个数据集上的前30个推荐结果的召回率(R@30)分别提升了18.72、7.43、11.53、14.62和20.58、2.11、7.91、5.01个百分点。
文摘为了减轻地质灾害对人类生产、生活的影响,通过易发性评价对地质灾害易发区进行划分,对于地质灾害防治具有重要意义。以雅砻江中上游新龙段为研究区,初选坡度、坡向、起伏度、坡形、工程岩组、降雨、与水系距离、与道路距离和与断层距离为评价因子。以236处地质灾害隐患点为依据,运用确定系数法计算各评价因子分级的确定性系数(CF),将CF值带入逻辑回归模型(Logistic),剔除未通过显著性检验的评价因子,建立了CF-Logistic模型。通过ArcGIS空间分析平台,对研究区进行了地质灾害易发性评价,并将单一的CF模型作对比,运用ROC曲线检验模型精度。结果表明:极高易发区最主要分布在贯通南北的G227线两侧,该处同时也是雅砻江主干两岸,面积为245.53 km 2,占比2.69%;高易发区主要分布在中部断层周围,面积573.48 km 2,占比6.28%;中、低、极低易发区面积分别为1518.54,4245.11,2553.05 km 2。模型精度结果显示:CF-Logistic模型(0.889)优于单一的CF模型(0.878),可以更加精确地划分研究区易发性分区。
文摘[目的]以山西省吕梁市吕梁山区的离石、石楼、柳林三区(县)为例研究高精度地质灾害易发性评价模型,为该地区区域规划提供辅助决策支持。[方法]基于地理信息系统,以区域内525个历史灾害点及500个非灾害点为样本,选取19个地灾影响因素,应用地理探测器(geographic detectors,GD)判断各因素的相对重要性,在JupyterNotebook平台展开相关性检验并筛选指标因子,以信息量模型(information method,IM)为基础,利用灾害点计算其所提供的信息量的同时结合非灾害点提供信息量得到指标因子改进信息量模型(improved information method,IIM),并借助地理探测器空间分异性q值计算权重。利用综合确定性系数法(certainty factor,CF)分别建立GD-IIM,GD-IM,GD-CF,IM,CF,IIM共6大评价体系,采用自然断点分类法将研究区易发性依次划分为5,4,3个等级,以种子细胞面积指数(seed cell area index,SCAI)验证其分区结果准确性,采用ROC曲线对比模型结果精确度。[结果]经SCAI检验将各模型分为极低、低、高、极高4个等级,满足合理性要求,GD-IIM模型的灾易发性评价成功率、预测率分别为90.5%,85.5%,精度较高。[结论]双变量统计方法耦合地理探测器在构建研究区的易发性评价预测模型中表现出较为准确的结果。考虑非灾害点信息量进行模型构建比IM单一考虑灾害点信息量模型精度有所提升,适宜研究区的模型构建。