In this paper,large deviations principle(LDP)and moderate deviations principle(MDP)of record numbers in random walks are studied under certain conditions.The results show that the rate functions of LDP and MDP are dif...In this paper,large deviations principle(LDP)and moderate deviations principle(MDP)of record numbers in random walks are studied under certain conditions.The results show that the rate functions of LDP and MDP are different from those of weak record numbers,which are interesting complements of the conclusions by Li and Yao[1].展开更多
土壤环境是地球环境的重要组成部分。目前土壤环境问题的关注重点在于土壤污染。我国土壤污染以无机污染为主。中国生态系统研究网络(Chinese Ecosystem Research Network,CERN)自1988年组建以来,在中国主要农田、森林、草原、荒漠、湿...土壤环境是地球环境的重要组成部分。目前土壤环境问题的关注重点在于土壤污染。我国土壤污染以无机污染为主。中国生态系统研究网络(Chinese Ecosystem Research Network,CERN)自1988年组建以来,在中国主要农田、森林、草原、荒漠、湿地生态系统中,按统一的规范,对与土壤环境状况有关的铁、锰、铜、锌、硼、钼、镉、铬、铅、镍、汞、砷、硒元素进行了长期定位监测。通过对CERN典型生态样地表层土壤环境元素监测数据进行加工处理,获得1995~2011年中国陆地生态系统土壤环境元素含量数据集。本数据集中13种土壤环境元素指标测定的相对误差平均为6.55%,重复测定的相对偏差为7.70%。同时附有完整的背景信息,保证了数据在空间和时间上的一致性。本数据集可以为全国和区域土壤环境质量评估、土壤污染风险评价以及环境土壤学研究等工作提供数据基础。展开更多
针对差分隐私随机森林算法在对高维数据进行分类时准确率不理想的问题,本文通过引入差分隐私下的包外估计来计算决策树权重以及特征权重,从而提出一种基于差分隐私下包外估计的随机森林算法(random forest under differential privacy b...针对差分隐私随机森林算法在对高维数据进行分类时准确率不理想的问题,本文通过引入差分隐私下的包外估计来计算决策树权重以及特征权重,从而提出一种基于差分隐私下包外估计的随机森林算法(random forest under differential privacy based on the out-of-bag estimate,RFDP_OOB).本算法首先在差分隐私保护下生成一部分的随机森林,利用差分隐私下包外估计的特性对决策树和特征的重要性进行评估,从而计算出决策树权重以及特征权重,然后通过特征权重对特征进行划分,得到非重要特征集.接着在生成剩下的一部分随机森林的过程中,对最佳特征为非重要特征的结点进行预剪枝操作,使其成为叶子结点,从而减小噪声、提高决策树分类准确率,并具有较好的执行效率.最后在预测分类结果时,取所对应的决策树权重最大的分类结果作为随机森林算法的分类结果,从而提高随机森林算法的分类准确率.本文还对算法的有效性和隐私性进行了理论分析,并通过实验结果验证了本算法的有效性,本算法可以在保护数据隐私性的同时提高算法的分类准确率.展开更多
基金supported by the National Natural Science Foundation of China(Grant No.11671145)the Science and Technology Commission of Shanghai Municipality(Grant No.18dz2271000).
文摘In this paper,large deviations principle(LDP)and moderate deviations principle(MDP)of record numbers in random walks are studied under certain conditions.The results show that the rate functions of LDP and MDP are different from those of weak record numbers,which are interesting complements of the conclusions by Li and Yao[1].
文摘土壤环境是地球环境的重要组成部分。目前土壤环境问题的关注重点在于土壤污染。我国土壤污染以无机污染为主。中国生态系统研究网络(Chinese Ecosystem Research Network,CERN)自1988年组建以来,在中国主要农田、森林、草原、荒漠、湿地生态系统中,按统一的规范,对与土壤环境状况有关的铁、锰、铜、锌、硼、钼、镉、铬、铅、镍、汞、砷、硒元素进行了长期定位监测。通过对CERN典型生态样地表层土壤环境元素监测数据进行加工处理,获得1995~2011年中国陆地生态系统土壤环境元素含量数据集。本数据集中13种土壤环境元素指标测定的相对误差平均为6.55%,重复测定的相对偏差为7.70%。同时附有完整的背景信息,保证了数据在空间和时间上的一致性。本数据集可以为全国和区域土壤环境质量评估、土壤污染风险评价以及环境土壤学研究等工作提供数据基础。
文摘针对差分隐私随机森林算法在对高维数据进行分类时准确率不理想的问题,本文通过引入差分隐私下的包外估计来计算决策树权重以及特征权重,从而提出一种基于差分隐私下包外估计的随机森林算法(random forest under differential privacy based on the out-of-bag estimate,RFDP_OOB).本算法首先在差分隐私保护下生成一部分的随机森林,利用差分隐私下包外估计的特性对决策树和特征的重要性进行评估,从而计算出决策树权重以及特征权重,然后通过特征权重对特征进行划分,得到非重要特征集.接着在生成剩下的一部分随机森林的过程中,对最佳特征为非重要特征的结点进行预剪枝操作,使其成为叶子结点,从而减小噪声、提高决策树分类准确率,并具有较好的执行效率.最后在预测分类结果时,取所对应的决策树权重最大的分类结果作为随机森林算法的分类结果,从而提高随机森林算法的分类准确率.本文还对算法的有效性和隐私性进行了理论分析,并通过实验结果验证了本算法的有效性,本算法可以在保护数据隐私性的同时提高算法的分类准确率.