期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
大数据对大学教学的影响 被引量:124
1
作者 朱建平 李秋雅 《中国大学教学》 CSSCI 北大核心 2014年第9期41-44,共4页
本文对大数据和大数据时代的概念进行了界定,剖析了大数据对大学教学带来的影响,提出了大数据时代大学教学的新理念。
关键词 大数据 大数据时代 大学教学
在线阅读 下载PDF
第七届国际数据挖掘与应用统计研究会学术综述 被引量:1
2
作者 李勇 陈新华 朱建平 《统计与信息论坛》 CSSCI 北大核心 2015年第10期111-,共1页
第七届国际数据挖掘与应用统计研究会于2015年7月27-30日在广西南宁隆重召开。本届会议的主题是"大数据时代统计学方法及应用研究",由国际数据挖掘与应用统计研究会主办,广西财经学院、厦门大学数据挖掘研究中心、美国耶鲁大... 第七届国际数据挖掘与应用统计研究会于2015年7月27-30日在广西南宁隆重召开。本届会议的主题是"大数据时代统计学方法及应用研究",由国际数据挖掘与应用统计研究会主办,广西财经学院、厦门大学数据挖掘研究中心、美国耶鲁大学、台北医学大学和重庆允升科技大数据研究中心联合承办,来自于国内外60余所高校、政府和企事业单位180多位专家学者莅临参加。会议入选论文46篇。 展开更多
关键词 数据挖掘 应用统计 台北医学大学 美国耶鲁大学 学术综述 入选论文 数据研究 统计学方法 广西财经学
在线阅读 下载PDF
大数据的整合分析方法 被引量:32
3
作者 马双鸽 王小燕 方匡南 《统计研究》 CSSCI 北大核心 2015年第11期3-11,共9页
大数据具有数据来源差异性、高维性及稀疏性等特点,如何挖掘数据集间的异质性和共同性并降维去噪是大数据分析的目标与挑战之一。整合分析(Integrative Analysis)同时分析多个独立数据集,避免因地域、时间等因素造成的样本差异而引起模... 大数据具有数据来源差异性、高维性及稀疏性等特点,如何挖掘数据集间的异质性和共同性并降维去噪是大数据分析的目标与挑战之一。整合分析(Integrative Analysis)同时分析多个独立数据集,避免因地域、时间等因素造成的样本差异而引起模型不稳定,是研究大数据差异性的有效方法。它的特点是将每个解释变量在所有数据集中的系数视为一组,通过惩罚函数对系数组进行压缩,研究变量间的关联性并实现降维。本文从同构数据整合分析、异构数据整合分析以及考虑网络结构的整合分析三方面梳理了惩罚整合分析方法的原理、算法和研究现状。统计模拟发现,在弱相关、一般相关和强相关三种情形下,L1Group Bridge、L1Group MCP、Composite MCP都表现良好,其中L1Group Bridge的假阳数最低且最稳定。最后,将整合分析用于研究具有来源差异性的新农合家庭医疗支出,以及具有超高维、小样本等大数据典型特征的癌症基因数据,得到了一些有意义的结论。 展开更多
关键词 大数据 整合分析 变量选择 医疗支出 癌症基因
在线阅读 下载PDF
大数据时代下数据分析理念的辨析 被引量:299
4
作者 朱建平 章贵军 刘晓葳 《统计研究》 CSSCI 北大核心 2014年第2期10-19,共10页
本文在剖析了国内外大数据研究和应用现状的基础上,提出了"大数据时代"的定义,并从统计学的角度界定了"大数据"概念。同时,根据大数据的特点,本文重新审视了在大数据时代统计研究工作过程及统计思维所面临的挑战,... 本文在剖析了国内外大数据研究和应用现状的基础上,提出了"大数据时代"的定义,并从统计学的角度界定了"大数据"概念。同时,根据大数据的特点,本文重新审视了在大数据时代统计研究工作过程及统计思维所面临的挑战,明确了统计工作和统计研究转变的基本思路。 展开更多
关键词 大数据时代 大数据 统计学 数据分析
在线阅读 下载PDF
大数据时代对传统统计学变革的思考 被引量:106
5
作者 朱建平 张悦涵 《统计研究》 CSSCI 北大核心 2016年第2期3-9,共7页
本文在大数据时代背景下,将统计学与大数据有机结合,剖析了大数据时代给统计学带来的变革,阐述了大数据为传统统计学带来的发展机遇。为了保持统计学旺盛的生命力,本文对统计学的发展提出了几点思考。
关键词 大数据 大数据时代 统计学 变革
在线阅读 下载PDF
基于自适应迭代更新的函数型数据聚类方法研究 被引量:20
6
作者 王德青 刘晓葳 朱建平 《统计研究》 CSSCI 北大核心 2015年第4期91-96,共6页
函数型数据的稀疏性和无穷维特性使得传统聚类分析失效。针对此问题,本文在界定函数型数据概念与内涵的基础上提出了一种自适应迭代更新聚类分析。首先,基于数据参数信息实现无穷维函数空间向有限维多元空间的过渡;在此基础上,依据变量... 函数型数据的稀疏性和无穷维特性使得传统聚类分析失效。针对此问题,本文在界定函数型数据概念与内涵的基础上提出了一种自适应迭代更新聚类分析。首先,基于数据参数信息实现无穷维函数空间向有限维多元空间的过渡;在此基础上,依据变量信息含量的差异构建自适应赋权聚类统计量,并依此为函数型数据的相似性测度进行初始类别划分;进一步,在给定阈值限制下,对所有函数的初始类别归属进行自适应迭代更新,将收敛的优化结果作为最终的类别划分。随机模拟和实证检验表明,与现有的同类函数型聚类分析相比,文中方法的分类正确率显著提高,体现了新方法的相对优良性和实际问题应用中的有效性。 展开更多
关键词 函数型数据分析 自适应权重 迭代更新 聚类分析
在线阅读 下载PDF
融合统计思想的大数据算法 被引量:5
7
作者 李扬 张长 朱建平 《统计研究》 CSSCI 北大核心 2018年第7期125-128,共4页
海量化的数据规模作为大数据的第一个特征,带来了计算上的首要挑战。大规模样本不一定能够完全替代总体,因此大数据分析的算法设计不仅要考虑精简计算成本,还要考虑如何刻画估计结果的不确定性。本文以分治自助算法和子集双重自助算法... 海量化的数据规模作为大数据的第一个特征,带来了计算上的首要挑战。大规模样本不一定能够完全替代总体,因此大数据分析的算法设计不仅要考虑精简计算成本,还要考虑如何刻画估计结果的不确定性。本文以分治自助算法和子集双重自助算法为例讨论了兼具计算效率提升和不确定性评价的可并行计算的大数据统计算法设计,通过比较分析探讨设计思想与未来的研究方向。 展开更多
关键词 自助法 不确定性 大规模数据 并行计算
在线阅读 下载PDF
基于粗糙集的游戏核心竞争要素与购买模式挖掘 被引量:1
8
作者 朱建平 冯冲 《统计与决策》 CSSCI 北大核心 2022年第2期164-168,共5页
消费者偏好是游戏企业获得竞争力的源泉。文章基于粗糙集理论,对影响玩家行为的核心产品竞争要素进行挖掘,探讨不同要素组合对产品购买的影响,最终提取出玩家购买产品的决策规则。结果显示,共存在11项产品核心竞争因素,可将其分为三类:... 消费者偏好是游戏企业获得竞争力的源泉。文章基于粗糙集理论,对影响玩家行为的核心产品竞争要素进行挖掘,探讨不同要素组合对产品购买的影响,最终提取出玩家购买产品的决策规则。结果显示,共存在11项产品核心竞争因素,可将其分为三类:角色信息、任务与成就、金币获得与消耗,其中由角色信息判断玩家是否购买产品的确定性最高,且在90%的置信水平下,共存在67条产品购买规则。 展开更多
关键词 游戏 消费者驱动 竞争优势 粗糙集 规则提取
在线阅读 下载PDF
基于区块链的统计数据共享模型研究 被引量:9
9
作者 李少凡 刘金福 +1 位作者 张盈谦 朱建平 《统计与决策》 CSSCI 北大核心 2022年第22期10-14,共5页
实现区块链技术在统计工作上的创新性应用成为新时代统计工作的重要课题。针对目前统计工作中存在的报表重叠上传反复审核、数据共享有限、数据信息安全性不高等问题,文章提出“区块链+联网直报”统计数据共享联盟链模型,从组织架构、... 实现区块链技术在统计工作上的创新性应用成为新时代统计工作的重要课题。针对目前统计工作中存在的报表重叠上传反复审核、数据共享有限、数据信息安全性不高等问题,文章提出“区块链+联网直报”统计数据共享联盟链模型,从组织架构、平台架构、共享流程、底层设计四个层面论述模型结构功能。实现以国家统计局为主导,省、市、县政府部门之间的报表数据共享,满足数据采集、存储需求,为完善和优化我国统计工作提供参考。 展开更多
关键词 统计区块链 数据共享 普查工作 主侧链技术
在线阅读 下载PDF
随机森林方法研究综述 被引量:788
10
作者 方匡南 吴见彬 +1 位作者 朱建平 谢邦昌 《统计与信息论坛》 CSSCI 2011年第3期32-38,共7页
随机森林(RF)是一种统计学习理论,它是利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。它具有很高的预测准确率,对异常值和噪声具有很好的容忍... 随机森林(RF)是一种统计学习理论,它是利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。它具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合,在医学、生物信息、管理学等领域有着广泛的应用。为此,介绍了随机森林原理及其有关性质,讨论其最新的发展情况以及一些重要的应用领域。 展开更多
关键词 随机森林 分位数回归森林 生存回归森林 应用
在线阅读 下载PDF
主成分聚类分析有效性的思考 被引量:47
11
作者 王德青 朱建平 谢邦昌 《统计研究》 CSSCI 北大核心 2012年第11期84-87,共4页
本文针对经典聚类分析和普通主成分聚类分析极端情形下的失效问题展开讨论,通过定义客观赋权的主成分距离为分类统计量,并以实证检验取得良好效果为依据,有效地解决了主成分聚类分析在极端情形下所不能揭示的问题。
关键词 分类 主成分聚类分析 极端情形
在线阅读 下载PDF
基于网络结构Logistic模型的企业信用风险预警 被引量:62
12
作者 方匡南 范新妍 马双鸽 《统计研究》 CSSCI 北大核心 2016年第4期50-55,共6页
随着计算机和互联网的快速发展,特别是在大数据时代,企业积累了大量有关企业经营、财务等相关数据,变量众多且关系纷繁复杂,如果利用传统的logistic回归建立企业信用风险预警模型往往效果不好。本文在充分考虑变量间的网络结构(Network... 随着计算机和互联网的快速发展,特别是在大数据时代,企业积累了大量有关企业经营、财务等相关数据,变量众多且关系纷繁复杂,如果利用传统的logistic回归建立企业信用风险预警模型往往效果不好。本文在充分考虑变量间的网络结构(Network)关系基础上,提出了网络结构Logistic模型,通过惩罚方法同时实现变量选择和参数估计。蒙特卡洛模拟表明网络结构Logistic模型要优于其他方法。最后,我们将其应用到我国企业信用风险预警中,充分考虑财务指标间的网络结构关系,科学地选择评估指标,构建更加适合我国国情的企业信用风险预警方法。 展开更多
关键词 企业信用风险 网络结构 LOGISTIC模型
在线阅读 下载PDF
经济景气指数研究的比较与思考 被引量:13
13
作者 冷媛 孙俊歌 +1 位作者 傅蔷 梁振杰 《统计与决策》 CSSCI 北大核心 2017年第2期5-8,共4页
景气分析是经济计量的典型问题,应用景气指数进行定量分析,对理解经济总体和具体行业的运行状况有不可替代的作用。文章介绍了经济景气的理论和景气指数的基本构建方法,梳理了景气指数研究的发展脉络,系统剖析了近期国内外研究状况,重... 景气分析是经济计量的典型问题,应用景气指数进行定量分析,对理解经济总体和具体行业的运行状况有不可替代的作用。文章介绍了经济景气的理论和景气指数的基本构建方法,梳理了景气指数研究的发展脉络,系统剖析了近期国内外研究状况,重点总结了国内的实证分析和研究现状。 展开更多
关键词 经济周期 景气指数 构建方法
在线阅读 下载PDF
基于拓展聚类模型的区域创新能力层级划分研究 被引量:10
14
作者 王德青 朱建平 《经济经纬》 CSSCI 北大核心 2014年第1期8-13,共6页
为了对中国创新能力科学划分以深层次挖掘区域之间创新能力的有机联系,笔者在剖析现有层级划分方法优点与不足的基础上进行模型拓展,应用拓展的聚类模型对我国的区域创新能力进行静态与动态分类,并对分类结果的显著性进行检验。对比分... 为了对中国创新能力科学划分以深层次挖掘区域之间创新能力的有机联系,笔者在剖析现有层级划分方法优点与不足的基础上进行模型拓展,应用拓展的聚类模型对我国的区域创新能力进行静态与动态分类,并对分类结果的显著性进行检验。对比分析不同地区创新发展模式发现,创新能力东强西弱的阶梯分布格局仍存在,必须分集团而不是整齐划一的制定和实施创新政策。 展开更多
关键词 区域创新能力 聚类分析 主成分分析 面板数据 层级划分
在线阅读 下载PDF
非平稳时间序列的EMD组合预测及其应用 被引量:12
15
作者 朱建平 张楠溪 朱万闯 《统计与决策》 CSSCI 北大核心 2013年第15期4-8,共5页
非平稳时间序列预测问题一直都是一个难题,文章运用EMD技术将非平稳时间序列分解为一系列的imf和一个残余量。由聚类分析得到若干个cimf,然后通过对每个cimf以及残余量建立神经网络模型进行预测,达到对原时间序列的组合预测。文章的实... 非平稳时间序列预测问题一直都是一个难题,文章运用EMD技术将非平稳时间序列分解为一系列的imf和一个残余量。由聚类分析得到若干个cimf,然后通过对每个cimf以及残余量建立神经网络模型进行预测,达到对原时间序列的组合预测。文章的实证结果表明EMD组合预测可以有效解决非平稳的问题,且预测精度达到良好效果。 展开更多
关键词 EMD 神经网络 组合预测
在线阅读 下载PDF
函数型死亡率预测模型 被引量:10
16
作者 王洁丹 朱建平 付荣 《统计研究》 CSSCI 北大核心 2013年第9期87-93,共7页
人口死亡率反映人口的死亡水平,是人口规模的重要影响因素,同时也是人寿保险精算的重要数据基础。从数据特征来看,死亡率作为年龄的函数,是一种典型的函数型数据。本文使用函数型数据方法分析中国人口数据,基于1994—2010年中国人口分... 人口死亡率反映人口的死亡水平,是人口规模的重要影响因素,同时也是人寿保险精算的重要数据基础。从数据特征来看,死亡率作为年龄的函数,是一种典型的函数型数据。本文使用函数型数据方法分析中国人口数据,基于1994—2010年中国人口分年龄死亡数据,建立函数型死亡率预测模型,对未来分年龄死亡率进行预测,并通过生命表方法计算了未来平均预期寿命。同时通过对历史数据的预测,说明模型预测结果比较可信。 展开更多
关键词 函数型数据 函数型预测模型 死亡率预测 函数型主成分分析
在线阅读 下载PDF
基于函数型自适应聚类的股票收益波动模式比较 被引量:9
17
作者 王德青 何凌云 朱建平 《统计研究》 CSSCI 北大核心 2018年第9期79-91,共13页
股票收益波动具有典型的连续函数特征,将其纳入连续动态函数范畴分析,能够挖掘现有离散分析方法不能揭示的深层次信息。本文基于连续动态函数视角研究上证50指数样本股票收益波动的类别模式和时段特征:首先由实际离散观测数据信息自行驱... 股票收益波动具有典型的连续函数特征,将其纳入连续动态函数范畴分析,能够挖掘现有离散分析方法不能揭示的深层次信息。本文基于连续动态函数视角研究上证50指数样本股票收益波动的类别模式和时段特征:首先由实际离散观测数据信息自行驱动,重构隐含在其中的本征收益波动函数;进一步,利用函数型主成分正交分解收益函数波动的主趋势,在无核心信息损失的主成分降维基础上,引入自适应权重聚类分析客观划分股票收益函数波动的模式类别;最后,利用函数型方差分析检验不同类别收益函数之间波动差异的显著性和稳健性,并基于波动函数周期性时段划分、图形展示和可视化剖析每一类别收益函数在不同时段波动的势能转化规律。研究发现:上证综指股票收益波动的主导趋势可以分解为四个子模式,50只股票存在五类显著的波动模式类别,并且五类波动模式的特征差异主要体现在本次研究区间的初始阶段。本文拓展了股票收益波动模式分类和差异因素分析的研究视角,能够为金融监管部门管理策略的制定和证券市场的投资组合配置提供实证支持。 展开更多
关键词 函数型主成分 波动模式 自适应聚类 上证50
在线阅读 下载PDF
基于指标独立性的景气指数构建赋权方法 被引量:3
18
作者 冷媛 陈宇晟 +1 位作者 傅蔷 陈政 《统计与决策》 CSSCI 北大核心 2016年第19期9-11,共3页
经济景气指数常使用独立性权数来合成。以往的研究中,只使用一种相关系数作为指标间信息重复程度的代表,并且未能突显出指标的预测能力。文章提出了复合独立信息赋权法。其原理是使用复相关系数,时差相关系数,自相关系数,用时差进行修正... 经济景气指数常使用独立性权数来合成。以往的研究中,只使用一种相关系数作为指标间信息重复程度的代表,并且未能突显出指标的预测能力。文章提出了复合独立信息赋权法。其原理是使用复相关系数,时差相关系数,自相关系数,用时差进行修正,再进行归一化得到权重。以广东省经济数据为例,使用简单相关系数法、复相关系数法等常见的独立信息赋权方法进行了比较。认为复合独立信息赋权法具有能够突显具有优良预测能力指标的能力。 展开更多
关键词 景气指数 独立性权数 复合独立赋权法
在线阅读 下载PDF
《统计研究》的历史阶段性回顾与特征分析 被引量:5
19
作者 朱建平 刘晓葳 欧阳汉 《统计研究》 CSSCI 北大核心 2014年第9期3-10,共8页
本文基于各个时代背景下我国统计学科的重要事件,联系过去14届中青年统计科学研讨会的会议主题,利用文本数据挖掘技术,对1984年第1期至2014年第5期《统计研究》刊登的5192篇文章的篇名、关键词和摘要等做深入分析。探讨了30年来我国统... 本文基于各个时代背景下我国统计学科的重要事件,联系过去14届中青年统计科学研讨会的会议主题,利用文本数据挖掘技术,对1984年第1期至2014年第5期《统计研究》刊登的5192篇文章的篇名、关键词和摘要等做深入分析。探讨了30年来我国统计学科的发展历程,剖析了《统计研究》期刊的整体特征,进一步明确了《统计研究》杂志对中国统计学科建设发展的重要贡献。 展开更多
关键词 统计研究 期刊 特征分析 文本挖掘
在线阅读 下载PDF
SGL-SVM方法研究及其在财务困境预测中的应用 被引量:27
20
作者 方匡南 杨阳 《统计研究》 CSSCI 北大核心 2018年第8期104-115,共12页
针对分类问题,本文提出了稀疏组Lasso支持向量机方法(Sparse group lasso SVM,SGLSVM),即在SVM模型的损失函数中引入SGL惩罚函数,能同时进行组间变量和组内变量的筛选。由于SGL-SVM的目标函数求解比较复杂,本文又提出了一种快速的双层... 针对分类问题,本文提出了稀疏组Lasso支持向量机方法(Sparse group lasso SVM,SGLSVM),即在SVM模型的损失函数中引入SGL惩罚函数,能同时进行组间变量和组内变量的筛选。由于SGL-SVM的目标函数求解比较复杂,本文又提出了一种快速的双层坐标下降算法。通过模拟实验,发现SGL-SVM方法在预测效果和变量选择上均要优于其他方法,对于变量具有自然分组结构且组内是稀疏的数据,本文方法在提高变量选择效果的同时又能提高模型的预测精度。最后,本文将SGL-SVM方法应用到我国制造业上市公司财务困境预测中。 展开更多
关键词 SVM 双层变量选择 SGL 财务困境预测
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部