期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于代表样本动态生成的中文网页分类 被引量:2
1
作者 华北 曹先彬 《计算机应用》 CSCD 北大核心 2006年第10期2502-2504,共3页
针对中文网页分类问题该文设计了一种新的基于代表样本动态生成的分类算法。算法通过对原始训练样本集的训练逐个生成代表样本,并充分利用被裁剪训练样本的有效信息,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性。基于... 针对中文网页分类问题该文设计了一种新的基于代表样本动态生成的分类算法。算法通过对原始训练样本集的训练逐个生成代表样本,并充分利用被裁剪训练样本的有效信息,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性。基于该算法的中文网页分类器的实验结果表明,算法有效地压缩了原始训练样本集,提高了分类效率,同时保持了分类的准确性;具有较好的分类性能。 展开更多
关键词 K-近邻 代表样本 调整
在线阅读 下载PDF
基于核密度估计的土壤样本代表性修正研究 被引量:1
2
作者 李坤 陈宇昊 +3 位作者 李文岳 王子影 傅佩红 黄魏 《华中农业大学学报》 北大核心 2025年第1期94-104,共11页
为充分利用历史样点数据获取更可靠的土壤-环境知识,进而获取更高精度的土壤预测推理图,采用样本代表性修正方法获取更高的知识精度,利用样本空间与总体空间环境协变量的空间相似度关系,以核密度估计为基础,采用3种不同算法对每个土壤... 为充分利用历史样点数据获取更可靠的土壤-环境知识,进而获取更高精度的土壤预测推理图,采用样本代表性修正方法获取更高的知识精度,利用样本空间与总体空间环境协变量的空间相似度关系,以核密度估计为基础,采用3种不同算法对每个土壤采样点探寻最优权重,并以土壤表层有机质含量预测制图为例验证方法的科学性和有效性。结果显示,该修正方法最高可将多元线性回归制图的RMSE和MAE分别降低10.30%和12.74%,证实了该方法的可行性与有效性。 展开更多
关键词 环境协变量 空间偏差修正 样本代表 启发式算法 数字土壤制图 历史样点
在线阅读 下载PDF
临床研究样本代表性评估方法的对比研究 被引量:10
3
作者 黄曼丽 李晨 +3 位作者 葛伟 王文文 王陵 夏结来 《中国卫生统计》 CSCD 北大核心 2024年第2期167-174,共8页
目的对现有样本代表性评估方法进行全面比较和探讨,为临床研究样本代表性评估方法选择提供参考。方法结合国内肺癌患者特征的分布以及国内临床研究样本筛选的实际情况,模拟肺癌患者目标人群,抽取不同样本量和不同偏离程度的样本,使用现... 目的对现有样本代表性评估方法进行全面比较和探讨,为临床研究样本代表性评估方法选择提供参考。方法结合国内肺癌患者特征的分布以及国内临床研究样本筛选的实际情况,模拟肺癌患者目标人群,抽取不同样本量和不同偏离程度的样本,使用现有样本代表性评估方法计算样本代表性,同时计算疗效估计偏差(bias),通过建立各方法代表性测量值与bias之间的相关性模型,分析各方法评估代表性的准确性和稳定性。结果整体结构差异率(rate of overall struction variation,RV)RV1和RV2及基于倾向评分的C统计量、基尼集中比求和(sum Gini concentration ratio,SGCR)及K-S距离(kolmogorov-smirnov distance,KSD)均能较好地测量不同样本的偏离程度。在不同样本量下,RV2和RV1与bias相关模型的R^(2)值均大于0.90,C统计量、SGCR及K-S距离的R^(2)大于0.80。结论因考虑了特征权重,整体结构差异率更为准确、稳定,尤其是RV2能更好地测量不同偏离程度样本的代表性、准确反映估计偏差;在难以获得特征重要性信息时,SGCR及利用倾向评分的方法中的C统计量和K-S距离测量代表性的可靠性也可以接受。 展开更多
关键词 临床研究 样本代表 倾向评分 结构差异率
在线阅读 下载PDF
住户调查中代表性样本的一种探索获取方法——平衡抽样设计 被引量:3
4
作者 巩红禹 金勇进 《统计研究》 CSSCI 北大核心 2015年第9期84-90,共7页
住户调查是我国社会经济统计调查体系的重要组成部分,样本代表性直接决定统计数据质量。多阶段抽样中初级单元的方差对估计的影响是主要的,因此本文结合2010年全国第六次人口普查分县数据,采用平衡抽样设计获取初级单元的代表性样本-平... 住户调查是我国社会经济统计调查体系的重要组成部分,样本代表性直接决定统计数据质量。多阶段抽样中初级单元的方差对估计的影响是主要的,因此本文结合2010年全国第六次人口普查分县数据,采用平衡抽样设计获取初级单元的代表性样本-平衡样本。对代表性样本的事后评估结果表明,样本结构与总体结构吻合,目标估计的误差很小,说明了本文平衡设计的有效性。 展开更多
关键词 代表样本 平衡样本 住户调查
在线阅读 下载PDF
基于样本不确定性和代表性相结合的可控主动学习算法研究 被引量:4
5
作者 胡正平 高文涛 万春艳 《燕山大学学报》 CAS 2009年第4期341-346,共6页
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量。在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法。首... 通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量。在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法。首先利用样本的NN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型。最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值"。在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多。 展开更多
关键词 可控主动学习 不确定性样本 样本先验分布 代表样本
在线阅读 下载PDF
规模以下工业抽样调查中代表性样本的一种探索设计:平衡抽样设计 被引量:3
6
作者 巩红禹 《统计与信息论坛》 CSSCI 北大核心 2017年第4期8-15,共8页
规下工业抽样调查是社会经济统计调查的重要组成部分,为国民经济核算提供基础数据,而样本代表性直接决定统计推断结果。对企业目录库抽取平衡样本,能够使得样本结构与总体结构相似。平衡样本是指满足如下条件的样本:辅助变量的汉森赫维... 规下工业抽样调查是社会经济统计调查的重要组成部分,为国民经济核算提供基础数据,而样本代表性直接决定统计推断结果。对企业目录库抽取平衡样本,能够使得样本结构与总体结构相似。平衡样本是指满足如下条件的样本:辅助变量的汉森赫维茨估计等于总体总量真值。平衡抽样设计需要包含丰富辅助信息的完善抽样框,政府统计数据能够为此提供足够的支撑。基于2009年工业企业数据库的实证分析表明,平衡抽样设计对总体总量的估计相对误差很小,特别是估计的均值与总体真值非常接近,近似无偏;与简单随机抽样比较,平衡抽样设计更加有效。 展开更多
关键词 规模以下工业抽样调查 代表样本 平衡抽样
在线阅读 下载PDF
住房价格统计中的样本代表性误差及其修正 被引量:2
7
作者 吴璟 郑思齐 刘洪玉 《土木工程学报》 EI CSCD 北大核心 2009年第4期140-144,共5页
对住房价格变化的准确测量在当前背景下具有重要意义,样本代表性误差则是其中必须解决的重要问题。基于住房和住房市场的特殊性,分析住房价格统计过程中产生样本代表性误差的原因;将样本代表性误差划分为系统性误差和随机性误差两个组... 对住房价格变化的准确测量在当前背景下具有重要意义,样本代表性误差则是其中必须解决的重要问题。基于住房和住房市场的特殊性,分析住房价格统计过程中产生样本代表性误差的原因;将样本代表性误差划分为系统性误差和随机性误差两个组成部分,并比较其对我国住房价格统计的影响;提出评估价格法、固定权重法、特征价格法(包括截面建模形式和一次性建模形式)等四种针对样本代表性误差的修正方法,并通过北京市住房价格统计的数值模拟算例,比较各种修正方法的有效性和可行性。研究结果表明:样本代表性误差,尤其是其中的随机性误差部分,是当前制约我国住房价格统计结果质量的主要瓶颈之一,而一次性建模形式的特征价格法则是一种有效的修正该误差的方法。研究成果有助于我国住房价格统计的改进和完善。 展开更多
关键词 住房市场 住房价格统计 样本代表性误差
在线阅读 下载PDF
改进样本代表性的多目标追加平衡设计 被引量:1
8
作者 巩红禹 陈雅 《统计研究》 CSSCI 北大核心 2018年第12期113-122,共10页
本文主要讨论样本代表性的改进和多目标调查问题。本文提出了一种增加样本量与调整样本结构相结合的方法——追加样本的平衡设计,即通过追加样本,使得补充的样本与原来的样本组合生成新的平衡样本,相对于初始样本,减少了样本与总体的结... 本文主要讨论样本代表性的改进和多目标调查问题。本文提出了一种增加样本量与调整样本结构相结合的方法——追加样本的平衡设计,即通过追加样本,使得补充的样本与原来的样本组合生成新的平衡样本,相对于初始样本,减少了样本与总体的结构性偏差;平衡样本通过选择与多个目标参数相关的辅助变量,使得一套样本对不同的目标参数而言都具有良好的代表性,进而完成多目标调查。结合2010年第六次全国人口普查分县数据,通过选择多个目标参数,对追加样本后的平衡样本进行事后评估的结果表明,追加平衡设计能够有效改进样本结构,使得样本结构与总体结构相近,降低目标估计的误差;同时也说明平衡抽样设计能够实现多目标调查,提高样本的使用效率。 展开更多
关键词 代表样本 追加样本 平衡样本 多目标
在线阅读 下载PDF
应该如何评估样本的代表性? 被引量:4
9
作者 游正林 《华中师范大学学报(人文社会科学版)》 CSSCI 北大核心 2009年第3期45-49,共5页
国内有些学者认为,可以采用将样本的某些特征与总体的同类特征进行比较的办法来评估样本的代表性。本文则强调:在具体的调查研究过程中,这种评估的方法既不可行,也不科学。评估样本的代表性的关键,是判断它是不是一个概率样本,而要做这... 国内有些学者认为,可以采用将样本的某些特征与总体的同类特征进行比较的办法来评估样本的代表性。本文则强调:在具体的调查研究过程中,这种评估的方法既不可行,也不科学。评估样本的代表性的关键,是判断它是不是一个概率样本,而要做这样的判断,只能依据实际抽取样本的具体方法和具体程序,而不是依据最后所得到的样本的具体特征。本文还探讨了未应答现象及其对样本的代表性的影响。 展开更多
关键词 样本代表 概率抽样 抽样误差 应答率
在线阅读 下载PDF
概率抽样条件下样本代表性事后评估方法探讨 被引量:14
10
作者 宋子轩 冷燮 陈瑶瑶 《统计研究》 CSSCI 北大核心 2012年第7期96-100,共5页
样本代表性直接牵涉到统计数据质量和统计公布引起的民众反响,目前社会上不乏对政府统计数据的质疑之声,最终影响到政府统计机关的公信力,因此有必要重新审视现行样本代表性的研究。目前相关文献普遍强调不同抽样方式下的样本代表性的... 样本代表性直接牵涉到统计数据质量和统计公布引起的民众反响,目前社会上不乏对政府统计数据的质疑之声,最终影响到政府统计机关的公信力,因此有必要重新审视现行样本代表性的研究。目前相关文献普遍强调不同抽样方式下的样本代表性的相对性内涵,确保样本的代表性仅从抽样方法和样本量两个维度入手,缺乏对既定抽样方法下样本代表性的事后评估体系的探索,以及多样本之间样本代表性优劣的比较方法研究。鉴于此,本文在结合人口普查数据基础上尝试从样本—总体整体分布和内部属性结构两个方面构建样本代表性事后评估的一整套指标和假设检验,进而找到一种多样本代表性比较的依据。最后对浦东新区2010年城镇居民收入调查样本进行了代表性检验的尝试。 展开更多
关键词 抽样 样本代表 事后评估 分布检验 列联系数
在线阅读 下载PDF
自愿参加普查样本代表性的探讨
11
作者 李会庆 许海修 +8 位作者 袁新蓉 金世宽 真钢 孙汭 马庆恒 林宝奎 石成山 张伟 董铁军 《中国卫生统计》 CSCD 北大核心 1993年第6期56-56,共1页
现场调查样本代表性问题取决于以下几个方面;①根据研究目的确定的研究对象及范围;②根据检验所需精度及有关参数估计样本大小,③抽样时遵循随机化及齐同对比等原则,④进行小规模的实验取得经验;⑤调查人员应统一培训、统一仪器、... 现场调查样本代表性问题取决于以下几个方面;①根据研究目的确定的研究对象及范围;②根据检验所需精度及有关参数估计样本大小,③抽样时遵循随机化及齐同对比等原则,④进行小规模的实验取得经验;⑤调查人员应统一培训、统一仪器、统一方法、统一标准、统一要求,使资料质量符合率达90%以上。 展开更多
关键词 普查 性问题 随机化 现场调查 符合率 实验 对比 样本代表 统一 研究目的
在线阅读 下载PDF
基于动态聚类及样本筛选的人脸识别 被引量:2
12
作者 桑军 胡海波 +3 位作者 叶春晓 向宏 傅鹂 蔡斌 《计算机工程与应用》 CSCD 北大核心 2008年第23期191-192,196,共3页
为了综合体现训练样本的共性和个性,应用动态聚类技术,通过对于训练样本集中的同类别样本进行动态聚类,形成若干样本子集,并将这些子集的类心作为代表用于距离计算,避免了采用样本全集类心作为代表所导致的样本个性削弱,也比采用所有训... 为了综合体现训练样本的共性和个性,应用动态聚类技术,通过对于训练样本集中的同类别样本进行动态聚类,形成若干样本子集,并将这些子集的类心作为代表用于距离计算,避免了采用样本全集类心作为代表所导致的样本个性削弱,也比采用所有训练样本作为代表样本减少了存储空间和计算时间。此外,通过对于训练样本进行筛选,去除了孤立样本的影响,避免了"过拟合"现象。实验结果证明了算法的有效性。 展开更多
关键词 人脸识别 最小距离判别准则 代表样本 动态聚类
在线阅读 下载PDF
胃液和胃洗液生物标志物在胃癌检测中的可行性研究进展
13
作者 付玮(综述) 宁静(综述) 丁士刚(审校) 《中国微创外科杂志》 北大核心 2025年第2期103-108,共6页
胃癌是全球癌症相关死亡的主要原因之一,在全球癌症排名中,胃癌发病率排第5位,死亡率排第4位[1]。我国胃癌的发病率和死亡率均居恶性肿瘤第3位,严重危害国人健康[2]。胃癌5年生存率仅25%~30%,但对于及时接受治疗的早期胃癌患者,其术后5... 胃癌是全球癌症相关死亡的主要原因之一,在全球癌症排名中,胃癌发病率排第5位,死亡率排第4位[1]。我国胃癌的发病率和死亡率均居恶性肿瘤第3位,严重危害国人健康[2]。胃癌5年生存率仅25%~30%,但对于及时接受治疗的早期胃癌患者,其术后5年生存率可以显著提高至95%以上,因此早期发现及治疗是胃癌防治的重要措施[3]。胃镜是胃癌筛查的重要手段,胃镜下表现及活检病理是目前诊断胃癌的主要措施。然而内镜判读准确度不足、活检样本代表性不足等因素可能影响胃癌筛查效率[4]。 展开更多
关键词 胃癌发病率 洗液 样本代表 生物标志物 胃癌筛查 恶性肿瘤 活检病理 可行性研究
在线阅读 下载PDF
基于样本不同属性综合的鲁棒偏倚赖主动学习分类算法研究
14
作者 任大伟 胡正平 高文涛 《燕山大学学报》 CAS 2011年第1期74-80,共7页
主动学习算法可以有效减少样本标注的工作量,每次选取最有信息量的样本交由专家标注。样本的代表性与不确定性都是衡量样本信息量的重要因素,将两者综合考虑能够获得更好的综合效果,但在两者的结合方式上一直存在不少问题,导致算法的适... 主动学习算法可以有效减少样本标注的工作量,每次选取最有信息量的样本交由专家标注。样本的代表性与不确定性都是衡量样本信息量的重要因素,将两者综合考虑能够获得更好的综合效果,但在两者的结合方式上一直存在不少问题,导致算法的适应性不强。为解决该问题,本文提出了基于样本不同属性的鲁棒偏倚赖主动学习分类算法,通过引入偏倚赖权值系数函数,在综合考虑样本的代表性和不确定性的同时,更可以突出样本的特性。同时由于样本代表性模型的渐变,在选择样本过程中更能突出代表性样本与不确定性样本的学习层次,前期训练以代表性样本为主,后期训练以不确定性样本为主,使得算法的适应性大大提高。在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,与所提供的对比算法相比,本文的方法只需较少的标注样本便可以达到相同的分类正确率。 展开更多
关键词 主动学习 偏倚赖 样本代表 样本不确定性 分类
在线阅读 下载PDF
抽样审计中的样本选取——会计和统计在方法上的交叉运用
15
作者 周冶芳 《统计与决策》 北大核心 2002年第5期47-47,共1页
关键词 抽样审计 样本选取 审计风险 会计信息失真 样本代表
在线阅读 下载PDF
海洋捕捞业渔获量抽样调查中样本选取问题研究 被引量:1
16
作者 何国毅 孙兆群 朱玉贵 《现代农业科技》 2014年第17期281-283,共3页
随着抽样调查在国内外各领域的成功应用,近年来国内渔业生产统计也逐渐引用此法,但尚未系统解决海洋捕捞业渔获量抽样调查中样本代表性、样本数量、样本轮换等关键问题的理论构建问题,本文旨在通过剖析上述关键问题,为海洋捕捞业渔获量... 随着抽样调查在国内外各领域的成功应用,近年来国内渔业生产统计也逐渐引用此法,但尚未系统解决海洋捕捞业渔获量抽样调查中样本代表性、样本数量、样本轮换等关键问题的理论构建问题,本文旨在通过剖析上述关键问题,为海洋捕捞业渔获量抽样调查方案设计及其实际应用奠定理论基础。 展开更多
关键词 海洋捕捞业 渔获量 抽样调查 样本代表 样本 样本轮换
在线阅读 下载PDF
样本调换及其应用
17
作者 李新 《郑州轻工业学院学报》 1992年第3期68-71,共4页
本文给出了样本调换的概念和理论,并讨论了样本调换在改善样本代表性方面的应用。
关键词 样本调换 样本代表
在线阅读 下载PDF
地理坐标对分层抽样改进效果的研究
18
作者 李毅 王童欣 米子川 《统计研究》 CSSCI 北大核心 2024年第5期150-160,共11页
在调查中相互独立的总体单元并不是普遍存在的,空间效应会导致总体单元在空间上覆盖不均匀。当考虑总体空间异质性时,简单分层抽样设计无法捕获总体可能存在的空间自相关,一般解决方法是采用以空间区域作为定性辅助信息的空间分层抽样,... 在调查中相互独立的总体单元并不是普遍存在的,空间效应会导致总体单元在空间上覆盖不均匀。当考虑总体空间异质性时,简单分层抽样设计无法捕获总体可能存在的空间自相关,一般解决方法是采用以空间区域作为定性辅助信息的空间分层抽样,但存在调查实践性与空间精细度的两难选择。因此,本文将地理坐标引入到分层抽样设计中,围绕空间效应和样本代表性研究地理坐标对空间异质性总体的抽样效果,进而探索在不同空间特征总体下地理坐标参与的空间分层抽样统计推断作用。通过模拟研究和实证分析发现,地理坐标参与的空间分层抽样能够在合理误差范围内有效提高估计效率,对表现出强空间异质性的总体估计效率提升效果较弱;在具有明显空间趋势的总体中,地理坐标参与的空间分层抽样效果优于简单分层抽样,并且这种优势在大样本量下更为明显。本文提出了地理坐标参与的空间分层抽样设计方案,即当总体存在较弱的空间异质性时,应使用地理坐标参与的空间分层抽样设计。 展开更多
关键词 空间效应 地理坐标 分层抽样 样本代表
在线阅读 下载PDF
两次全国残疾人抽样调查人口数据质量分析 被引量:8
19
作者 庞丽华 张蕾 +5 位作者 张旭 张钧 刘岚 宫蕊 张笑天 郑晓瑛 《人口与发展》 CSSCI 北大核心 2014年第4期59-64,44,共7页
通过对两次全国残疾人抽样调查资料和数据的分析,从登记质量、样本代表性和性别年龄数据准确性等角度对两次残疾人抽样调查的数据质量进行了评估。两次抽样调查的样本年龄和性别结构合理,具有很好的全国代表性,调查相对误差基本控制在... 通过对两次全国残疾人抽样调查资料和数据的分析,从登记质量、样本代表性和性别年龄数据准确性等角度对两次残疾人抽样调查的数据质量进行了评估。两次抽样调查的样本年龄和性别结构合理,具有很好的全国代表性,调查相对误差基本控制在较低的水平,人口的重报和漏报率极低。调查数据质量比较可靠,能够较为真实地反映我国人口的实际状况。 展开更多
关键词 抽样调查 登记质量 样本代表 年龄性别结构
在线阅读 下载PDF
动态统计指数理论探讨 被引量:9
20
作者 孙慧钧 《统计研究》 CSSCI 北大核心 2005年第2期13-19,共7页
After a research on the stochastic property of individual index, the paper examined the individual price index and the individual quantity index of the whole goods of a society under the probability space. On the basi... After a research on the stochastic property of individual index, the paper examined the individual price index and the individual quantity index of the whole goods of a society under the probability space. On the basis of the examination, the paper made a conclusion that the stochastic vector (X,Y) are approximately subjects to the dual normal distribution, and found the true values of price index EZ and quantity index EY under different economic environment in witch supply or demand plays the major role in different periods of time. The paper also argued that as long as the sample size n of representative goods are getting large, the price index of representative goods will approach the true value of price index of all goods. This shows that the price index of representative goods is a good estimate value of the true values of price index EZ of all goods in a society. 展开更多
关键词 动态统计指数理论 指数真值 物价指数 物量指数 随机变量 指数体系 代表样本
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部