期刊文献+
共找到108篇文章
< 1 2 6 >
每页显示 20 50 100
非结构化数据处理技术在投资大数据审计中的应用研究 被引量:4
1
作者 郭红建 庄名驹 李嘉豪 《中国注册会计师》 北大核心 2025年第2期73-77,共5页
大数据环境下,投资审计的对象和内容都发生了根本性变化,以文本、图像、音频和视频为代表的非结构化数据逐渐成为了投资审计线索的主要来源,传统面向结构化数据的审计数据处理方法面临巨大挑战,严重影响了审计数据利用的质量和效率。本... 大数据环境下,投资审计的对象和内容都发生了根本性变化,以文本、图像、音频和视频为代表的非结构化数据逐渐成为了投资审计线索的主要来源,传统面向结构化数据的审计数据处理方法面临巨大挑战,严重影响了审计数据利用的质量和效率。本文基于投资审计领域数据利用现存问题,探究非结构化数据处理技术在投资大数据审计中的应用模式,以利于有效提高非结构化审计数据的采集、清洗、处理与分析挖掘的工作能力,助力投资审计技术方法创新,推进投资审计数字化转型与高质量发展。 展开更多
关键词 投资审计 数据审计 结构数据 数据处理技术
在线阅读 下载PDF
基于非结构化文本的房地产债券违约预警研究
2
作者 钟宁桦 郝雨桐 刘一莹 《中山大学学报(社会科学版)》 北大核心 2025年第4期359-374,共16页
房地产行业是我国国民经济的重要支柱产业。近年来,房地产企业债务违约事件频繁发生,相关金融风险隐患日益凸显,实现对房地产债券违约的准确和超前预警具有重要现实意义和紧迫性。本文从1.3万份分析师研报中提取18万条文本语段,利用Deep... 房地产行业是我国国民经济的重要支柱产业。近年来,房地产企业债务违约事件频繁发生,相关金融风险隐患日益凸显,实现对房地产债券违约的准确和超前预警具有重要现实意义和紧迫性。本文从1.3万份分析师研报中提取18万条文本语段,利用DeepSeek大语言模型对文本进行处理,构建文本因子。随后,将这些文本因子与房地产债券的逐笔交易数据结合,采用机器学习方法,建立债券违约预警与风险识别模型。本文研究发现,机器学习方法对房地产债券违约的预警效果显著优于传统计量方法,非结构化文本数据的引入能有效增强分类预测效果。 展开更多
关键词 房地产债券 违约风险预测 大语言模型 机器学习 结构数据
在线阅读 下载PDF
基于主体行为的非结构化数据模型 被引量:12
3
作者 韩晶 鄂海红 +1 位作者 宋美娜 宋俊德 《计算机工程与设计》 CSCD 北大核心 2013年第3期904-908,共5页
为满足用户的复杂检索需求,对用户行为特性进行分析,提出一种非结构化数据的星系数据模型。基于对文件系统中属性使用情况的统计结果,通过优化文件属性、增加用户行为特性属性等方法,形成非结构化数据属性集。在此基础上,使用一个数据... 为满足用户的复杂检索需求,对用户行为特性进行分析,提出一种非结构化数据的星系数据模型。基于对文件系统中属性使用情况的统计结果,通过优化文件属性、增加用户行为特性属性等方法,形成非结构化数据属性集。在此基础上,使用一个数据对象和基本类、内容类、特征类、行为类、环境类等5个属性类表示一个非结构化数据,构建非结构化数据模型。对模型进行了仿真分析,分析结果表明了模型有效且可行,具有轻量级、支持复杂检索、检索结果准确度高等优势,为大数据管理提供支撑。 展开更多
关键词 结构数据 数据管理 用户行为 数据模型 属性
在线阅读 下载PDF
E-learning非结构化数据管理系统的构建与实现 被引量:10
4
作者 韦琳 袁泉 +1 位作者 霍剑青 王晓蒲 《中国科学技术大学学报》 CAS CSCD 北大核心 2010年第6期623-628,共6页
针对e-learning教学系统非结构化数据管理中存在着文件系统和数据库记录的不一致性和非结构化文件信息不能直接提取的问题,提出了在数据库和文件系统相结合的管理模式基础上加入文件控制模块和元数据提取模块,构建了基于元数据的e-learn... 针对e-learning教学系统非结构化数据管理中存在着文件系统和数据库记录的不一致性和非结构化文件信息不能直接提取的问题,提出了在数据库和文件系统相结合的管理模式基础上加入文件控制模块和元数据提取模块,构建了基于元数据的e-learning教学非结构化数据管理系统,实现了对e-learning教学系统中非结构化文件的统一管理和信息直接提取,减少了人工输入,提高了效率. 展开更多
关键词 结构数据 E-LEARNING 数据
在线阅读 下载PDF
用电信息采集系统非结构化数据管理设计 被引量:21
5
作者 祝恩国 刘宣 葛磊蛟 《电力系统及其自动化学报》 CSCD 北大核心 2016年第10期123-128,共6页
针对用电信息采集系统的非结构化数据具有海量、接入点多而分散等特点,本文提出一种用电信息采集系统非结构化数据管理设计方案。首先,对用电信息采集系统的非结构化数据进行分类。其次,提出了数据采集、数据存储和数据挖掘等3部分的管... 针对用电信息采集系统的非结构化数据具有海量、接入点多而分散等特点,本文提出一种用电信息采集系统非结构化数据管理设计方案。首先,对用电信息采集系统的非结构化数据进行分类。其次,提出了数据采集、数据存储和数据挖掘等3部分的管理设计方案:数据采集主要实现非结构化数据的收集;数据存储包括数据预处理和Hadoop两部分,完成海量数据的快速存储;数据挖掘按照文本、视频、音频3种类别分类处理,实现海量数据挖掘应用。该方案对用电信息采集系统的海量非结构化数据管理,有一定的参考价值。 展开更多
关键词 用电信息采集系统 结构数据 框架设计 海量数据 数据挖掘
在线阅读 下载PDF
面向海量非结构化数据的非关系型存储管理机制 被引量:8
6
作者 刘超 胡成玉 +2 位作者 姚宏 梁庆中 颜雪松 《计算机应用》 CSCD 北大核心 2016年第3期670-674,共5页
针对传统的关系数据存储系统性能不足、容错性差,无法适应海量非结构化数据管理的问题,提出一种高性能、高可用非关系型存储管理机制。首先,设计了良好的用户访问服务接口,通过高效的一致性哈希算法支持数据分发到多个存储节点;其次,采... 针对传统的关系数据存储系统性能不足、容错性差,无法适应海量非结构化数据管理的问题,提出一种高性能、高可用非关系型存储管理机制。首先,设计了良好的用户访问服务接口,通过高效的一致性哈希算法支持数据分发到多个存储节点;其次,采用可配置的数据副本机制改善存储系统的可用性;最后,提出查询故障处理机制,用以提升存储系统的容错性,避免节点失效导致服务中断问题。实验结果表明,在不同规模用户负载下,新的存储系统的并发访问请求能力和传统的文件系统、关系数据库相比,分别提升了30%和50%;同时,在合理响应时间内,故障状态下的存储系统的可用性损失小于14%。因此,该机制适用于海量非结构化数据的高效存储管理。 展开更多
关键词 结构数据 海量数据存储 关系型存储管理 一致性哈希 故障处理
在线阅读 下载PDF
MongoDB索引的用电信息非结构化数据存储方法 被引量:12
7
作者 徐英辉 祝恩国 +1 位作者 赵睿 杨挺 《电力系统及其自动化学报》 CSCD 北大核心 2017年第9期93-97,共5页
随着用电信息采集系统的健全,双向互动化功能的需求增加,系统所承载的用电信息由最初的规整结构化数据演变成结构化数据和多类型非结构化数据的混杂,且数据量也日益聚增。本文对用电信息采集系统的非结构化数据组成进行了梳理,从数据源... 随着用电信息采集系统的健全,双向互动化功能的需求增加,系统所承载的用电信息由最初的规整结构化数据演变成结构化数据和多类型非结构化数据的混杂,且数据量也日益聚增。本文对用电信息采集系统的非结构化数据组成进行了梳理,从数据源角度出发,按照客户用电信息数据和客户数据两大类别,分别对用电信息采集系统涉及的A、B、C、D、E 5类用户进行了非结构化数据特征分析。本文提出采用MongoDB索引Hadoop分布式文件系统的新型用电信息采集系统非结构化数据存储方法,实现对系统中混杂非结构化数据的分类存储和准确实时读写,为双向互动化功能提供了良好底层泛在数据支撑。 展开更多
关键词 结构数据 用电信息数据 HADOOP分布式文件系统 MONGODB
在线阅读 下载PDF
非结构性数据驱动的混合分解集成碳交易价格组合预测 被引量:11
8
作者 刘金培 张了丹 +1 位作者 朱家明 陈华友 《运筹与管理》 CSSCI CSCD 北大核心 2023年第3期149-154,共6页
碳交易价格的有效预测有助于投资者合理决策以及政府制定科学的碳交易政策。本文提出一种非结构性数据驱动的混合分解集成碳交易价格组合预测方法。首先,基于百度指数获得碳交易相关非结构性数据,并利用主成分分析(PCA)方法提取其主成... 碳交易价格的有效预测有助于投资者合理决策以及政府制定科学的碳交易政策。本文提出一种非结构性数据驱动的混合分解集成碳交易价格组合预测方法。首先,基于百度指数获得碳交易相关非结构性数据,并利用主成分分析(PCA)方法提取其主成分。其次,对主成分序列与碳交易价格历史数据进行经验模态分解(EMD)、变分模态分解(VMD)与小波分解(WT),按频率高低重构后得到它们的高、低频序列和趋势项。然后,自适应选取自回归移动平均模型(ARIMA)、Holt指数平滑法和人工神经网络模型(ANN),结合非结构信息对碳价格的高、低频序列和趋势项进行预测。最后,基于BP神经网络等对三种分解方法的预测值分层集成,得到碳价格最终预测结果。对比实验结果显示,上述组合预测方法充分利用了多源信息,预测精度高且适用性良好。 展开更多
关键词 组合预测 碳价格 混合分解集成 结构数据 主成分分析
在线阅读 下载PDF
面向云存储的非结构化数据存取 被引量:50
9
作者 谢华成 陈向东 《计算机应用》 CSCD 北大核心 2012年第7期1924-1928,1942,共6页
非结构化数据呈爆炸态势增长,现有存储技术在I/O吞吐能力、可扩展性及易管理性等方面亟待改进。存储系统以云存储和可靠性理论为基础,建立了非结构化数据的分布式存储模型,并设计了可靠度函数。采用分布式关系数据库管理系统(RDBMS)作... 非结构化数据呈爆炸态势增长,现有存储技术在I/O吞吐能力、可扩展性及易管理性等方面亟待改进。存储系统以云存储和可靠性理论为基础,建立了非结构化数据的分布式存储模型,并设计了可靠度函数。采用分布式关系数据库管理系统(RDBMS)作为存储底层,将非结构化数据直接存储于数据表中,实现了非结构化数据和元数据的分离式存储和统一管理,进而提升了存储系统性能。相对于集中式存储,新系统具有较高的可用性。仿真结果显示,存储系统可靠度高且易于扩展。该分布式存储系统可应用于动态开放计算环境,提供效能较高的云存储服务。 展开更多
关键词 云存储 结构数据存储 可靠度函数 数据分离存储 存储仿真
在线阅读 下载PDF
HotRank:热度敏感的非结构化数据检索排名算法 被引量:3
10
作者 韩晶 宋美娜 +1 位作者 鄂海红 宋俊德 《计算机应用研究》 CSCD 北大核心 2013年第5期1306-1308,共3页
为满足用户对非结构化数据检索的需求,分析用户对数据的操作行为,提出一种新型的数据热度敏感的非结构化数据检索排名算法HotRank。通过对数据操作情况(任务、访问次数、编辑时长等)进行日志记录,形成非结构化数据检索数据集。在此基础... 为满足用户对非结构化数据检索的需求,分析用户对数据的操作行为,提出一种新型的数据热度敏感的非结构化数据检索排名算法HotRank。通过对数据操作情况(任务、访问次数、编辑时长等)进行日志记录,形成非结构化数据检索数据集。在此基础上,定义数据的任务相似度和数据热度计算方法实现该算法。结合实例仿真,对算法进行评估,并将仿真结果与其他算法进行比较,证明了该排名算法的准确率优于其他算法。 展开更多
关键词 结构数据 检索 排名 热度
在线阅读 下载PDF
非结构化数据特征建模关键技术研究 被引量:6
11
作者 蔡宇翔 付婷 +2 位作者 倪时龙 苏江文 刘心 《电网与清洁能源》 北大核心 2017年第1期13-17,23,共6页
在智能电网大数据中,非结构化数据占据比例最大,且增速是结构化数据的10~50倍,已成为智能电网大数据处理的关键技术。针对非结构化数据存在数量巨大、模式滞后问题,基于现实数据存在的诸多特征,提出来非结构化数据特征模型建模。文中重... 在智能电网大数据中,非结构化数据占据比例最大,且增速是结构化数据的10~50倍,已成为智能电网大数据处理的关键技术。针对非结构化数据存在数量巨大、模式滞后问题,基于现实数据存在的诸多特征,提出来非结构化数据特征模型建模。文中重点论述了基于智能电网大数据的非结构化数据特征建模的关键技术,包括原始数据以及特征数据的存储、查询以及数据可视化、特征空间的选取等。 展开更多
关键词 智能电网大数据 结构数据 特征建模 关键技术
在线阅读 下载PDF
面向大数据的城市轨道交通非结构化数据管理 被引量:5
12
作者 顾伟华 黄天印 郭鹏 《城市轨道交通研究》 北大核心 2016年第11期77-80,共4页
针对城市轨道交通大数据,分析了城市轨道交通非结构化数据的来源、类型和产生方式,讨论了非结构化数据的获取方式和组织策略,结合上海城市轨道交通实际情况提出了适用的城市轨道交通非结构化数据存储架构。
关键词 城市轨道交通 结构数据 数据管理 存储架构
在线阅读 下载PDF
一种基于文本相似度矩阵运算的非结构化海量投诉数据分类算法 被引量:5
13
作者 李青 陈阳 +1 位作者 谢浩然 蒙圣光 《计算机工程与科学》 CSCD 北大核心 2012年第1期103-107,共5页
随着互联网和信息技术的日新月异,非结构化数据量有呈几何级数增长的趋势。尤其是Web2.0网络社区的流行与火爆,使得增长趋势得到了进一步的加速。因此,面对海量的非结构化数据,如何有效地管理和组织它们,以便于终端用户进行信息存取,成... 随着互联网和信息技术的日新月异,非结构化数据量有呈几何级数增长的趋势。尤其是Web2.0网络社区的流行与火爆,使得增长趋势得到了进一步的加速。因此,面对海量的非结构化数据,如何有效地管理和组织它们,以便于终端用户进行信息存取,成为了一个迫在眉睫的重要研究课题。本文通过对非结构化数据的文本的建模和文本相似度比较,对于大规模非结构化数据的分类算法进行了讨论和研究,并将此算法应用到了中国移动的投诉数据分类系统中。在系统实施后,非常有效地提高了投诉数据的处理效率,从而印证所提出分类算法及系统框架的有效性。 展开更多
关键词 文本相似度 结构数据 投诉数据分类系统
在线阅读 下载PDF
非结构化数据的ETL设计 被引量:3
14
作者 曹金山 张泽滨 《现代电子技术》 2011年第10期48-50,共3页
为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的... 为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非结构化数据的ETL设计,设计完全满足标准的数据整合要求。 展开更多
关键词 结构数据 结构数据 CWM ETL
在线阅读 下载PDF
地质非结构化数据研究战略——以JPG图件为例 被引量:1
15
作者 崔宁 陈建平 《地质通报》 CAS CSCD 北大核心 2015年第7期1365-1368,共4页
从大数据时代背景出发,提出研究地质非结构化数据的战略意义。通过分析地质数据的特点,发现其大数据性。以JPG图件为例,展开国内外研究现状分析和行业应用分析。最后通过分析地质JPG图件数据的使用情况,提出地质JPG图件数据战略规划。
关键词 数据时代 结构数据 JPG图件 战略规划
在线阅读 下载PDF
非结构化大数据云存储稳定性优化评定--评《大数据技术原理与应用》 被引量:2
16
作者 雷振江 《现代雷达》 CSCD 北大核心 2021年第2期I0016-I0016,共1页
非结构化数据作为与结构化数据相对的一种数据,存在数据本身与预定义数据模型不匹配,用数据库的二维逻辑难以表述的现象。换而言之,即这种数据存在结构是不规则或者不完整的。然而非结构数据也是公众日常生活中接触最多的数据类型,比如... 非结构化数据作为与结构化数据相对的一种数据,存在数据本身与预定义数据模型不匹配,用数据库的二维逻辑难以表述的现象。换而言之,即这种数据存在结构是不规则或者不完整的。然而非结构数据也是公众日常生活中接触最多的数据类型,比如办公文档、文本、报表、图像、音频、视频信息等等都是非结构数据。随着人们的日常生活以及工作中对于非结构数据的运用日趋频繁,接触愈发紧密,对非结构化大数据存储也提出了更高的要求。只有能保证数据存储的稳定了,才能够让公众对于大数据的创建以及应用加工提供保障。特别是云存储技术的发展,进一步让公众摆脱了原先存储硬件不足的束缚,为非机构大数据的存储开辟了更广阔的空间。本文就将借用《大数据技术原理与应用》一书,对非结构化大数据云存储稳定性进行优化评定,深入发掘云存储带给公众的便捷以及可靠。 展开更多
关键词 结构化大数据 结构数据 非结构数据 数据技术 数据类型 定义数据 办公文档 视频信息
在线阅读 下载PDF
大数据环境下微信公众平台非结构化数据融合研究 被引量:8
17
作者 郭春霞 《现代情报》 CSSCI 北大核心 2015年第8期141-143,150,共4页
微信公众平台具有开源、发布及时的特点,目前它已经成为各机构发布信息的重要渠道。但这类数据又具有非结构化、无语义描述的特点,如何将微信公众平台从非结构化数据转化为可分析、判断的结构化数据,成为一个亟须解决的问题。针对该问题... 微信公众平台具有开源、发布及时的特点,目前它已经成为各机构发布信息的重要渠道。但这类数据又具有非结构化、无语义描述的特点,如何将微信公众平台从非结构化数据转化为可分析、判断的结构化数据,成为一个亟须解决的问题。针对该问题,本文提出一个对微信公众平台结构化数据监测的层次体系。这一方法将通过数据融合方式,从平台资源中抽取数据,构建结构化数据库,进行权重比较,判断情报价值,进而实现对研究领域的态势监测。 展开更多
关键词 微信公众平台 结构数据 同型异源数据 异型异源数据 同型同源数据 数据融合 态势监测
在线阅读 下载PDF
基于非结构化数据中台的高校档案数字化转型路径探索 被引量:13
18
作者 李娜 《中国档案》 北大核心 2022年第12期64-66,共3页
近年来,随着以云计算、大数据和人工智能为代表的新一代信息技术的飞速发展和“互联网+”行动的推进,各行业都开始加快数字化转型进程,高校信息化建设也从以“管理信息系统、统一门户”为代表的数据管理、数据整合阶段全面迈向以“流程... 近年来,随着以云计算、大数据和人工智能为代表的新一代信息技术的飞速发展和“互联网+”行动的推进,各行业都开始加快数字化转型进程,高校信息化建设也从以“管理信息系统、统一门户”为代表的数据管理、数据整合阶段全面迈向以“流程再造、数据治理”为代表的信息协同、知识共享阶段,信息技术与教育教学主体功能深入融合. 展开更多
关键词 结构数据 管理信息系统 数据治理 数据整合 统一门户 人工智能 数据管理 云计算
在线阅读 下载PDF
面向产品云设计过程的数据建模与检索重排序方法
19
作者 苏兆婧 郭开元 +3 位作者 杨梅 丛宏宇 余隋怀 黄悦欣 《图学学报》 北大核心 2025年第4期899-908,共10页
为应对产品设计过程非结构化数据处理的挑战,解决通用检索系统排序策略固定、推送特定行业数据缺乏精细度的局限,提出了一种面向产品云设计过程的非结构化数据建模与检索方法。首先,面向产品云设计创新和决策过程的实际需求,构建非结构... 为应对产品设计过程非结构化数据处理的挑战,解决通用检索系统排序策略固定、推送特定行业数据缺乏精细度的局限,提出了一种面向产品云设计过程的非结构化数据建模与检索方法。首先,面向产品云设计创新和决策过程的实际需求,构建非结构化数据处理框架。随后,提出了将科技文档版面分析问题视作目标检测问题的新思路,在领域科技文档数据库的基础上,构建了产品设计领域多要素版面分析与识别模型。通过构建数据特征空间和标签特征,结合LambdaMART算法,实现了领域科技文档数据的动态排序与高效检索。最后,通过案例验证了该方法在产品技术革新中的应用潜力,为数智驱动的设计迭代与精准决策提供了创新支持。 展开更多
关键词 产品云设计 结构数据 数据聚合 版面分析 LambdaMART
在线阅读 下载PDF
异构集群中非结构化大数据检测方法 被引量:1
20
作者 李亚红 龚喜平 冯庆华 《重庆理工大学学报(自然科学)》 CAS 北大核心 2020年第7期170-175,共6页
传统的非结构化大数据检测方法只分析数据的统计特征、缺少对其中模糊闭频繁项集特征的识别,易出现监测结果不理想的问题。为了提高对异构集群中非结构化大数据的检索识别能力,提出一种基于模糊闭频繁项集特征挖掘的异构集群中非结构化... 传统的非结构化大数据检测方法只分析数据的统计特征、缺少对其中模糊闭频繁项集特征的识别,易出现监测结果不理想的问题。为了提高对异构集群中非结构化大数据的检索识别能力,提出一种基于模糊闭频繁项集特征挖掘的异构集群中非结构化大数据检测方法。分析异构集群中非结构化大数据的统计特征信息,并采用大数据信息融合方法对其进行状态监测和特征识别,从中提取非结构化大数据的模糊闭频繁项集特征量;利用支持向量机模型对非结构化大数据检测进行分类处理,根据不同大数据的分类属性进行自动检测识别,提高对异构集群中非结构化大数据检测的准确率和监测过程抗干扰能力。实验结果表明:采用该方法对异构集群中非结构化大数据检测的准确性和检测精度较高,具有很强的应用优势。 展开更多
关键词 异构集群 结构化大数据 检测识别 特征提取 模糊闭频繁项集特征量
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部