期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
基于HTML文档结构的向量空间模型的改进 被引量:10
1
作者 胡健 陆一鸣 马范援 《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型... 根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高. 展开更多
关键词 HTML文档结构 信息检索 向量空间模型链接文本TREC 向量空间模型 HTML文档 文档结构 向量模型 分布特征 检索性能 标签
在线阅读 下载PDF
基于PDF文档结构的数字水印算法 被引量:16
2
作者 钟征燕 郭燕慧 徐国爱 《计算机应用》 CSCD 北大核心 2012年第10期2776-2778,2782,共4页
在数字产品日益普及的今天,PDF文档的版权保护问题已成为信息安全领域研究的热点。通过分析PDF文档的结构及相关数字水印算法,针对当前一些大容量文本水印算法存在增加文档大小的缺陷,提出了一种基于PDF文档结构的数字水印算法。该算法... 在数字产品日益普及的今天,PDF文档的版权保护问题已成为信息安全领域研究的热点。通过分析PDF文档的结构及相关数字水印算法,针对当前一些大容量文本水印算法存在增加文档大小的缺陷,提出了一种基于PDF文档结构的数字水印算法。该算法利用行末标识符不会在文档中显示的特性,通过等量替换PDF文档中具有固定格式的交叉引用表的行末标识符,来实现水印信息的间接嵌入。实验结果表明,该算法水印容量能满足数字版权保护的要求,隐蔽性好,能抵抗统计等攻击。 展开更多
关键词 数字水印 PDF文档 文档结构 数字版权保护 行末标识符 信息隐藏
在线阅读 下载PDF
XML文档结构定义规范—XML Schema 被引量:23
3
作者 王茹 宋瀚涛 《计算机应用研究》 CSCD 北大核心 2002年第1期127-129,共3页
介绍了XML文档结构定义规范—XMLSchema规范及其组成部分 ,并通过一个典型示例说明了XMLSchema的特点 。
关键词 XML XML SCHEMA 文档结构定义规范 数据模型
在线阅读 下载PDF
基于文档结构的向量空间检索模型研究 被引量:11
4
作者 韩毅 《情报学报》 CSSCI 北大核心 2004年第2期158-162,共5页
分析了传统向量空间检索模型在网络信息检索中的不足,给出了基于文档结构的向量空间检索模型.该模型将文档在逻辑上分成N段,依据特征项对文档内容代表能力的不同,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权... 分析了传统向量空间检索模型在网络信息检索中的不足,给出了基于文档结构的向量空间检索模型.该模型将文档在逻辑上分成N段,依据特征项对文档内容代表能力的不同,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量,并以此为基础计算文档与提问的匹配相似度值,从而决定匹配文档的检出与排列顺序.进行了两种模型算法时间复杂度的比较分析,讨论了改进模型的可能应用前景和存在问题. 展开更多
关键词 网络信息检索 向量空间模型 文档结构 检索算法 时间复杂度
在线阅读 下载PDF
基于JSON文档结构的工业大数据多维分析方法 被引量:14
5
作者 李敏波 许鑫星 +1 位作者 李强 韩乐 《中国机械工程》 EI CAS CSCD 北大核心 2020年第14期1700-1707,1716,共9页
在智能生产制造过程中,工业数据存在复杂的关联关系和多源异构特性,不断增长的工业大数据使得数据分析与挖掘异常复杂,而传统的基于数据仓库或关系型数据库的工业数据分析方法数据处理不灵活、分析查询效率低。提出了基于JSON文档结构... 在智能生产制造过程中,工业数据存在复杂的关联关系和多源异构特性,不断增长的工业大数据使得数据分析与挖掘异常复杂,而传统的基于数据仓库或关系型数据库的工业数据分析方法数据处理不灵活、分析查询效率低。提出了基于JSON文档结构的工业大数据联机分析处理(OLAP)模型架构,使用Key-Value数据的JSON文档结构灵活定义工业数据结构,将维度信息中的表结构转换为基于JSON的文档结构,将事实包含的维度信息通过嵌套文档的方式保存。通过构建分析目标为根节点的文档树,基于Elasticsearch平台储存文档结构树并建立倒排索引,将查询与分析操作转变为文档内容的遍历与查询,使用倒排索引的方法提高数据分析查询的效率。设计了自定义配置检索条件与查询语句的智能解析引擎,实现了工业数据多维分析可视化图表的智能生成。 展开更多
关键词 工业大数据 联机分析处理(OLAP)模型架构 多维分析 JSON文档结构
在线阅读 下载PDF
基于文档结构与深度学习的金融公告信息抽取 被引量:10
6
作者 黄胜 王博博 朱菁 《计算机工程与设计》 北大核心 2020年第1期115-121,共7页
针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽... 针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽取包含结构化字段信息的信息句;将字段的结构化信息抽取看作序列标注问题,分词时加入领域知识词典,构建基于Bi-LSTM-CRF的神经网络模型进行字段信息识别。实验结果表明,该信息抽取方法可以满足多类型公告的结构化信息提取,最终的信息句与字段信息抽取的平均F1值均可达到91%以上,验证了该方法在产品业务中的可行性和实用性。 展开更多
关键词 公告 信息抽取 神经网络 文档结构 序列标注
在线阅读 下载PDF
基于文档类型定义约束的文档结构生成算法 被引量:1
7
作者 李景春 武港山 张福炎 《计算机应用与软件》 CSCD 北大核心 2002年第2期54-57,共4页
文档类型定义(DTD)是一类文档逻辑结构的共同特征的规范化描述,作为文档内容层次关系描述的结构是文档类型定义的一个具体体现,并被文档类型定义所制约。通过采用一种快速的定位方法来支持文档结构节点在文档类型定义中的定位,本文提出... 文档类型定义(DTD)是一类文档逻辑结构的共同特征的规范化描述,作为文档内容层次关系描述的结构是文档类型定义的一个具体体现,并被文档类型定义所制约。通过采用一种快速的定位方法来支持文档结构节点在文档类型定义中的定位,本文提出了一个基于文档类型定义约束的文档结构生成算法,该算法可为基于结构的文档处理提供高效的实时约束机制和更严格的验证机制。 展开更多
关键词 文档类型定义 办公自动化 文档结构生成算法 计算机
在线阅读 下载PDF
一种类ODA的多媒体文档结构模型
8
作者 汤庸 苏军根 傅秀芬 《计算机工程》 CAS CSCD 北大核心 1998年第4期16-17,32,共3页
ISO的办公文档结构ODA较好地解决了传统的文档结构定义问题,但是多媒体文档还必须增加一些新需求。文中给出一种描述多媒体文档结构的类ODA模型,并着重讨论逻辑结构和样式结构的表示方法。
关键词 多媒体 文档结构 逻辑结构 ODA
在线阅读 下载PDF
基于双向LSTM网络的流式文档结构识别 被引量:10
9
作者 张真 李宁 田英爱 《计算机工程》 CAS CSCD 北大核心 2020年第1期60-66,73,共8页
流式文档结构识别对于排版格式自动优化和信息提取等具有重要作用。基于规则的结构识别方法泛化能力较差,而基于机器学习的方法未考虑文档单元之间的长距离依赖关系,识别准确率较低。针对该问题,提出一种基于双向长短期时间记忆(LSTM)... 流式文档结构识别对于排版格式自动优化和信息提取等具有重要作用。基于规则的结构识别方法泛化能力较差,而基于机器学习的方法未考虑文档单元之间的长距离依赖关系,识别准确率较低。针对该问题,提出一种基于双向长短期时间记忆(LSTM)网络的流式文档结构识别方法。从文档单元的格式、内容与语义3个方面筛选关键特征,并将文档结构识别看作序列标注问题,使用双向LSTM神经网络构建识别模型,以实现对18种逻辑标签的识别。实验结果表明,该方法能够对文档结构进行有效识别,其识别效果优于方正飞翔软件。 展开更多
关键词 文档结构识别 流式文档 特征提取 序列标注 长短期时间记忆网络
在线阅读 下载PDF
面向机器学习的流式文档逻辑结构标注方法研究 被引量:4
10
作者 刘倩 李宁 田英爱 《中文信息学报》 CSCD 北大核心 2019年第9期50-59,78,共11页
针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文... 针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对文档结构识别的准确率与召回率,F值达到97.5%。 展开更多
关键词 结构标注 文档结构识别 机器学习
在线阅读 下载PDF
一种通过内容和结构查询文档数据库的方法(英文) 被引量:9
11
作者 王晓玲 文继荣 +2 位作者 栾金锋 马维英 董逸生 《软件学报》 EI CSCD 北大核心 2003年第5期976-983,共8页
文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化 文件的检索,提出了一种新的计算相似... 文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化 文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与系统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效. 展开更多
关键词 文档数据库 结构查询 结构文档 计算相似度
在线阅读 下载PDF
基于行为的结构化文档多级访问控制 被引量:18
12
作者 熊金波 姚志强 +2 位作者 马建峰 李凤华 李琦 《计算机研究与发展》 EI CSCD 北大核心 2013年第7期1399-1408,共10页
针对当前云计算环境中因缺乏多级安全机制而使结构化文档容易产生信息泄露和非授权访问等问题,提出基于行为的多级访问控制(action-based multilevel access control model,AMAC)模型并给出策略的形式化描述.利用信息流中的不干扰理论建... 针对当前云计算环境中因缺乏多级安全机制而使结构化文档容易产生信息泄露和非授权访问等问题,提出基于行为的多级访问控制(action-based multilevel access control model,AMAC)模型并给出策略的形式化描述.利用信息流中的不干扰理论建立AMAC不干扰模型,并证明AMAC模型中多级访问控制策略的安全性.与已有访问控制模型的比较与分析表明,AMAC模型既可以利用角色、上下文和用户访问行为以提高访问控制策略的灵活性,还可以依据用户,用户访问行为和结构化文档的安全等级实现多级安全机制. 展开更多
关键词 多级安全 多级访问控制 结构文档 不干扰理论 云计算 访问行为
在线阅读 下载PDF
结构性文档下基于MCPS2的意图维护与undo算法研究 被引量:3
13
作者 王丹 朱思征 +1 位作者 王山山 高丽萍 《小型微型计算机系统》 CSCD 北大核心 2021年第11期2284-2291,共8页
本文在移动平台下基于用户活跃度的结构性文档意图维护算法(MCPS2)研究的基础上,对master转移、节点编辑权限请求、删除操作的等方面执行方式进行优化,并加入支持undo操作的相关算法.此算法中涉及的网络连接模式、文档结构、复制策略延... 本文在移动平台下基于用户活跃度的结构性文档意图维护算法(MCPS2)研究的基础上,对master转移、节点编辑权限请求、删除操作的等方面执行方式进行优化,并加入支持undo操作的相关算法.此算法中涉及的网络连接模式、文档结构、复制策略延用MCPS2中的设计.在标题节点编辑引入arbitrated、readonly和locked等5类操作预设权限,以提升协作站点请求节点的反馈效率;设置master继承机制,副本占比与请求活跃度优先制,提升master转移的合理性;根据结构文档的特性,调整delete操作的执行方式,提高算法可用性;站点设置UHB,结合控制算法,支持站点undo操作.最后给出详细算法复杂度分析,并举例完整描述算法的执行过程,以证明算法的有效性. 展开更多
关键词 结构文档 意图维护 UNDO 节点权限 master转移
在线阅读 下载PDF
非结构化表格文档数据抽取与组织模型研究 被引量:12
14
作者 张元鸣 陈苗 +2 位作者 陆佳炜 徐俊 肖刚 《浙江工业大学学报》 CAS 北大核心 2016年第5期487-494,共8页
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括... 针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析. 展开更多
关键词 结构化表格文档 数据抽取 结构化数据模型 数据分析
在线阅读 下载PDF
移动云平台下基于局部复制的结构性文档协同编辑冲突消解 被引量:2
15
作者 王丹 朱思征 +3 位作者 高丽萍 王山山 徐烨 史旻 《小型微型计算机系统》 CSCD 北大核心 2018年第10期2240-2247,共8页
本文针对移动设备存储空间和计算能力有限的特点,在移动云平台下研发设计的一款基于局部复制的结构性文档协同编辑冲突消解算法,简称MCPS算法,在其基础上进行了冲突消解内容的补充.结构性文档在日常生活中较高的使用率和云平台下科研技... 本文针对移动设备存储空间和计算能力有限的特点,在移动云平台下研发设计的一款基于局部复制的结构性文档协同编辑冲突消解算法,简称MCPS算法,在其基础上进行了冲突消解内容的补充.结构性文档在日常生活中较高的使用率和云平台下科研技术的迅猛发展,以及局部复制技术的提出,为本文的研究奠定了可靠基础. MCPS算法部署在云服务器端,各协作客户端通过局部复制策略在本地参与结构性文档(本文又称标题结构文档)的协同编辑工作,且本地部分副本内容通过树结构存储.创新性的提出副本监听与活跃度两个概念来辅助判断冲突产生时操作执行的优先级,更大程度的满足多用户的意愿.该算法总结出大致6种冲突情况,在前文的基础上,补充给出另外5种冲突消解处理方法.最后通过更加详细的案例分析描述了整个策略的执行过程,证明策略的有效性和正确性. 展开更多
关键词 云服务器 局部复制 结构文档 MCPS 活跃度
在线阅读 下载PDF
半结构化文档集的结构模式提取的研究与实现 被引量:5
16
作者 杨建武 陈晓鸥 《计算机工程》 CAS CSCD 北大核心 2001年第10期19-21,113,共4页
提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应... 提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应用于实际系统中。 展开更多
关键词 结构文档 结构模式提取 WEB INTERNET
在线阅读 下载PDF
一种用于结构化文档检索的贝叶斯网络 被引量:4
17
作者 徐建民 陈振亚 《计算机工程》 CAS CSCD 北大核心 2011年第13期43-45,共3页
分析结构化文档的表示方法及检索特点,对一种用于结构化文档检索的贝叶斯网络进行研究。讨论该贝叶斯网络的构造方法、概率估计及推理过程。用网络节点表示文档索引术语和结构单元,用弧表示术语和结构单元的隶属关系,根据TF-IDF方法估... 分析结构化文档的表示方法及检索特点,对一种用于结构化文档检索的贝叶斯网络进行研究。讨论该贝叶斯网络的构造方法、概率估计及推理过程。用网络节点表示文档索引术语和结构单元,用弧表示术语和结构单元的隶属关系,根据TF-IDF方法估计各节点的先验概率,当给定一个查询时,通过计算每个结构单元的条件概率得到该结构单元的相关值。实例验证了该贝叶斯网络的有效性。 展开更多
关键词 贝叶斯网络 结构文档 信息检索 先验概率估计
在线阅读 下载PDF
云计算环境中结构化文档形式化建模 被引量:2
18
作者 熊金波 姚志强 金彪 《计算机应用》 CSCD 北大核心 2013年第5期1267-1270,共4页
结构化文档是云计算环境中实现信息交互与传播的载体,针对已有研究工作缺乏能够描述这种载体的结构化文档模型的问题,在深入分析云计算环境中结构化文档特征的基础上,对文档元素、原子文档元素、连接、文档片段、复杂文档元素等进行形... 结构化文档是云计算环境中实现信息交互与传播的载体,针对已有研究工作缺乏能够描述这种载体的结构化文档模型的问题,在深入分析云计算环境中结构化文档特征的基础上,对文档元素、原子文档元素、连接、文档片段、复杂文档元素等进行形式化定义,建立能够满足这种特征的结构化文档形式化模型。最后,指出云计算环境中结构化文档进一步的研究方向。 展开更多
关键词 云计算 结构文档模型 形式化方法 文档元素
在线阅读 下载PDF
基于贝叶斯网络的结构化文档检索模型 被引量:1
19
作者 赵爽 徐建民 《计算机工程与应用》 CSCD 北大核心 2007年第21期180-183,共4页
研究表明合理考虑术语之间的关系可以提高检索系统的性能。采用共现分析的方法从文档集合中学习得到术语之间的关系,并应用到结构化文档检索中,提出了一个基于贝叶斯网络的结构化文档检索模型,给出了其拓扑结构、概率估计以及推理过程... 研究表明合理考虑术语之间的关系可以提高检索系统的性能。采用共现分析的方法从文档集合中学习得到术语之间的关系,并应用到结构化文档检索中,提出了一个基于贝叶斯网络的结构化文档检索模型,给出了其拓扑结构、概率估计以及推理过程。实验表明该模型的检索性能要优于没有考虑术语之间关系的模型。 展开更多
关键词 贝叶斯网络 结构文档 结构文档检索 共现分析
在线阅读 下载PDF
层次结构文档下支持权限管理的实时协同技术研究 被引量:1
20
作者 高丽萍 陈庆奎 +1 位作者 卢暾 高丽丽 《计算机应用研究》 CSCD 北大核心 2012年第5期1690-1694,共5页
针对传统实时协同系统中各站点之间无约束操作的缺点,提出采用权限分工的方式来支持不同团队之间的文档管理。给出了支持权限管理的层次结构文档的形式化定义,描述了用户角色设置过程,定义了权限及权限操作格式,讨论了站点ID的设置及初... 针对传统实时协同系统中各站点之间无约束操作的缺点,提出采用权限分工的方式来支持不同团队之间的文档管理。给出了支持权限管理的层次结构文档的形式化定义,描述了用户角色设置过程,定义了权限及权限操作格式,讨论了站点ID的设置及初始化过程,并提出采用改进的地址空间转换算法来保证权限操作在各分布式站点的正确执行。分析了改进算法的效率提升,并通过其在Co-AutoCAD中的应用证实了策略的有效性。 展开更多
关键词 协同设计 权限管理 实时协同 层次结构文档 地址空间转换
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部