期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种基于文档建模的DWG文件的数据挖掘模型 被引量:1
1
作者 钟春来 周欣 +1 位作者 陈刚 董金祥 《计算机应用研究》 CSCD 北大核心 2004年第3期243-245,共3页
在设计院和设计部门积累的DWG文件进行知识发现,具有非常重要的意义。给出一个体系结构模型,这个模型通过将DWG文件转换成为常用的数据库,并在其结果的基础上使用各种工具进行挖掘需要的信息。
关键词 数据挖掘 DWG OPENDWG OBJECTARX 文档建模 数据转换 XML
在线阅读 下载PDF
基于词共现的文档表示模型 被引量:8
2
作者 常鹏 冯楠 《中文信息学报》 CSCD 北大核心 2012年第1期51-57,共7页
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难... 文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难以得到很大的提升。该文以词共现分析为基础,讨论了文档主题与词的二阶关系之间的潜在联系,进而定义了词共现度及与文档主题相关度的量化计算方法,利用关联规则算法抽取出文档集上的词共现组合,提出了基于词共现组合的文档向量主题表示模型(Co-occurrence Term based Vector SpaceModel,CTVSM),定义了基于CTVSM的文档相似度。实验表明,CTVSM能够准确反映文档之间的相关关系,比经典的文档向量空间模型(Vector Space Model,VSM)具有更强的主题区分能力。 展开更多
关键词 文档建模 词共现 文档相似度 文本挖掘
在线阅读 下载PDF
基于Web的工作流技术在文档管理系统中的应用 被引量:12
3
作者 胡杰 党延忠 《计算机工程与应用》 CSCD 北大核心 2003年第12期224-227,共4页
文章针对如何控制文档流程和动态管理系统需求的问题,提出了建立应用工作流技术的文档管理系统的方法。文中根据实际项目的研究,在系统分析的基础上,详细介绍了文档管理建模的方法和步骤以及基于Web的工作流技术的实现。
关键词 工作流 文档管理系统 文档管理
在线阅读 下载PDF
基于多级文本检测的复杂文档图像扭曲矫正算法 被引量:3
4
作者 寇喜超 张鸿锐 +1 位作者 冯杰 郑雅羽 《计算机科学》 CSCD 北大核心 2021年第12期249-255,共7页
文档的扭曲矫正是进行文档OCR(Optical Character Recognition)的基础步骤,对提高OCR的准确率有重要作用。文档图像的扭曲矫正常常依赖于文本的提取,然而目前文档图像矫正算法大都无法对复杂文档中的文本进行准确定位和分析,导致其矫正... 文档的扭曲矫正是进行文档OCR(Optical Character Recognition)的基础步骤,对提高OCR的准确率有重要作用。文档图像的扭曲矫正常常依赖于文本的提取,然而目前文档图像矫正算法大都无法对复杂文档中的文本进行准确定位和分析,导致其矫正效果不理想。针对此问题,提出了一种基于全卷积网络的文字检测框架,并使用合成文档对网络进行针对性训练,可实现对字符、词、文本行三级文本信息的准确获取,进而对文本进行自适应采样并利用三次函数对页面进行三维建模,将矫正问题转化为模型参数优化问题,达到矫正复杂文档图像的目的。使用合成扭曲文档以及真实测试数据进行矫正实验,结果表明,提出的矫正方法能够对复杂文档进行精确的文本提取,明显改善了复杂文档图像矫正后的视觉效果,相比于其他算法,该算法矫正后OCR的准确率得到显著提高。 展开更多
关键词 卷积神经网络 文本检测 文档三维 文档图像矫正 光学字符识别
在线阅读 下载PDF
基于文本摘要的无监督关键词抽取方法
5
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 文档建模 文档主题分析 语义处理 权重优化 向量相似性
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部