期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
Postscript格式科技文献中数学表达式的提取方法 被引量:4
1
作者 张志伟 孔凡让 吴欣 《计算机应用与软件》 CSCD 北大核心 2008年第11期157-159,162,共4页
从Postscript格式的科技文献中提取识别数学表达式,是数学表达式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的PS文档,提出了基于内容的数学表达式提取方法。首先重载了PS语言中的一些相关命令,以提取PS文档中的字符与... 从Postscript格式的科技文献中提取识别数学表达式,是数学表达式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的PS文档,提出了基于内容的数学表达式提取方法。首先重载了PS语言中的一些相关命令,以提取PS文档中的字符与线段信息;之后根据字符名称、字体、位置等信息对字符进行分析,同时连接线段并加以识别,从而提取出数学符号;最后,根据符号问的空间位置关系和启发式规则,将数学符号归并,提取出最终的表达式。实验结果表明该方法正确率达到98.56%。 展开更多
关键词 数学表达式提取 postscript 文本抽取
在线阅读 下载PDF
从Postscript格式文献中提取数学公式的方法
2
作者 张志伟 孔凡让 柴华 《数据采集与处理》 CSCD 北大核心 2008年第4期454-458,共5页
从Postscript格式文献中提取识别数学公式,是数学公式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的Postscript文档,提出了基于内容的数学公式提取方法。首先重载了Postscript语言中的一些相关命令,先后提取出Postscrip... 从Postscript格式文献中提取识别数学公式,是数学公式识别领域的一个新的研究方向。主要针对以Word和Latex为生成源的Postscript文档,提出了基于内容的数学公式提取方法。首先重载了Postscript语言中的一些相关命令,先后提取出Postscript文档中的字符及由线段连接得到的图形。然后根据字符名称、字体信息、位置信息对字符进行判断分析,提取出其中的数学符号;对提取出的图形,进行编码以识别出其对应的数学符号。最后,根据得到的数学符号之间的空间位置关系,借助启发式规则,将数学符号合并,提取出完整的数学公式。实验结果表明,该方法数学符号识别的正确率达到99.3%。 展开更多
关键词 数学公式提取 postscript 启发式规则
在线阅读 下载PDF
汉字数学表达式的自动生成 被引量:16
3
作者 张问银 孙星明 +1 位作者 曾振柄 吴尽昭 《计算机研究与发展》 EI CSCD 北大核心 2004年第5期848-852,共5页
汉字的数学表达式是一种全新的汉字表示方法 通过对汉字部件特征的深入分析 ,利用图像处理技术对汉字数学表达式的自动生成做了探讨 选取了大约 5 0 0个基本汉字部件 ,提取了各部件的连通数、亏格数、端点数、折点数、连接点数、交叉点... 汉字的数学表达式是一种全新的汉字表示方法 通过对汉字部件特征的深入分析 ,利用图像处理技术对汉字数学表达式的自动生成做了探讨 选取了大约 5 0 0个基本汉字部件 ,提取了各部件的连通数、亏格数、端点数、折点数、连接点数、交叉点数以及NMI,HNMI ,VNMI值作为汉字部件的基本特征 ;并通过汉字连通区域的分割与合并进行汉字部件的划分和识别 ;最后 ,通过汉字结构的识别得到了汉字的数学表达式 实验中 ,汉字表达式自动生成的正确率为 92 % 这将在排版印刷、广告及包装设计。 展开更多
关键词 汉字 数学表达式 特征提取 部件识别
在线阅读 下载PDF
中文文本中时间信息解析方法 被引量:17
4
作者 张春菊 张雪英 +1 位作者 李明 王曙 《地理与地理信息科学》 CSCD 北大核心 2014年第6期1-6,F0002,共7页
探讨了基于触发词汇和规则模型相结合的中文文本中时间信息解析方法。通过分析、归纳中文文本中时间信息描述特点,构建时间词汇词典和时间信息描述模式库,设计时间信息抽取、规范化表达和语义推理算法,实现了中文文本中时间信息的解析... 探讨了基于触发词汇和规则模型相结合的中文文本中时间信息解析方法。通过分析、归纳中文文本中时间信息描述特点,构建时间词汇词典和时间信息描述模式库,设计时间信息抽取、规范化表达和语义推理算法,实现了中文文本中时间信息的解析。实验结果表明,中文文本中时间信息抽取的准确率、召回率和F1值分别为75.00%、88.24%和40.54%,为泛在时空信息动态关联更新和实时挖掘分析提供数据源,且通过与空间维数据有机地、交互地组织,能够实时展现地理现象和事物的时空演化过程、时空分布特征,从而推动地理信息检索、LBS等地理信息服务向动态化、多维化方向发展。 展开更多
关键词 时间信息抽取 时间词汇词典 规范化表达 时间推理 中文文本
在线阅读 下载PDF
基于改进Hough变换的符号线段特征提取 被引量:11
5
作者 陈洪波 王强 +1 位作者 徐晓蓉 张超英 《光学精密工程》 EI CAS CSCD 2003年第6期632-636,共5页
研究了数学表达式识别中符号线段特征的提取问题。为正确提取符号的线段特征及其一些相关属性,提高识别系统的符号识别率,对Hough变换的局限性进行了分析,并作了一些改进,改进算法在原算法的基础上增加了线段的连续性的检测以及相关属... 研究了数学表达式识别中符号线段特征的提取问题。为正确提取符号的线段特征及其一些相关属性,提高识别系统的符号识别率,对Hough变换的局限性进行了分析,并作了一些改进,改进算法在原算法的基础上增加了线段的连续性的检测以及相关属性的提取,如线段数目、方向(角度)以及始末端点等。实验证明,该算法能有效地提取出符号线段及其一些属性,可应用于其他识别系统的符号特征提取。 展开更多
关键词 数学表达式识别 HOUGH变换 线段检测 特征提取
在线阅读 下载PDF
中文科技文档中的数学表达式定位 被引量:4
6
作者 张志伟 孔凡让 +2 位作者 刘维来 龙潜 刘永斌 《中文信息学报》 CSCD 北大核心 2007年第4期86-91,共6页
数学表达式定位是印刷体数学表达式识别的前提。针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS)对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档... 数学表达式定位是印刷体数学表达式识别的前提。针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS)对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档中依次提取出汉字、中文标点和英文字符,利用启发式规则合并剩余的数学符号而提取出内嵌表达式。实验表明,提出的表达式定位方法有很高的正确率。 展开更多
关键词 人工智能 模式识别 数学表达式定位 自适应神经模糊推理系统 模糊聚类 中英文分离
在线阅读 下载PDF
有效的场景文本提取算法 被引量:4
7
作者 何兴恒 胡德婷 《计算机工程与设计》 CSCD 北大核心 2008年第10期2598-2599,2603,共3页
自然场景图像中的文本提供了重要的语意信息,它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点,提出了一种文本定位准确的文本提取算法。先将原始图片进行金字塔分解,然后进行彩色图像边缘提取和二值化,再... 自然场景图像中的文本提供了重要的语意信息,它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点,提出了一种文本定位准确的文本提取算法。先将原始图片进行金字塔分解,然后进行彩色图像边缘提取和二值化,再形态学文本定位,最后文本区域字符提取。对ICDAR数据库图片的测试结果表明,该方法对文字颜色、大小字体以及排列方向具有较强的鲁棒性,同时也具有较高的精确度和提取率。 展开更多
关键词 文本提取 金字塔分解 边缘检测 二值化 数学形态学
在线阅读 下载PDF
基于多方法融合的文本定位算法的研究 被引量:4
8
作者 潘道远 宋顺林 《计算机应用与软件》 CSCD 2010年第6期236-238,255,共4页
针对自然场景中标志文本提出一种文本定位算法。在彩色图像边缘提取的基础上,利用形态学文本定位获得备选文本区域,再用神经网络对备选文本区域进行分类,最后提取文本区域文字。该算法既考虑文本的形状边缘信息,又考虑文本的颜色信息,... 针对自然场景中标志文本提出一种文本定位算法。在彩色图像边缘提取的基础上,利用形态学文本定位获得备选文本区域,再用神经网络对备选文本区域进行分类,最后提取文本区域文字。该算法既考虑文本的形状边缘信息,又考虑文本的颜色信息,充分利用基于边缘的方法和基于神经网络学习的方法的优点。实验结果表明,提出的文本定位算法具有较高的准确率。 展开更多
关键词 文本定位 边缘提取 数学形态学 神经网络
在线阅读 下载PDF
小波域内背景图像的文本信息提取研究 被引量:2
9
作者 张晓威 郑雄波 郭健 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2008年第3期314-318,共5页
提出了一种基于二维小波分解的背景图像文本提取算法.该算法首先对图像进行二维小波变换,设置滑动窗扫描高频子带,计算滑动窗内图像的小波纹理特征,采用k-均值聚类算法将图像分为文本区域、简单背景区域和复杂背景区域,最后对文本区域... 提出了一种基于二维小波分解的背景图像文本提取算法.该算法首先对图像进行二维小波变换,设置滑动窗扫描高频子带,计算滑动窗内图像的小波纹理特征,采用k-均值聚类算法将图像分为文本区域、简单背景区域和复杂背景区域,最后对文本区域进行形态运算,精确地定位文本区域.实验结果表明,该算法能够准确地从背景图像中提取出不同语种、字体、大小和排列方式的文本信息. 展开更多
关键词 小波变换 文本提取 K-均值聚类 纹理特征 数学形态学
在线阅读 下载PDF
基于Ontology扩展查询的数学表达式检索模型 被引量:2
10
作者 李新福 徐筱 田学东 《计算机工程》 CAS CSCD 北大核心 2018年第5期155-161,共7页
针对现有数学表达式检索系统中待检索表达式与目标文档之间的语义关联问题,在使用序列化特征提取方法解析La Te X表达式的基础上,提出一种基于Ontology的数学表达式检索方法。运用Ontology建立数学表达式及其概念之间的联系并构建数学... 针对现有数学表达式检索系统中待检索表达式与目标文档之间的语义关联问题,在使用序列化特征提取方法解析La Te X表达式的基础上,提出一种基于Ontology的数学表达式检索方法。运用Ontology建立数学表达式及其概念之间的联系并构建数学表达式语义本体库,以达到输入关键词、概念、短语和数学名词可检索数学表达式语义相关文献的目的。实验结果表明,基于Ontology的数学表达式检索方法运用本体概念扩展查询结果集,使得查全率、查准率和扩展率均有一定程度提高。 展开更多
关键词 数学表达式检索 语义 序列化特征提取 本体 查询扩展
在线阅读 下载PDF
面向微博热点事件的话题检测及表述方法研究 被引量:15
11
作者 周炜翔 张仰森 张良 《计算机应用研究》 CSCD 北大核心 2019年第12期3565-3569,3578,共6页
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采... 针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。 展开更多
关键词 文本聚类 IDLDA-ItextRank模型 话题抽取 话题表述
在线阅读 下载PDF
语义空间下基于情感表达的生成式文本隐写方法 被引量:3
12
作者 刘玉玲 王翠林 付章杰 《通信学报》 EI CSCD 北大核心 2023年第4期176-186,共11页
针对现有生成式文本隐写方法存在的“过度优化”文本质量以及生成的隐写文本在语义表达上缺乏约束等问题,提出了一种在语义空间下基于情感表达的生成式文本隐写方法。该方法利用新媒体平台提供的情景融合的伪装场景,研究如何利用无监督... 针对现有生成式文本隐写方法存在的“过度优化”文本质量以及生成的隐写文本在语义表达上缺乏约束等问题,提出了一种在语义空间下基于情感表达的生成式文本隐写方法。该方法利用新媒体平台提供的情景融合的伪装场景,研究如何利用无监督抽取模型从原始数据集中抽取情感表达组合候选集合,并基于改进的二部图排序算法对情感表达组合候选集合进行排序,得到情感表达组合集合;然后将其映射到语义空间,实现基于情感表达组合生成用户观点的同时嵌入秘密信息。实验结果表明,与同类语义空间下生成式文本隐写方法相比,所提方法生成的含密商品评论的困惑度最低可达10.536,且含密商品评论与主题具有较强相关性,进一步保证了隐写文本的认知隐蔽性,同时所提方法还可有效地用于安全保密通信领域,能够避免发送方被追踪溯源和关联分析。 展开更多
关键词 生成式文本隐写 语义空间 无监督抽取模型 情感表达
在线阅读 下载PDF
领域相关的数学文本语义抽取
13
作者 陈肖宇 王伟 《计算机应用》 CSCD 北大核心 2022年第8期2386-2393,共8页
针对科技领域文档语义信息获取不充分的问题,提出一套基于规则的数学领域相关文本的语义抽取方法。首先从文本中提取领域概念并实现数学实体与领域概念之间的语义映射;然后对数学符号的上下文进行分析,获取数学符号的实体指代或文字描述... 针对科技领域文档语义信息获取不充分的问题,提出一套基于规则的数学领域相关文本的语义抽取方法。首先从文本中提取领域概念并实现数学实体与领域概念之间的语义映射;然后对数学符号的上下文进行分析,获取数学符号的实体指代或文字描述,进而抽取其语义;最后基于已抽取的数学符号语义实现表达式的语义分析。以线性代数文本为研究实例,构建了一个语义标注数据集并进行实验,实验结果表明所提方法对标识符、线性代数实体以及表达式的语义抽取具有93%以上的精确率和91%以上的召回率。 展开更多
关键词 语义抽取 实体指代 上下文分析 数学语言处理 数学文本理解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部