期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
面向商务信息抽取的产品命名实体识别研究 被引量:48
1
作者 刘非凡 赵军 +3 位作者 吕碧波 徐波 于浩 夏迎炬 《中文信息学报》 CSCD 北大核心 2006年第1期7-13,共7页
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点... 市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hid-den Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。 展开更多
关键词 计算机应用 中文信息处理 产品命名实体识别 商务信息抽取 层级隐马尔可夫模型
在线阅读 下载PDF
手写中文地址识别后处理方法的研究 被引量:6
2
作者 龙翀 庄丽 +4 位作者 朱小燕 黄开竹 孙俊 堀田悦伸 直井聡 《中文信息学报》 CSCD 北大核心 2006年第6期69-74,共6页
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用。本文针对手写中文地址的后处理,讨论了语... OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用。本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法。实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66%,错误率下降了65.93%,大大提高了系统的性能。 展开更多
关键词 人工智能 模式识别 OCR 语言模型 后处理
在线阅读 下载PDF
印刷体汉字识别后处理方法的研究 被引量:4
3
作者 张宏涛 龙翀 +1 位作者 朱小燕 孙俊 《中文信息学报》 CSCD 北大核心 2009年第6期67-71,共5页
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的... 高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。 展开更多
关键词 计算机应用 中文信息处理 汉字识别 OCR 语言模型 后处理
在线阅读 下载PDF
载钛羟基磷灰石对水中EE2光催化降解规律及途径研究 被引量:1
4
作者 鞠传伦 张健伟 +3 位作者 孙卫玲 若村正人 塚田峰春 佐佐正名 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第4期815-827,共13页
以17α-乙炔雌二醇(EE2)为目标污染物,以载钛羟基磷灰石(TiHAP)为催化剂,对比研究TiHAP和TiO_2对EE2的光催化规律、影响因素及机理,分析光催化降解的中间产物及降解途径。实验结果表明,TiHAP薄膜对EE2的降解速率高于TiO_2薄膜;随着Fe^(... 以17α-乙炔雌二醇(EE2)为目标污染物,以载钛羟基磷灰石(TiHAP)为催化剂,对比研究TiHAP和TiO_2对EE2的光催化规律、影响因素及机理,分析光催化降解的中间产物及降解途径。实验结果表明,TiHAP薄膜对EE2的降解速率高于TiO_2薄膜;随着Fe^(3+)浓度增加,TiHAP降解EE2的速率没有明显变化,TiO_2降解EE2的速率则先增加后减小;随着富里酸(FA)浓度的增加,TiHAP降解EE2的速率减小,而TiO_2降解EE2的速率升高。用LC-MSn对TiHAP光催化降解EE2过程中产生的中间产物进行分析,在中性pH条件下共确定9种降解产物,比同样pH值下以TiO_2为催化剂检出的产物种类多,推断其降解的主要途径是苯环羟基化、开环羧基化以及脱羧等一系列反应。 展开更多
关键词 载钛羟基磷灰石 17α-乙炔雌二醇 光催化降解
在线阅读 下载PDF
机械工程图中形位公差符号的自动识别技术研究
5
作者 冯奂 张树生 +2 位作者 刘晓翔 梁岱春 刘汝杰 《计算机应用》 CSCD 北大核心 2006年第1期127-128,131,共3页
根据机械工程图中形位公差符号的特点,在矢量基础上,提出并实现了一种基于关键图形特征和标注字符相结合的识别算法。该方法包括3个步骤:首先寻找该类图形的关键元素;然后根据该类图形的具体构造语法规则,由关键元素引导、逐步搜索该类... 根据机械工程图中形位公差符号的特点,在矢量基础上,提出并实现了一种基于关键图形特征和标注字符相结合的识别算法。该方法包括3个步骤:首先寻找该类图形的关键元素;然后根据该类图形的具体构造语法规则,由关键元素引导、逐步搜索该类图形的其他结构元素;最后用字符信息来对该类图形的有效性做出判定。试验结果表明该算法具有较好的适应性,且识别率高。 展开更多
关键词 矢量化 形位公差 识别
在线阅读 下载PDF
面向Internet的中文新词语检测 被引量:60
6
作者 邹纲 刘洋 +4 位作者 刘群 孟遥 于浩 西野文人 亢世勇 《中文信息学报》 CSCD 北大核心 2004年第6期1-9,共9页
随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ... 随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。 展开更多
关键词 计算机应用 中文信息处理 新词语 自动检测
在线阅读 下载PDF
深度学习在手写汉字识别中的应用综述 被引量:113
7
作者 金连文 钟卓耀 +3 位作者 杨钊 杨维信 谢泽澄 孙俊 《自动化学报》 EI CSCD 北大核心 2016年第8期1125-1141,共17页
手写汉字识别(Handwritten Chinese character recognition,HCCR)是模式识别的一个重要研究领域,最近几十年来得到了广泛的研究与关注,随着深度学习新技术的出现,近年来基于深度学习的手写汉字识别在方法和性能上得到了突破性的进展.本... 手写汉字识别(Handwritten Chinese character recognition,HCCR)是模式识别的一个重要研究领域,最近几十年来得到了广泛的研究与关注,随着深度学习新技术的出现,近年来基于深度学习的手写汉字识别在方法和性能上得到了突破性的进展.本文综述了深度学习在手写汉字识别领域的研究进展及具体应用.首先介绍了手写汉字识别的研究背景与现状.其次简要概述了深度学习的几种典型结构模型并介绍了一些主流的开源工具,在此基础上详细综述了基于深度学习的联机和脱机手写汉字识别的方法,阐述了相关方法的原理、技术细节、性能指标等现状情况,最后进行了分析与总结,指出了手写汉字识别领域仍需要解决的问题及未来的研究方向. 展开更多
关键词 深度学习 手写汉字识别 卷积神经网络 回归神经网络 长短时记忆模型 层叠自动编码机
在线阅读 下载PDF
基于Web数据的特定领域双语词典抽取 被引量:11
8
作者 张永臣 孙乐 +4 位作者 李飞 李文波 西野文人 于浩 方高林 《中文信息学报》 CSCD 北大核心 2006年第2期16-23,共8页
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语... 双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。 展开更多
关键词 计算机应用 中文信息处理 双语词典 词间关系矩阵 非平行语料 种子词
在线阅读 下载PDF
面向特定领域的汉语句法主干分析 被引量:8
9
作者 齐浩亮 杨沐昀 +2 位作者 孟遥 韩习武 赵铁军 《中文信息学报》 CSCD 北大核心 2004年第1期1-5,13,共6页
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为... 本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为基础 ,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中 ,模板匹配的精确率和召回率分别达到了 98 0 4 %和 81 4 3% ,句子级的精确率和召回率分别达到了 96 97%、84 85 % 。 展开更多
关键词 人工智能 自然语言处理 浅层句法分析 句法主干分析 模板
在线阅读 下载PDF
独立于语种的文本分类方法 被引量:53
10
作者 黄萱菁 吴立德 +1 位作者 石崎洋之 徐国伟 《中文信息学报》 CSCD 北大核心 2000年第6期1-7,共7页
文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻... 文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。 展开更多
关键词 文本分类 特征抽取 机器学习 分类器 语种
在线阅读 下载PDF
智能Web中文主题信息收集系统IRobot的设计 被引量:7
11
作者 马亮 陈群秀 +1 位作者 王俊 徐国伟 《中文信息学报》 CSCD 北大核心 2002年第5期23-29,共7页
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了We... 本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。 展开更多
关键词 智能Web中文主题信息收集系统 IROBOT 信息检索 相关度预测 相关度评价 中文信息处理 系统设计
在线阅读 下载PDF
switched beam CDMA系统中小区容量和覆盖半径的计算 被引量:1
12
作者 倪巍 王宗欣 斋藤民雄 《通信学报》 EI CSCD 北大核心 2002年第3期70-77,共8页
本文推导了switched beam系统中干扰因子的计算式,以及中断概率、基站接收机灵敏度、移动台最大可允许的发射功率、信干比的期望值、路径损耗与小区覆盖半径、小区容量的关系式,并以直线天线阵为例,计算了小区容量和小区的覆盖半径。
关键词 覆盖半径 功率控制 小区容量 码分多址系统 移动通信
在线阅读 下载PDF
古籍书影中钤印提取技术的探讨 被引量:6
13
作者 葛怀东 尚弘 《计算机应用与软件》 2017年第5期189-194,共6页
藏书钤印是古籍在流传过程中所钤盖的收藏印记,具有深蕴的文化内涵和艺术鉴赏价值,因此一直是古籍研究方面的重点。介绍一种基于HSV颜色空间的古籍钤印提取算法,通过该算法自动从古籍数字影像中提取印章图像。该算法包含了自适应设计,... 藏书钤印是古籍在流传过程中所钤盖的收藏印记,具有深蕴的文化内涵和艺术鉴赏价值,因此一直是古籍研究方面的重点。介绍一种基于HSV颜色空间的古籍钤印提取算法,通过该算法自动从古籍数字影像中提取印章图像。该算法包含了自适应设计,可用于不同质量的古籍文档图像的印章提取工作。同时,该方法通过颜色空间的投影分析可以有效去除正文对印章像素点所造成的干扰,从而生成清晰的印章图像。通过对200多张籍影像中的620枚印章的提取实验表明,该印章提取算法具有较好的提取效果,印章图像的召回率达到93.4%,准确率达到83.4%。 展开更多
关键词 古籍 藏书钤印 颜色空间 图像提取
在线阅读 下载PDF
基于OpenID的可兼容身份认证系统设计与实现 被引量:5
14
作者 杨浩泉 皮冰锋 +3 位作者 彭酉 杨华 邹纲 王主龙 《计算机应用与软件》 CSCD 北大核心 2012年第4期281-284,292,共5页
研究提供数字认证基础服务的OpenID协议认证机制,设计并实现了基于OpenID的身份认证系统。该系统兼容OpenID1.1和OpenID 2.0规范,实现三个扩展协议,并且通过具体应用分析了其安全性。使用该标准认证系统可以整合其他的登录认证系统,实... 研究提供数字认证基础服务的OpenID协议认证机制,设计并实现了基于OpenID的身份认证系统。该系统兼容OpenID1.1和OpenID 2.0规范,实现三个扩展协议,并且通过具体应用分析了其安全性。使用该标准认证系统可以整合其他的登录认证系统,实现单点登录。 展开更多
关键词 OPENID 数字身份标识认证 单点登录 扩展协议 安全性
在线阅读 下载PDF
Web页面信息块的自动分割 被引量:10
15
作者 瞿有利 于浩 +1 位作者 徐国伟 西野文人 《中文信息学报》 CSCD 北大核心 2004年第1期6-13,共8页
随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称... 随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 WEB页面 信息提取 信息块
在线阅读 下载PDF
基于字单元分析的中文辅助阅读系统 被引量:1
16
作者 方高林 于浩 +1 位作者 孟遥 邹纲 《中文信息学报》 CSCD 北大核心 2008年第2期92-98,共7页
辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读系统,它可以为汉语学习者提供即时的辅助翻译和学习功能。系统首先提出基于字信息的汉语词法分析方法,... 辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读系统,它可以为汉语学习者提供即时的辅助翻译和学习功能。系统首先提出基于字信息的汉语词法分析方法,对汉语网页中文本进行分词处理,然后利用基于组成字结构信息的方法发现新词。对于通用词典未收录的新词(例如:专业术语、专有名词和固定短语),系统提出了基于语义预测和反馈学习的方法在Web上挖掘出地道的译文。对于常用词,系统通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例。该系统关键技术包括:基于字信息的汉语词法分析,基于组成字结构信息的新词发现,基于语义预测和反馈学习的新词译文获取,这些模块均以字分析单元的方法为主线,并始终贯穿着整个系统。实验表明该系统在各方面都具有良好的性能。 展开更多
关键词 计算机应用 中文信息处理 词法分析 新词发现 术语翻译 WEB挖掘 辅助汉语学习
在线阅读 下载PDF
语音合成系统中高质量的韵律生成
17
作者 郭庆 片江伸之 +1 位作者 于浩 岩见田均 《中文信息学报》 CSCD 北大核心 2008年第2期110-115,共6页
本文对富士通中文语音合成系统尤其是其中的韵律生成部分进行了描述。该系统是一个以音节为基本合成单元,在韵律参数生成结果即音长和基频预测结果的指导下,从音库中搜寻全局最优的合成单元,然后采用PSOLA算法进行波形调整的拼接合成系... 本文对富士通中文语音合成系统尤其是其中的韵律生成部分进行了描述。该系统是一个以音节为基本合成单元,在韵律参数生成结果即音长和基频预测结果的指导下,从音库中搜寻全局最优的合成单元,然后采用PSOLA算法进行波形调整的拼接合成系统。从提高合成语音韵律的角度出发,本文围绕音长预测和基频预测部分对该系统进行了详细的描述。最后,给出了韵律评测和系统评测的结果。 展开更多
关键词 计算机应用 中文信息处理 韵律参数生成 音长预测 基频预测 决策树
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部