期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
文本挖掘及其关键技术与方法 被引量:43
1
作者 王丽坤 王宏 陆玉昌 《计算机科学》 CSCD 北大核心 2002年第12期12-19,共8页
With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis mar... With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis marvelously emerging and plays an important role in interrelated fields. So it is worth summarizing the contentabout text mining from its definition to relational methods and techniques. In this paper, combined to comparativelymature data mining technology, we present the definition of text mining and the multi-stage text mining process mod-el. Moreover, this paper roundly introduces the key areas of text mining and some of the powerful text analysis tech-niques, including: Word Automatic Segmenting, Feature Representation, Feature Extraction, Text Categorization,Text Clustering, Text Summarization, Information Extraction, Pattern Quality Evaluation, etc. These techniquescover the whole process from information preprocessing to knowledge obtaining. 展开更多
关键词 文本挖掘 数据挖掘 知识发现 数据处理 数据库
在线阅读 下载PDF
基于事件框架的信息抽取系统 被引量:38
2
作者 梁晗 陈群秀 吴平博 《中文信息学报》 CSCD 北大核心 2006年第2期40-46,共7页
信息抽取技术能够提供高质量的检索服务。本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式。本文使用这种方法建... 信息抽取技术能够提供高质量的检索服务。本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式。本文使用这种方法建立了一个灾难性事件信息抽取系统。实验证明本文中的方法是有效的。 展开更多
关键词 计算机应用 中文信息处理 信息抽取 框架 继承 灾难性事件
在线阅读 下载PDF
基于时空分析的线索性事件的抽取与集成系统研究 被引量:21
3
作者 吴平博 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2006年第1期21-28,共8页
信息抽取技术能够提供高质量的检索服务。本文面向网络新闻事件,对人们感兴趣的事件关键信息进行了抽取和集成。系统中采用了如下的方法、策略:(1)利用句型模板构造抽取规则,然后直接从经过时间短语和空间短语识别和规范化处理的文本中... 信息抽取技术能够提供高质量的检索服务。本文面向网络新闻事件,对人们感兴趣的事件关键信息进行了抽取和集成。系统中采用了如下的方法、策略:(1)利用句型模板构造抽取规则,然后直接从经过时间短语和空间短语识别和规范化处理的文本中抽取事件信息,从而跳过了深层句法分析,降低了实现系统的难度;(2)利用事件的规范化的时空信息关联不同文档中的同一事件,进行事件合并;(3)文档发生事件转移时对文档进行事件切分,从而解决了文档内不同事件信息的归并问题。初步实验结果表明:本文采用的方法和策略是有效的。 展开更多
关键词 计算机应用 中文信息处理 信息抽取 句型模板 线索性事件 时空信息 事件合并
在线阅读 下载PDF
大型中文古籍《四库全书》自动版面分析系统 被引量:7
4
作者 姜哲 马少平 夏莹 《中文信息学报》 CSCD 北大核心 2000年第2期14-20,共7页
《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉... 《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉字用于识别和统计 ,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷 ,版面有一定规范 ,但形式多样、结构复杂、图象质量和字体大小有差异 ,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看 ,本系统已经能够自动采用相应算法 ,处理多种规范和准规范的版面 ,并提供方便的人工辅助纠错功能 ,保障了预处理工作的顺利进行 ,也为识别系统的学习建库和识别创造了良好的条件。 展开更多
关键词 四库全书 版面分析 汉字识别 OCR技术
在线阅读 下载PDF
日汉机器翻译系统的完善与改进 被引量:3
5
作者 张捷 陈群秀 《计算机工程》 CAS CSCD 北大核心 2003年第6期116-117,共2页
对于机器翻译系统的配价翻译部件来说,提出的日汉机器翻译系统主要研究和解决的关键技术有:(1)捆绑规则的调整和生成规则的调整;(2)对省略句子的翻译的调整。该文介绍了各部分改进完善处理过程。
关键词 日汉机器翻译系统 语言信息处理 计算机 捆绑规则 改进
在线阅读 下载PDF
基于事件框架的事件相关文档的智能检索研究 被引量:30
6
作者 吴平博 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第6期25-30,59,共7页
在事件相关文档的检索中 ,事件主题的迁移和分化与相似事件的干扰是影响系统性能的两个主要因素。本文提出了一种基于事件框架知识和事件主体信息的检索方法。该方法对事件相关评价函数进行了的改进 :首先 ,从事件语料中提炼出事件的框... 在事件相关文档的检索中 ,事件主题的迁移和分化与相似事件的干扰是影响系统性能的两个主要因素。本文提出了一种基于事件框架知识和事件主体信息的检索方法。该方法对事件相关评价函数进行了的改进 :首先 ,从事件语料中提炼出事件的框架知识、从事件文档中挖掘出表达事件主体的信息 ,然后将这些知识和信息进行向量化 ,最后利用向量化的结果对相关度评价函数进行优化。实验结果表明该方法是有效的 ,明显提高了事件相关文档的检索性能。 展开更多
关键词 计算机应用 中文信息处理 智能检索 事件相关文档 事件框架 事件主体
在线阅读 下载PDF
基于无线通信和计算特征分析的能耗模型 被引量:20
7
作者 成小良 邓志东 董志然 《计算机研究与发展》 EI CSCD 北大核心 2009年第12期1985-1993,共9页
无线传感器网络(wireless sensor network,WSN)是能量严重受限的网络,这就要求WSN必须是能量有效的.有必要掌握WSN的能量实时消耗情况,这需要有正确的能耗模型提供支持.但目前的能耗建模研究在一般假设方面仍存在种种与WSN实际不符的情... 无线传感器网络(wireless sensor network,WSN)是能量严重受限的网络,这就要求WSN必须是能量有效的.有必要掌握WSN的能量实时消耗情况,这需要有正确的能耗模型提供支持.但目前的能耗建模研究在一般假设方面仍存在种种与WSN实际不符的情况,这导致现有能耗模型不能应用于WSN实践.首先结合WSN应用实际,综合分析了通信活动、计算活动及物理特性因素对节点能耗的影响.进而提出了一种基于无线通信和计算特征分析的节点能耗模型.最后对该能耗模型等进行了物理实现,并通过现场实验验证了该模型的有效性. 展开更多
关键词 无线传感器网络 能耗模型 通信特征 实时监测 个域网(PAN)
在线阅读 下载PDF
基于字串内部结合紧密度的汉语自动抽词实验研究 被引量:33
8
作者 罗盛芬 孙茂松 《中文信息学报》 CSCD 北大核心 2003年第3期9-14,共6页
自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现 ,进而尝试将它们组合在一起 ,以期提高性能。为了达到尽... 自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现 ,进而尝试将它们组合在一起 ,以期提高性能。为了达到尽可能好的组合效果 ,采用了遗传算法来自动调整组合权重。对二字词的自动抽词实验结果表明 ,这九种常用统计量中 ,互信息的抽词能力最强 ,F measure可达 5 4 77% ,而组合后的F measure为 5 5 4 7% ,仅比互信息提高了 0 70 % ,效果并不显著。我们的结论是 :( 1)上述统计量并不具备良好的互补性 ;( 2 )通常情况下 ,建议直接选用互信息进行自动抽词 ,简单有效。 展开更多
关键词 计算机应用 中文信息处理 自动抽词 统计量的组合 遗传算法
在线阅读 下载PDF
基于转换的时间-事件关系映射 被引量:19
9
作者 王昀 苑春法 《中文信息学报》 CSCD 北大核心 2004年第4期23-30,共8页
近些年来 ,中文时间信息抽取和处理已经变得越来越重要。然而 ,很少有研究者关注中文文本中事件信息所对应的时间信息的识别和分析。本文的目的就是确定文本中时间信息和事件信息之间的映射关系。区别于传统的基于规则的方法 ,本文采用... 近些年来 ,中文时间信息抽取和处理已经变得越来越重要。然而 ,很少有研究者关注中文文本中事件信息所对应的时间信息的识别和分析。本文的目的就是确定文本中时间信息和事件信息之间的映射关系。区别于传统的基于规则的方法 ,本文采用了一种机器学习的方法—基于转换的错误驱动学习—来确定事件相应的时间表达 ,这种学习算法可以自动的获取和改进规则。使用训练得到的转换规则集后 ,系统的时间 -事件映射错误率减少了 9 74 % 。 展开更多
关键词 计算机应用 中文信息处理 时间信息处理 基于转换的错误驱动学习 信息抽取
在线阅读 下载PDF
基于主题的Web文档聚类研究 被引量:31
10
作者 孙学刚 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第3期21-26,共6页
网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚... 网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。 展开更多
关键词 计算机应用 中文信息处理 WEB文档聚类 OPTICS算法 特征提取 K近邻准则 二次特征提取和聚类的方法
在线阅读 下载PDF
一种基于文档相似度的检索结果重排序方法 被引量:9
11
作者 周博 岑荣伟 +3 位作者 刘奕群 张敏 金奕江 马少平 《中文信息学报》 CSCD 北大核心 2010年第3期19-23,36,共6页
对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了... 对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。 展开更多
关键词 计算机应用 中文信息处理 相关反馈 文档重排序 信息检索
在线阅读 下载PDF
一种围棋定式的机器学习方法 被引量:6
12
作者 谷蓉 刘学民 +1 位作者 朱仲涛 周杰 《计算机工程》 CAS CSCD 北大核心 2004年第6期142-144,173,共4页
提出了一种围棋定式的机器学习方法。利用此方法可实现从棋谱库中自动提取定式并生成定式库。此外,对于棋谱数量较大的情况,采用分阶段学习方法,提高了学习效率。应用此方法,对34 000局棋谱进行处理,得到定式点680 638个。最后,... 提出了一种围棋定式的机器学习方法。利用此方法可实现从棋谱库中自动提取定式并生成定式库。此外,对于棋谱数量较大的情况,采用分阶段学习方法,提高了学习效率。应用此方法,对34 000局棋谱进行处理,得到定式点680 638个。最后,还给出了1种基于组合博弈理论在计算机围棋博弈系统中使用定式的方法。 展开更多
关键词 围棋定式 机器学习 组合博弈理论
在线阅读 下载PDF
基于凸包像素比特征的粘连汉字切分 被引量:3
13
作者 魏湘辉 马少平 《中文信息学报》 CSCD 北大核心 2005年第1期91-97,共7页
汉字切分正确与否直接影响了汉字识别系统的识别率 ,粘连汉字则是切分中的难点。本文将基于背景细化的切分方法应用于《四库全书》的两字符粘连汉字数据集 ,并针对其中切分路径选择问题 ,提出了一种新特征 -凸包像素比 ,反映了在不同切... 汉字切分正确与否直接影响了汉字识别系统的识别率 ,粘连汉字则是切分中的难点。本文将基于背景细化的切分方法应用于《四库全书》的两字符粘连汉字数据集 ,并针对其中切分路径选择问题 ,提出了一种新特征 -凸包像素比 ,反映了在不同切分路径下汉字结构变化的特性。实验结果表明该特征对多种分类器均能有效地提高切分路径选择的正确率。其中在使用基于高斯混合模型分类器时取得了 88 6 %正确率。 展开更多
关键词 人工智能 模式识别 粘连汉字 汉字切分 背景细化 凸包
在线阅读 下载PDF
一个基于分枝搜索的函数全局优化方法 被引量:2
14
作者 柳常青 张钹 《计算机学报》 EI CSCD 北大核心 1997年第11期1009-1017,共9页
本文给出了算法性能的一种度量,并且提出了一种全局优化算法策略,其基本框架(分枝随机搜索)类似于二分搜索,即将搜索区域划分成等测度的两个子区间(也可以多个),通过采样确定最有可能包含全局最优点的子区间,将其保留;去掉另... 本文给出了算法性能的一种度量,并且提出了一种全局优化算法策略,其基本框架(分枝随机搜索)类似于二分搜索,即将搜索区域划分成等测度的两个子区间(也可以多个),通过采样确定最有可能包含全局最优点的子区间,将其保留;去掉另一半,在剩下的区间重复这一过程.尽管这种算法其简单性几近纯随机算法和格点法,但理论分析和实验结果表明,其效率却高得多. 展开更多
关键词 算法复杂性 分枝搜索 函数全局优化法 算法
在线阅读 下载PDF
面向多语言的机器翻译支撑环境设计与实现 被引量:2
15
作者 魏勇鹏 陈群秀 《中文信息学报》 CSCD 北大核心 2004年第3期9-16,共8页
在日汉机器翻译系统由DOS移植到Windows环境后 ,针对进一步扩充资源和调试开发过程中遇到的词典管理不便、工具使用麻烦、翻译及编辑界面不友好、日志维护不完善等问题 ,我们开发了面向多语言的机器翻译支撑环境子系统。该子系统实现了... 在日汉机器翻译系统由DOS移植到Windows环境后 ,针对进一步扩充资源和调试开发过程中遇到的词典管理不便、工具使用麻烦、翻译及编辑界面不友好、日志维护不完善等问题 ,我们开发了面向多语言的机器翻译支撑环境子系统。该子系统实现了词典资源管理、翻译界面、开发工具集成、系统日志维护等功能 ,在编码上兼容Unicode ,在调用原系统翻译功能和开发工具时使用动态链接库技术 ,以期成为一个面向多语言的、可为不同机器翻译系统所用的开发调试支撑环境。 展开更多
关键词 人工智能 机器翻译 支撑环境 多语言
在线阅读 下载PDF
汉语的一种知识一体化表示方法 被引量:2
16
作者 孟洁 陈群秀 《中文信息学报》 CSCD 北大核心 1999年第5期35-42,共8页
随着计算机自然语言处理研究的不断深入,人们越来越认识到知识在计算机语言处理系统中的重要性。本文结合语言心理学的一些相关结论,对照人在真实领域中的语言处理过程,提出了一种适合计算机存储和检索的知识一体化表示方法,并分析... 随着计算机自然语言处理研究的不断深入,人们越来越认识到知识在计算机语言处理系统中的重要性。本文结合语言心理学的一些相关结论,对照人在真实领域中的语言处理过程,提出了一种适合计算机存储和检索的知识一体化表示方法,并分析了它的实际应用前景。 展开更多
关键词 自然语言处理 知识 知识表示 知识的一体化表示
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部