-
题名信息抽取模式自动生成方法的研究
被引量:22
- 1
-
-
作者
郑家恒
王兴义
李飞
-
机构
山西大学计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
2004年第1期48-54,共7页
-
基金
国家 8 6 3资助项目 (2 0 0 1AA114 0 31)
-
文摘
模式匹配是信息抽取系统通常使用的方法 ,如何生成信息抽取模式就成为信息抽取的关键问题。由于手工编写模式的代价太大 ,本文尝试采用聚类方法自动生成针对中文文本的信息抽取模式。通过计算模式实例间的相似度 ,采用单链法聚类 ,将模式实例划分为不同的类别 ,每个类别对应一个模式 ,将同一类别中的模式实例进行合并就可以得到最终的信息抽取模式。以农作物信息文本为实验语料 ,进行了聚类测试 ,错分率与漏分率分别为 0 2 1%和 1 0 7% ,合并后的模式覆盖了人工分析提出的 2 5类中的 2
-
关键词
人工智能
自然语言处理
信息抽取
模式匹配
信息抽取模式
-
Keywords
artificial intelligence
natural language processing
information extraction
pattern matching
extraction patterns
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名WEB主题检索的性能优化设计
被引量:1
- 2
-
-
作者
田学东
李树成
-
机构
河北大学数学与计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第4期183-185,188,共4页
-
基金
河北省自然科学基金资助项目(编号:F2004000132)
-
文摘
Web主题检索是信息检索领域一个将采集技术与过滤方法结合的新兴方向,也是信息处理领域的研究热点。针对现有主题检索系统在Web页面文本的主题相关性判断和Spider搜索策略方面存在的问题,引入两个性能优化方案,即利用信息抽取技术,提出了一种基于模式集的主题相关性判断方法来提高主题判断准确度;针对pagerank在主题检索中存在的不足,引入基于增强学习的页面评估算法,提出了Web环境优先的搜索策略。最后根据实验结果评估两个算法的性能。
-
关键词
信息抽取技术
信息抽取模式
模式匹配
WEB环境
增强学习
-
Keywords
information extraction,extraction pattern,pattern matching,WEB Environment,reinforcement learning
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-