-
题名基于主题的智能Web信息采集系统的研究与实现
被引量:15
- 1
-
-
作者
李卫
刘建毅
何华灿
王枞
-
机构
北京邮电大学智能科学技术研究中心
-
出处
《计算机应用研究》
CSCD
北大核心
2006年第2期163-166,共4页
-
基金
国家"863"面向奥运的多语言智能信息服务系统课题资助项目(2002AA117010-07)
-
文摘
研究并实现了一个基于主题的智能信息采集系统IFWC,该系统以全信息理论为支撑,吸收传统向量空间模型的思想,采用基于概念的向量空间模型,从词的语义层次对文本进行主题相关性分析;使用扩展元数据的语义相关性判定算法,对页面内的URL进行主题相关性预测。实验证明,该系统采集速度快,采集下来的页面精度高。
-
关键词
基于主题的信息采集
全信息
扩展元数据
概念向量空间模型
-
Keywords
Focused Crawler
Comprehensive Information Theory
Extended Metadata
Concept-based VSM
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语用的自然语言处理研究与应用初探
被引量:5
- 2
-
-
作者
李蕾
周延泉
钟义信
-
机构
北京邮电大学智能科学技术研究中心
-
出处
《智能系统学报》
2006年第2期1-6,共6页
-
基金
国家自然科学基金资助项目(60575034)
国家"863"资助项目(2004AA117010
2005AA117010).
-
文摘
首先分析了语用信息的必要性和重要性,认为只有融入语用研究的自然语言处理技术才能显示“以人为本"和智能化的特色,只有语用、语义和语法信息的研究都成熟了,才能使计算机真正获得自然语言所表达的信息,达到与人类交流对话的水平.接着介绍了语用学的产生、发展和运用状况,剖析了存在的主要问题,提出了基于语用的自然语言处理.然后结合典型应用背景——奥运多语言信息服务示范终端“CityGuide"语音识别后文本的检错纠错需求,探索并尝试了一种基于语用信息的自然语言处理检错纠错方法,并通过真实语料的测试来检验效果.结果表明,当前算法可以使中文语音识别正确率提高29%.
-
关键词
自然语言处理
语用信息
语音识别检错纠错
-
Keywords
natural language processing (NLP)
pragmatic information
error detection and correction for SR
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名机制主义:人工智能的统一理论
被引量:17
- 3
-
-
作者
钟义信
-
机构
北京邮电大学智能科学技术研究中心 北京
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2006年第2期317-321,共5页
-
基金
国家自然科学基金(No.6049632
No.60575034)
-
文摘
长期以来,学术界曾经分别从智力系统的结构、功能和行为三个不同的侧面分析和模拟人的智力过程,取得了众多成果,形成了人工智能理论的结构主义、功能主义和行为主义三大体系.这些研究也留下许多问题,而且互相缺乏沟通,常常发生“孰优孰劣”的争论.本文试图提出智能生成的“机制主义”,希望从智能生成的共性机制入手探讨智能的本质.研究发现:在一般情形下,智能生成机制表现为“信息-知识-智能的转换”,由此引出了“知识理论”;特别有意义的是,结构主义、功能主义、行为主义三者可以在“机制主义”框架下得到和谐完美的统一.这可能为智能科学技术的发展提供新的理解,带来新的机会.
-
关键词
结构主义
功能主义
行为主义
机制主义
人工智能统一理论
-
Keywords
structural approach
functional approach
behavioral approach
mechanism approach
knowledge theory
unified theory of AI
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名决策树算法的优化与比较
被引量:19
- 4
-
-
作者
鲁为
王枞
-
机构
北京邮电大学智能科学技术研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第16期189-190,共2页
-
文摘
ID3算法采用一种对属性进行逐层的搜索和比较的"贪婪算法思想"。基于ID3算法的层间不相关性,该文考虑了生成树中相邻层的耦合,提出了一种改进的ID3的决策树算法(E-ID3),E-ID3算法使用一种基于"统计出局部最优"的方法,获得比较好的启发式函数算法,并分析了E-ID3"算两步,走一步"的思想。实验证明,该优化算法对于构建决策树具有很好的效率。
-
关键词
决策树
ID3
E-ID3
加权熵
-
Keywords
decision tree: ID3: E-ID3
weighted entropy
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名口语对话管理综述
被引量:9
- 5
-
-
作者
王菁华
钟义信
王枞
刘建毅
-
机构
北京邮电大学智能科学技术研究中心
-
出处
《计算机应用研究》
CSCD
北大核心
2005年第10期5-8,共4页
-
基金
国家"863"计划资助项目(2002AA117010-07)
-
文摘
主要介绍了口语对话系统中对话管理的作用、基本问题和设计方法。对话管理在整个对话系统中处于核心地位,控制整个对话的进行,负责对用户输入的理解以及根据领域内容决定系统对用户的反应。对话管理的设计主要有基于状态图的结构(有限状态机)、填充槽结构和基于任务的结构三种方法,提出了一种基于逻辑表达式的结构,并设计了状态图/逻辑表达式双层结构。
-
关键词
口语对话系统
对话管理
-
Keywords
Spoken Dialog System
Dialog Management
-
分类号
TP315
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于网络会话层的垃圾邮件行为识别
被引量:3
- 6
-
-
作者
白秋颖
章璿
张耀龙
-
机构
鞍山科技大学计算机科学与工程学院
北京邮电大学智能科学技术研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第1期167-169,共3页
-
基金
国家863高技术研究发展计划资助项目(2001AA114210)。
-
文摘
目前最流行的邮件内容过滤技术工作在网络应用层,通过对邮件内容的分析来判别邮件的合法性,无法避免由于垃圾邮件的泛滥而造成的网络带宽资源的浪费。针对这种情况,论文提出一种基于网络会话层的垃圾邮件行为识别方法。该方法运用决策树算法,对邮件发送过程中的网络会话层数据进行挖掘,发现垃圾邮件的行为规律,在垃圾邮件的内容数据发送前就对其实施过滤,有效地解决了垃圾邮件占用网络带宽的问题,是对当前各种垃圾邮件过滤技术的一个有益的补充。
-
关键词
邮件过滤
行为识别
数据挖掘
决策树
-
Keywords
spam filtering
behavior recognition
data mining
decision tree
-
分类号
TP393.098
[自动化与计算机技术—计算机应用技术]
-
-
题名高性能邮件过滤服务结构模型设计与实现
被引量:2
- 7
-
-
作者
张耀龙
张鹏飞
张燕
王枞
钟义信
-
机构
北京邮电大学智能科学技术研究中心
北京邮电大学信息网络中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第6期176-178,182,共4页
-
基金
国家863高技术研究发展计划资助项目(编号:2001AA114210-13)
-
文摘
分析了MTA方式邮件过滤系统的业务流量和网络服务特点,以排队论为基础,建立了一个高性能邮件过滤服务模型,用于对邮件过滤系统的服务能力进行理论预测,并结合一个具体的应用场景,提供一个实例,其理论分析结果与实际情况相符,验证了该模型的有效性。
-
关键词
排队论
服务窗
电子邮件过滤
服务模型
-
Keywords
Queuing Theory,service window,E-mail filtering,service model
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-