-
题名基于多种规则的课程元数据自动抽取
被引量:7
- 1
-
-
作者
杨宇
张铭
周宝曜
-
机构
北京大学信息科学技术学院计算机科学与技术系
惠普中国实验室
-
出处
《计算机科学》
CSCD
北大核心
2008年第3期94-96,共3页
-
基金
国家自然科学基金“网络计算环境综合试验平台”(编号90412010)
惠普大学合作基金“在线课程的组织与管理”项目
+1 种基金
国家自然科学基金(编号60573166)
广东省网络重点实验室基金的支持
-
文摘
在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则自动抽取的元数据方法。该方法能够按照多优先级规则匹配网页元数据,并按照两步抽取的方法进行精细化处理。针对不同的问题域使用不同规则抽取,不需对程序进行特定修改。实验证明,这种方法能够很好地处理半结构化网页,F测度达到85%以上,具有较好的实用价值。
-
关键词
元数据抽取
正则表达式
信息精化
-
Keywords
Metadata extraction, Regular expression, Information refinement
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
G423
[文化科学—课程与教学论]
-
-
题名发现维基百科文章相关图片
- 2
-
-
作者
寿思聪
姚从磊
李晓明
-
机构
北京大学信息科学与技术学院
惠普中国实验室
-
出处
《计算机科学与探索》
CSCD
2011年第7期577-587,共11页
-
基金
国家自然科学基金No.61050009
60933004
惠普实验室创新研究计划项目No.2009-1002-2-A~~
-
文摘
维基百科(Wikipedia)提供了海量的描述著名概念的高质量文章,丰富的图片使它们有更高的价值。但大部分Wikipedia文章都没有图片或图很少,为此给出了综合的框架WIMAGE来为Wikipedia文章发现高精度、高召回度和高多样性图片。WIMAGE包括生成查询的方法及两种图片排序方法。采用Wikipedia中4个常见类别的40篇文章进行实验,结果显示WIMAGE能有效地为Wikipedia文章发现高精度、高召回度以及高多样性的图片,且同时考虑了视觉相似度和文本相似度的排序方法效果最好。
-
关键词
维基百科
图片发现
多样性
图片排序
-
Keywords
Wikipedia article
image discovery
diversity
image ranking
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-