-
题名中文维基百科的结构化信息抽取及词语相关度计算方法
被引量:24
- 1
-
-
作者
涂新辉
张红春
周琨峰
何婷婷
-
机构
华中师范大学计算机科学系
国家语言资源监测与研究中心网络媒体语言分中心
-
出处
《中文信息学报》
CSCD
北大核心
2012年第3期109-115,共7页
-
基金
国家自然科学基金重大研究计划课题(90920005)
国家自然科学基金资助项目(61003192)
+5 种基金
教育部/国家外国专家局高等学校学科创新引智计划课题(B07042)
湖北省自然科学基金计划项目(2011CDA034
2009CDB145)
武汉市晨光计划项目(201050231067)
华中师范大学中央高校基本科研业务费项目(CCNU10A02009
CCNU10C01005)
-
文摘
维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。
-
关键词
语义相关度
中文维基百科
结构化信息
-
Keywords
semantic relatedness
Chinese Wikipedia
structured information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于中文维基百科的词语语义相关度计算
被引量:9
- 2
-
-
作者
万富强
吴云芳
-
机构
北京大学计算语言学教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2013年第6期31-37,109,共8页
-
基金
国家自然科学基金资助项目(61371129)
教育部人文社会科学研究规划基金资助项目(13YJA740060)
国家社科基金资助项目(12&ZD227)
-
文摘
语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。
-
关键词
语义相关度
显性语义分析
中文维基百科
先验概率
概念向量
-
Keywords
semantic relatedness
explicit semantic analysis
Chinese Wikipedia
priori probability
concept vectors
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向中文维基百科的检索模型研究
- 3
-
-
作者
王娟
姜灵敏
胡青
彭碧涛
李碧
-
机构
广东外语外贸大学思科信息学院
中山大学资讯管理学院
大连海事大学信息科学技术学院计算机基础实验室
-
出处
《情报杂志》
CSSCI
北大核心
2014年第10期179-183,共5页
-
基金
国家社会科学基金重大项目"基于特定领域的网络资源知识组织与导航机制研究"(编号:12&ZD222)
广东省哲学社会科学规划项目"微博社会情绪评测及其优化研究"(编号:GD13CGL13)
+1 种基金
广东高校优秀青年创新人才培养计划项目"面向轻博客热点话题情感倾向性分析的研究"(编号:2012WYM_0058)
广州市科技计划项目"三维装载约束下的物流配送车辆调度问题研究"(编号:7421159402737)
-
文摘
越来越多的研究者认识到维基百科是知识获取的有效知识源,然而维基百科站点内部现有的搜索引擎没有充分利用其丰富的语义信息,因此,本文对面向中文维基百科的检索模式进行了对比研究。实验表明,本文提出的基于分类体系的语义检索模式在检准率、检全率以及检索速度方面能取得更好的效果,让用户更充分地利用到中文维基百科这个大规模知识库。
-
关键词
中文维基百科
检索模型
分类体系
语义检索
-
Keywords
Chinese Wikipedia retrieval model category system semantic search
-
分类号
G202
[文化科学—传播学]
-
-
题名协同过滤在中文维基百科类别推荐上的应用
- 4
-
-
作者
王静
何婷婷
衣马木艾山.阿布都力克木
-
机构
华中师范大学计算机学院
国家语言资源监测与研究中心网络媒体语言分中心
国家数字化学习工程技术研究中心(华中师范大学)
-
出处
《计算机应用》
CSCD
北大核心
2013年第3期838-840,844,共4页
-
基金
国家自然科学基金资助项目(90920005
61003192)
+5 种基金
国家语委"十二五"重点项目(ZDI125-1)
国家"十二五"科技支撑计划项目(2012BAK24B01)
教育部/国家外国专家局高等学校学科创新引智计划项目(B07042)
湖北省自然科学基金资助项目(2011CDA034)
华中师范大学中央高校基本科研业务费专项资金资助项目(CCNU10A02009
CCNU10C01005)
-
文摘
针对传统人工编辑导致大量类别信息重复和不规范的问题,提出了应用协同过滤技术为中文维基百科文章自动推荐类别。利用中文维基百科中的四个重要语义特征即链入、链出、链入的类别和链出的类别来表示维基百科文章,得到与目标文章相似的前若干篇文章的所有类别后,通过查询返回的相似度值计算各个类别的权重,选择前面的若干个类别作为推荐结果返回给目标文章。实验结果表明了这四个语义特征能较好地表征一篇维基百科文章,同时也验证了协同过滤方法在中文维基百科自动推荐类别中的有效性。
-
关键词
协同过滤
中文维基百科
类别推荐
语义特征
-
Keywords
collaborative filtering
Chinese Wikipedia
category recommendation
semantic feature
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名中文维基百科演化趋势与政策环境结构研究
被引量:9
- 5
-
-
作者
李小宇
罗志成
-
机构
武汉大学信息管理学院
-
出处
《情报杂志》
CSSCI
北大核心
2009年第2期160-166,共7页
-
基金
国家自然科学基金项目"基于Web2.0的信息自组织和有序化研究"(编号:70773086)的研究成果之一
-
文摘
以中文维基百科为研究对象,分析了其页面更新和用户行为的演化过程,得出用户与词条编辑增长的四个趋势。通过页面链接分析,揭示了中文维基百科政策环境的三层结构。结合对政策制定、施行和维护过程的定性分析,基于社会科学理论探讨了中文维基百科政策环境制定与运行原则。
-
关键词
中文维基百科
演化
政策环境
链接分析
-
分类号
G350
[文化科学—情报学]
-