-
题名基于栏目的藏文网页文本自动分类方法
被引量:7
- 1
-
-
作者
胥桂仙
向春丞
翁彧
赵小兵
杨国胜
-
机构
中央民族大学信息工程学院
国家语言资源监测与研究中心少数民族语言分中心
-
出处
《中文信息学报》
CSCD
北大核心
2011年第4期20-23,共4页
-
基金
国家科技支撑计划资助项目(2009BAH41B00)
-
文摘
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。
-
关键词
藏文信息处理
文本分类
藏文网页分类
-
Keywords
Tibetan information processing
text classification
classification of Tibetan pages
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于DIV标签分段的藏文网页正文提取研究
- 2
-
-
作者
才让叁智
赵栋材
-
机构
西藏大学藏文信息技术研究中心
-
出处
《西藏大学学报(社会科学版)》
CSSCI
2016年第2期70-77,共8页
-
基金
2015年度西藏自治区自然科学基金项目"藏文搜索引擎关键技术研究"(项目号:2015ZR-14-9)
2015年度西藏自治区自然科学基金项目"基于逐字匹配的藏文分词技术与未登录词研究"(项目号:2015ZR-14-10)
2013年度国家自然科学基金重大项目"跨语言社会舆情分析基础理论与关键技术研究"(项目号:61331013)阶段性成果
-
文摘
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。
-
关键词
藏文网页
分段
正文信息
DIV元素
标签
-
Keywords
Tibetan webpage
paragraphing
main body text information
DIV element
tagging
-
分类号
TP391.1
[自动化与计算机技术]
-
-
题名领域本体的藏文主题爬虫搜索策略研究
- 3
-
-
作者
高红梅
仁青诺布
普次仁
-
机构
西藏大学工学院
-
出处
《计算机应用与软件》
CSCD
2015年第9期68-71,共4页
-
基金
国家自然科学基金重点项目(61331013)
国家自然科学基金项目(61165013)
西藏大学青年培育基金项目(ZDPJZK201302)
-
文摘
针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。
-
关键词
本体
相似度计算
藏文网页
主题发现
-
Keywords
Ontology Similarity calculation Tibetan webpage Topic discovery
-
分类号
TP391
[自动化与计算机技术]
-
-
题名语义词库关联的藏文Web语义检索系统研究与实现
- 4
-
-
作者
高红梅
魏西峰
王崧华
扎西
-
机构
西藏大学藏文信息技术研究中心
-
出处
《西藏大学学报(社会科学版)》
CSSCI
2015年第5期90-95,共6页
-
基金
2014年度西藏大学国家级大学生创新创业训练计划项目"藏文Web语义检索的研究与实现"(项目号:201410694018)
2013年度国家自然科学基金重点项目子课题"藏文词法分析系统与舆情监测知识库构建"(项目号:61331013)
2013年度青年科研培育基金项目"西藏旅游目的地营销系统运营模式研究"(项目号:ZDPJSK2013080)阶段性成果
-
文摘
文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进行预处理和藏文语义标注,通过基于本体的词汇相关性算法,扩展藏文的查询词汇,建立一对多的藏语词汇联系,从而实现藏文查询中的相关性检索,得到更加符合用户需求的语义关联网页信息。
-
关键词
藏文网页
信息库
藏文语义相关
藏文语义扩展
-
Keywords
Tibetan web page
information library
Tibetan semantic relevancy
Tibetan semantic extension
-
分类号
TP393.092
[自动化与计算机技术]
-