期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于栏目的藏文网页文本自动分类方法 被引量:7
1
作者 胥桂仙 向春丞 +2 位作者 翁彧 赵小兵 杨国胜 《中文信息学报》 CSCD 北大核心 2011年第4期20-23,共4页
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别... 该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。 展开更多
关键词 藏文信息处理 文本分类 藏文网页分类
在线阅读 下载PDF
基于DIV标签分段的藏文网页正文提取研究
2
作者 才让叁智 赵栋材 《西藏大学学报(社会科学版)》 CSSCI 2016年第2期70-77,共8页
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实... 文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。 展开更多
关键词 藏文网页 分段 正文信息 DIV元素 标签
在线阅读 下载PDF
领域本体的藏文主题爬虫搜索策略研究
3
作者 高红梅 仁青诺布 普次仁 《计算机应用与软件》 CSCD 2015年第9期68-71,共4页
针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验... 针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。 展开更多
关键词 本体 相似度计算 藏文网页 主题发现
在线阅读 下载PDF
语义词库关联的藏文Web语义检索系统研究与实现
4
作者 高红梅 魏西峰 +1 位作者 王崧华 扎西 《西藏大学学报(社会科学版)》 CSSCI 2015年第5期90-95,共6页
文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进行预处理和藏文语义标注,通过基于本体的词汇相关性算法,扩展藏文的查询词汇,建立一对多的藏语词汇联系,... 文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进行预处理和藏文语义标注,通过基于本体的词汇相关性算法,扩展藏文的查询词汇,建立一对多的藏语词汇联系,从而实现藏文查询中的相关性检索,得到更加符合用户需求的语义关联网页信息。 展开更多
关键词 藏文网页 信息库 藏文语义相关 藏文语义扩展
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部