-
题名面向机器阅读理解的医学域数据集MedicalQA
- 1
-
-
作者
马宁
吕文蓉
郭泽晨
-
机构
西北民族大学
西北民族大学
-
出处
《中国科学数据(中英文网络版)》
CSCD
2024年第1期356-365,共10页
-
基金
国家自然科学基金(61762076)。
-
文摘
机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集MedicalQA。本数据集以寻医问药网和39健康网两大医疗平台为主要数据来源,包含19502个段落、问题和答案,内容涉及内科、外科、妇产科等9大科室。数据集形式为excel文件,由5列组成,第一列为段落ID,第二列为段落所属科室,第三列为段落内容,第四列为问题,第五列为问题对应答案。本数据集的构建,有利于机器阅读理解模型的鲁棒性研究以及医学问答系统的构建,也能促进机器阅读理解领域的医学数据集共享。
-
关键词
机器阅读理解
医学域
数据集
-
Keywords
machine reading comprehension
medical domain
dataset
-
分类号
R318
[医药卫生—生物医学工程]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于条件随机场的藏语自动分词方法研究与实现
被引量:29
- 2
-
-
作者
李亚超
加羊吉
宗成庆
于洪志
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2013年第4期52-58,共7页
-
基金
国家自然基金资助项目(61032008)
模式识别国家重点实验室开放课题资助项目(201001051)
+1 种基金
西北民族大学中央高校基本业务费专项资金项目(ycx11135
zyz2011101)
-
文摘
藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。
-
关键词
藏语自动分词
条件随机场
紧缩词识别
格助词
-
Keywords
Tibetan automatic word segmentation
conditional random fields
abbreviated word recognition
case-auxiliary words
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合音节特征的最大熵藏文词性标注研究
被引量:15
- 3
-
-
作者
于洪志
李亚超
汪昆
冷本扎西
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2013年第5期160-165,共6页
-
基金
国家自然科学基金资助项目(61032008,61262054)
-
文摘
藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词性标注问题,音节特征可以显著提高藏文词性标注的效果,与基准系统相比使错误率降低了6.4%。
-
关键词
藏文
词性标注
最大熵
形态特征
-
Keywords
Tibetan
part of speech
maximum entropy
morphological features
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名最大熵和条件随机场模型相融合的藏文人名识别
被引量:22
- 4
-
-
作者
加羊吉
李亚超
宗成庆
于洪志
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2014年第1期107-112,共6页
-
基金
国家自然基金重点项目(61032008)
西北民族大学中央高校基本科研业务费专项资金资助项目(ycx12003)
模式识别国家重点实验室开放课题(201001051)
-
文摘
藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相融合的藏文人名识别方法。实验表明,该方法可以获取较好的识别效果,在我们的测试集上F-测度值到达了93.08%。
-
关键词
藏文人名识别
最大熵
条件随机场
-
Keywords
Tibetan name identification
maximum entropy
conditional random fields
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合无监督特征的藏文分词方法研究
被引量:10
- 5
-
-
作者
李亚超
加羊吉
江静
何向真
于洪志
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2017年第2期71-75,85,共6页
-
基金
国家社科基金青年项目(15CYY043)
国家自然科学基金(61262054)
+3 种基金
甘肃省高等学校科研项目(2016B-007)
甘肃省民族语言智能处理重点实验室开放基金
西北民族大学中央高校基本科研业务费专项资金(31920140064
31920150089)
-
文摘
藏文分词是藏文信息处理的基础性关键问题,目前基于序列标注的藏文分词方法大都采用音节位置特征和类别特征等。该文从无标注语料中抽取边界熵特征、邻接变化数特征、无监督间隔标注等无监督特征,并将之融合到基于序列标注的分词系统中。从实验结果可以看出,与基线藏文分词系统相比,分词F值提高了0.97%,并且未登录词识别结果也有较大的提高。说明,该文从无标注数据中提取出的无监督特征较为有效,和有监督的分词模型融合到一起显著提高了基线分词系统的效果。
-
关键词
藏文
分词
序列标注
-
Keywords
Tibetan
word segmentation
sequence labeling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多特征的藏文微博情感倾向性分析
被引量:8
- 6
-
-
作者
江涛
袁斌
于洪志
加羊吉
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2017年第3期163-169,共7页
-
基金
国家自然基金(61262054)
西北民族大学中央专项资金资助研究生项目(Yxm2014001)
+1 种基金
国家科技支撑计划项目(2014BAK10B03)
甘肃省科技重大专项项目(1203FKDA033)
-
文摘
中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分析算法,算法使用情感词、词性序列、句式信息和表情符号作为特征,并针对藏文微博常出现中文表述的情况,将中文的情感信息也作为特征进行情感计算,利用双语情感特征有效提高了情感倾向性分析的效果。实验显示,该方法对纯藏文表述的微博情感倾向性分析正确率可达到79.8%,针对藏汉双语表述的微博在加入中文情感词、中文标点符号等特征后,正确率能够达到82.8%。
-
关键词
藏文微博
混合文本
情感倾向
情感词
词性序列
-
Keywords
Tibetan micro-blog
mixed text
sentiment orientation
emotional words
part of speech sequence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向语音合成的藏语单音素与三音素自动切分算法研究
被引量:5
- 7
-
-
作者
张金溪
李永宏
单广荣
李照耀
江静
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
西北民族大学数学与计算机科学学院
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第11期3272-3275,共4页
-
基金
国家自然科学基金资助项目(61262052)
西北民族大学中央高校基本科研业务费专项项目(ycx12024)
-
文摘
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。
-
关键词
语音合成
藏语语料库
单音素
三音素
自动切分
-
Keywords
speech synthesis Tibetan corpus monophonic prime triphone automatic segmentation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名多级索引的藏语分词词典设计
被引量:6
- 8
-
-
作者
姚徐
郭淑妮
李永宏
于洪志
-
机构
西北民族大学中国民族信息技术研究院
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2009年第B06期178-180,共3页
-
基金
中国科学院自动化研究所模式识别国家重点实验室开放课题
国家863计划项目(AA2006010101)
-
文摘
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词。实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点。
-
关键词
藏语分词
分词词典
藏语整词二分法
多级索引
-
Keywords
Tibetan word segmentation, word segmentation dictionary, Tibetan whole-word dichotomy, multi-level index
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于音节标注的藏文自动分词研究
被引量:4
- 9
-
-
作者
何向真
李亚超
马宁
于洪志
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第7期1989-1991,共3页
-
基金
国家自然科学基金资助项目(61032008
61262052
+2 种基金
61262054)
中央高校基本科研业务费专项资金资助项目(31920140064)
甘肃省青年科技基金资助项目(1208RJYA053)
-
文摘
分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程。针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov网络模型等模型下的分词系统,并在同等条件下进行了实验对比。实验结果表明,在当前四字位的标注集下,基于条件随机场的藏文分词系统取得了最好的分词结果,同时其他序列标注模型也取得了较好的效果,说明基于音节标注的分词方法可以较为有效地处理藏文分词问题。
-
关键词
藏文
分词
序列标注
最大熵
条件随机场
最大间隔Markov网络模型
-
Keywords
Tibetan
word segmentation
sequence label
maximum entropy
conditional random field
max-margin Markov networks model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语连续语音语料库设计与实现
被引量:10
- 10
-
-
作者
李永宏
于洪志
孔江平
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
北京大学中文系汉语语言学研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第13期233-235,248,共4页
-
基金
国家自然科学基金No.60773052
国家教育部基金No.MZ115-78~~
-
文摘
以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。
-
关键词
藏语
三音子
语音库
Greed算法
-
Keywords
Tibetan
triphone
speech corpus
Greed algorithm
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于改进卡方统计量的藏文文本表示方法
被引量:4
- 11
-
-
作者
徐涛
于洪志
加羊吉
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《计算机工程》
CAS
CSCD
2014年第6期185-189,共5页
-
基金
国家"973"计划基金资助项目(2013CB329303)
国家自然科学基金资助项目(61032008)
+1 种基金
国家科技支撑计划基金资助项目(2009BAH41B07)
中央高校基本科研业务费专项基金资助项目(ycx13014)
-
文摘
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。
-
关键词
藏文信息处理
改进卡方统计量
文本表示
自动断句
向量空间模型
-
Keywords
Tibetan information processing
improved Chi-squared statistic
document representation
auto sentence segmentation
Vector Space Model(VSM)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名互联网藏文内容安全检测过滤系统研究
被引量:5
- 12
-
-
作者
江涛
于洪志
徐涛
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《信息网络安全》
2009年第10期47-48,共2页
-
基金
国家863项目"多语言基础资源库研制和共享"(AA20060101)
-
文摘
为解决互联网上藏文内容安全的问题,提出了一种互联网藏文内容安全检测过滤系统。本文对(安全检测过滤系统)系统的框架进行了描述,并针对藏文编码不统一、藏文分词技术不成熟等问题进行了讨论,提出了藏文编码的判定转换方法以及格语法与词典相结合的藏文分词方法。
-
关键词
藏文内容安全
藏文分词
模式匹配
文本分类
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名面向服务计算的信任预测模型
被引量:1
- 13
-
-
作者
吴明峰
张永胜
吴磊
李园园
张金溪
-
机构
山东师范大学信息科学与工程学院
山东省分布式计算机软件新技术重点实验室.济南
中国民族语言信息技术重点实验室
-
出处
《计算机工程》
CAS
CSCD
2013年第4期140-145,共6页
-
基金
山东省自然科学基金资助项目(ZR2011FM019)
山东省自然科学青年基金资助项目(ZR2011FQ032)
-
文摘
大多数信任预测模型的动态自适应能力较弱,且服务计算环境下代理之间交互的安全性较差。为此,提出一种面向服务计算的信任预测模型(SOC-TPM)。该模型结合人类认知行为,引入直接信任度、信誉推荐值、时间戳、历史交互记录等概念,通过创建动态信誉树对信誉关系进行建模,使信任预测模型更好地适应分布式计算环境。模拟实验结果表明,与J sang及Beth模型相比,该模型的信任预测准确度和平均相对误差分别提高了27%和47%。
-
关键词
面向服务计算
信任关系
动态信誉树
信誉推荐值
时间戳
历史交互记录
-
Keywords
service-oriented computing
relationship of trust
Dynamic Reputation Tree(DRT)
reputation recommended value
timestamp
historical interaction record
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文同元码与基本集相互转换的规则与实现
被引量:1
- 14
-
-
作者
武光利
于洪志
柳春
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
甘肃中医学院公共课部
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第29期134-136,共3页
-
基金
国家高技术研究发展计划(863)(No.AA2006010101)~~
-
文摘
在当今的计算机信息处理过程中,不同文字处理平台上相同字符的不同编码问题,即文字处理的不兼容,是一个亟待解决的重要问题。而在藏文信息处理的研究中,藏文的编码转换也是一个研究热点。藏文的文本、网站大多采用同元编码方式,而微软的Vista操作系统采用的是基本集的编码方式,所以两种编码的转换在藏文信息处理领域是非常重要的。主要介绍了藏文同元编码与基本集的相互转换技术,采用了将藏文按照拉丁转写拆分的方法,利用层数作为藏文同元编码字符结构与基本集编码字符结构的桥梁,通过一系列规则,实现了两种编码的相互转换。
-
关键词
藏文
拉丁转写
同元编码
基本集
编码转换
-
Keywords
Tibetan
Latin transliteration
Tongyuan code
component set
code transform
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文Web应用的质量模糊综合评判
被引量:1
- 15
-
-
作者
李应兴
满正行
单广荣
于洪志
-
机构
西北民族大学计算机科学与信息工程学院(榆中校区)
中国民族语言文字信息技术重点实验室
-
出处
《计算机工程与设计》
CSCD
北大核心
2007年第20期5042-5044,共3页
-
基金
科技部公益基金项目(2005DIB6J174)
甘肃省自然基金项目(3ZS061-A25-057)
-
文摘
为给藏文Web应用提供一种定量的质量评判方法,将模糊数学中的模糊综合评判方法应用于对Web中藏文文字的规范呈现、藏文Web中的功能特性、效率和易用性等因素进行综合评价,提出了数学模型和评判方法,同时说明在模糊综合评判中权重至关重要,并且给出了权重的确定方法。最后通过实例说明这种方法在藏文Web评判中的应用中是有效和可行的。
-
关键词
藏文Web
软件质量
模糊综合评判
WEB应用
评判策略
-
Keywords
application
evaluation strategy
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名藏文古籍数字图书馆设计研究
被引量:2
- 16
-
-
作者
单广荣
-
机构
西北民族大学计算机科学与信息工程学院
中国民族语言文字信息技术重点实验室
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第1期255-258,共4页
-
基金
中华人民共和国科学技术部社会公益类专项基金项目(2005DIB6J174)
甘肃省自然基金项目(3ZS061-A25-057)
-
文摘
对国内外数字图书馆的发展及现状进行了分析,研究了我国藏文古籍的特点及互联网上藏文信息的稀缺,根据古籍按民族分卷;民族按文种立卷的分类标准,采用J2EE规范,应用DreamWeaver、JSP和XML技术,对藏文古籍数字图书馆的体系结构进行了全面设计,提出了藏文古籍数字图书馆设计的几项关键性技术,实现了藏文古籍数字图书馆的各项需求,这一成果可使藏文古籍在数字化方面迈出了历史性的一步,是保存和延续发展民族文化遗产的最有效手段。
-
关键词
藏文古籍
数字图书馆
J2EE
XML技术
嵌入技术
-
Keywords
Tibetan ancient books
digital library
J2EE
XML technology
embedded technology
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Matlab唇形合成参数提取平台的实现
- 17
-
-
作者
郑文思
李永宏
丁丽娟
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2012年第A01期137-138,143,共3页
-
基金
教育部重点项目(210263)
-
文摘
唇形轮廓的准确提取是唇形合成的基础。实现了基于Matlab的唇形参数提取平台,平台实现的主要功能包括:文件读取,关键点标记,文件播放及显示,参数提取及数据存储。考虑到边缘检测的局限性,平台采用手动标记的方法标记关键点,得到了较理想的唇形曲线及唇形人脸动画参数(FAP)。实验证明,该方法简单、有效。
-
关键词
手动标记
唇线提取
参数提取
唇形合成
MATLAB
-
Keywords
artificial labeling
lip contour extraction
parameter extraction
lip synthesis
Matlab
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名利用SAMPA实现藏语的字音转换
被引量:3
- 18
-
-
作者
刘博
杨鸿武
甘振业
郭威彤
-
机构
西北师范大学物理与电子工程学院
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第35期117-121,共5页
-
基金
国家自然科学基金面上项目(No.60875015)
教育部科学研究重点项目(No.208146)
-
文摘
机读音标SAMPA(Speech Assessment Methods Phonetic Alphabet)即计算机可读的音标,用计算机可读的ASCII字符表示语言的发音。提出了一种藏语的SAMPA标注的设计方案SAMPA-T(Tibetan),以藏语拉萨话为例列出了它们的辅音和元音对应的国际音标与SAMPA-T标注,并实现了面向SAMPA-T的藏语字音转换,可应用于藏语语音合成等藏语语音信息处理中。
-
关键词
藏语机读音标
机读音标(SAMPA)
字音转换
-
Keywords
SAMPA-Tibetan
Speech Assessment Methods Phonetic Alphabet(SAMPA)
grapheme-to-phoneme conversion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于《知网》概念定义的情感词典构建研究
被引量:1
- 19
-
-
作者
张森
曹晖
-
机构
西北民族大学国家民委-教育部中国民族语言文字信息技术重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第17期118-123,共6页
-
基金
西北民族大学基本科研业务费专项资金(No.31920140057)
-
文摘
情感倾向,就是人对人或事物的看法,即主观色彩,通常分为褒贬、积极消极、好坏等方面。情感词语的情感倾向判别和权值赋予问题是文本倾向性分析研究中的基础,情感权值的研究在文本倾向性分析、舆情分析、文本分类等研究领域有着广泛的应用,最具有代表性的方法是通过对《知网》中词语的义原相似度的计算来进行词语相似度的计算。在其词语相似度计算方法的基础上,对《知网》词语概念库glossary.dat文件进行提取、修剪和增删,并通过同义词、反义词和人工甄选种子词语,使其对于情感词的权值的计算研究更加精确,实验结果表明,该方法在情感词褒贬义判别、权值取值上和应用上都有不错的效果。
-
关键词
概念定义
情感权值
倾向性分析
知网
-
Keywords
concept definition
semantic weight
orientation analysis
How Net
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-