期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
面向机器阅读理解的医学域数据集MedicalQA
1
作者 马宁 吕文蓉 郭泽晨 《中国科学数据(中英文网络版)》 CSCD 2024年第1期356-365,共10页
机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集Medica... 机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集MedicalQA。本数据集以寻医问药网和39健康网两大医疗平台为主要数据来源,包含19502个段落、问题和答案,内容涉及内科、外科、妇产科等9大科室。数据集形式为excel文件,由5列组成,第一列为段落ID,第二列为段落所属科室,第三列为段落内容,第四列为问题,第五列为问题对应答案。本数据集的构建,有利于机器阅读理解模型的鲁棒性研究以及医学问答系统的构建,也能促进机器阅读理解领域的医学数据集共享。 展开更多
关键词 机器阅读理解 医学域 数据集
在线阅读 下载PDF
基于条件随机场的藏语自动分词方法研究与实现 被引量:29
2
作者 李亚超 加羊吉 +1 位作者 宗成庆 于洪志 《中文信息学报》 CSCD 北大核心 2013年第4期52-58,共7页
藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场... 藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。 展开更多
关键词 藏语自动分词 条件随机场 紧缩词识别 格助词
在线阅读 下载PDF
融合音节特征的最大熵藏文词性标注研究 被引量:15
3
作者 于洪志 李亚超 +1 位作者 汪昆 冷本扎西 《中文信息学报》 CSCD 北大核心 2013年第5期160-165,共6页
藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词... 藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词性标注问题,音节特征可以显著提高藏文词性标注的效果,与基准系统相比使错误率降低了6.4%。 展开更多
关键词 藏文 词性标注 最大熵 形态特征
在线阅读 下载PDF
最大熵和条件随机场模型相融合的藏文人名识别 被引量:22
4
作者 加羊吉 李亚超 +1 位作者 宗成庆 于洪志 《中文信息学报》 CSCD 北大核心 2014年第1期107-112,共6页
藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相... 藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相融合的藏文人名识别方法。实验表明,该方法可以获取较好的识别效果,在我们的测试集上F-测度值到达了93.08%。 展开更多
关键词 藏文人名识别 最大熵 条件随机场
在线阅读 下载PDF
融合无监督特征的藏文分词方法研究 被引量:10
5
作者 李亚超 加羊吉 +2 位作者 江静 何向真 于洪志 《中文信息学报》 CSCD 北大核心 2017年第2期71-75,85,共6页
藏文分词是藏文信息处理的基础性关键问题,目前基于序列标注的藏文分词方法大都采用音节位置特征和类别特征等。该文从无标注语料中抽取边界熵特征、邻接变化数特征、无监督间隔标注等无监督特征,并将之融合到基于序列标注的分词系统中... 藏文分词是藏文信息处理的基础性关键问题,目前基于序列标注的藏文分词方法大都采用音节位置特征和类别特征等。该文从无标注语料中抽取边界熵特征、邻接变化数特征、无监督间隔标注等无监督特征,并将之融合到基于序列标注的分词系统中。从实验结果可以看出,与基线藏文分词系统相比,分词F值提高了0.97%,并且未登录词识别结果也有较大的提高。说明,该文从无标注数据中提取出的无监督特征较为有效,和有监督的分词模型融合到一起显著提高了基线分词系统的效果。 展开更多
关键词 藏文 分词 序列标注
在线阅读 下载PDF
基于多特征的藏文微博情感倾向性分析 被引量:8
6
作者 江涛 袁斌 +1 位作者 于洪志 加羊吉 《中文信息学报》 CSCD 北大核心 2017年第3期163-169,共7页
中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分... 中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分析算法,算法使用情感词、词性序列、句式信息和表情符号作为特征,并针对藏文微博常出现中文表述的情况,将中文的情感信息也作为特征进行情感计算,利用双语情感特征有效提高了情感倾向性分析的效果。实验显示,该方法对纯藏文表述的微博情感倾向性分析正确率可达到79.8%,针对藏汉双语表述的微博在加入中文情感词、中文标点符号等特征后,正确率能够达到82.8%。 展开更多
关键词 藏文微博 混合文本 情感倾向 情感词 词性序列
在线阅读 下载PDF
面向语音合成的藏语单音素与三音素自动切分算法研究 被引量:5
7
作者 张金溪 李永宏 +2 位作者 单广荣 李照耀 江静 《计算机应用研究》 CSCD 北大核心 2013年第11期3272-3275,共4页
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别... 在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。 展开更多
关键词 语音合成 藏语语料库 单音素 三音素 自动切分
在线阅读 下载PDF
多级索引的藏语分词词典设计 被引量:6
8
作者 姚徐 郭淑妮 +1 位作者 李永宏 于洪志 《计算机应用》 CSCD 北大核心 2009年第B06期178-180,共3页
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语... 藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词。实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点。 展开更多
关键词 藏语分词 分词词典 藏语整词二分法 多级索引
在线阅读 下载PDF
基于音节标注的藏文自动分词研究 被引量:4
9
作者 何向真 李亚超 +1 位作者 马宁 于洪志 《计算机应用研究》 CSCD 北大核心 2015年第7期1989-1991,共3页
分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程。针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov网络模型等模型下的分词系... 分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程。针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov网络模型等模型下的分词系统,并在同等条件下进行了实验对比。实验结果表明,在当前四字位的标注集下,基于条件随机场的藏文分词系统取得了最好的分词结果,同时其他序列标注模型也取得了较好的效果,说明基于音节标注的分词方法可以较为有效地处理藏文分词问题。 展开更多
关键词 藏文 分词 序列标注 最大熵 条件随机场 最大间隔Markov网络模型
在线阅读 下载PDF
藏语连续语音语料库设计与实现 被引量:10
10
作者 李永宏 于洪志 孔江平 《计算机工程与应用》 CSCD 北大核心 2010年第13期233-235,248,共4页
以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本... 以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。 展开更多
关键词 藏语 三音子 语音库 Greed算法
在线阅读 下载PDF
基于改进卡方统计量的藏文文本表示方法 被引量:4
11
作者 徐涛 于洪志 加羊吉 《计算机工程》 CAS CSCD 2014年第6期185-189,共5页
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文... 藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。 展开更多
关键词 藏文信息处理 改进卡方统计量 文本表示 自动断句 向量空间模型
在线阅读 下载PDF
互联网藏文内容安全检测过滤系统研究 被引量:5
12
作者 江涛 于洪志 徐涛 《信息网络安全》 2009年第10期47-48,共2页
为解决互联网上藏文内容安全的问题,提出了一种互联网藏文内容安全检测过滤系统。本文对(安全检测过滤系统)系统的框架进行了描述,并针对藏文编码不统一、藏文分词技术不成熟等问题进行了讨论,提出了藏文编码的判定转换方法以及格语法... 为解决互联网上藏文内容安全的问题,提出了一种互联网藏文内容安全检测过滤系统。本文对(安全检测过滤系统)系统的框架进行了描述,并针对藏文编码不统一、藏文分词技术不成熟等问题进行了讨论,提出了藏文编码的判定转换方法以及格语法与词典相结合的藏文分词方法。 展开更多
关键词 藏文内容安全 藏文分词 模式匹配 文本分类
在线阅读 下载PDF
面向服务计算的信任预测模型 被引量:1
13
作者 吴明峰 张永胜 +2 位作者 吴磊 李园园 张金溪 《计算机工程》 CAS CSCD 2013年第4期140-145,共6页
大多数信任预测模型的动态自适应能力较弱,且服务计算环境下代理之间交互的安全性较差。为此,提出一种面向服务计算的信任预测模型(SOC-TPM)。该模型结合人类认知行为,引入直接信任度、信誉推荐值、时间戳、历史交互记录等概念,通过创... 大多数信任预测模型的动态自适应能力较弱,且服务计算环境下代理之间交互的安全性较差。为此,提出一种面向服务计算的信任预测模型(SOC-TPM)。该模型结合人类认知行为,引入直接信任度、信誉推荐值、时间戳、历史交互记录等概念,通过创建动态信誉树对信誉关系进行建模,使信任预测模型更好地适应分布式计算环境。模拟实验结果表明,与J sang及Beth模型相比,该模型的信任预测准确度和平均相对误差分别提高了27%和47%。 展开更多
关键词 面向服务计算 信任关系 动态信誉树 信誉推荐值 时间戳 历史交互记录
在线阅读 下载PDF
藏文同元码与基本集相互转换的规则与实现 被引量:1
14
作者 武光利 于洪志 柳春 《计算机工程与应用》 CSCD 北大核心 2009年第29期134-136,共3页
在当今的计算机信息处理过程中,不同文字处理平台上相同字符的不同编码问题,即文字处理的不兼容,是一个亟待解决的重要问题。而在藏文信息处理的研究中,藏文的编码转换也是一个研究热点。藏文的文本、网站大多采用同元编码方式,而微软的... 在当今的计算机信息处理过程中,不同文字处理平台上相同字符的不同编码问题,即文字处理的不兼容,是一个亟待解决的重要问题。而在藏文信息处理的研究中,藏文的编码转换也是一个研究热点。藏文的文本、网站大多采用同元编码方式,而微软的Vista操作系统采用的是基本集的编码方式,所以两种编码的转换在藏文信息处理领域是非常重要的。主要介绍了藏文同元编码与基本集的相互转换技术,采用了将藏文按照拉丁转写拆分的方法,利用层数作为藏文同元编码字符结构与基本集编码字符结构的桥梁,通过一系列规则,实现了两种编码的相互转换。 展开更多
关键词 藏文 拉丁转写 同元编码 基本集 编码转换
在线阅读 下载PDF
藏文Web应用的质量模糊综合评判 被引量:1
15
作者 李应兴 满正行 +1 位作者 单广荣 于洪志 《计算机工程与设计》 CSCD 北大核心 2007年第20期5042-5044,共3页
为给藏文Web应用提供一种定量的质量评判方法,将模糊数学中的模糊综合评判方法应用于对Web中藏文文字的规范呈现、藏文Web中的功能特性、效率和易用性等因素进行综合评价,提出了数学模型和评判方法,同时说明在模糊综合评判中权重至关重... 为给藏文Web应用提供一种定量的质量评判方法,将模糊数学中的模糊综合评判方法应用于对Web中藏文文字的规范呈现、藏文Web中的功能特性、效率和易用性等因素进行综合评价,提出了数学模型和评判方法,同时说明在模糊综合评判中权重至关重要,并且给出了权重的确定方法。最后通过实例说明这种方法在藏文Web评判中的应用中是有效和可行的。 展开更多
关键词 藏文Web 软件质量 模糊综合评判 WEB应用 评判策略
在线阅读 下载PDF
藏文古籍数字图书馆设计研究 被引量:2
16
作者 单广荣 《计算机工程与设计》 CSCD 北大核心 2009年第1期255-258,共4页
对国内外数字图书馆的发展及现状进行了分析,研究了我国藏文古籍的特点及互联网上藏文信息的稀缺,根据古籍按民族分卷;民族按文种立卷的分类标准,采用J2EE规范,应用DreamWeaver、JSP和XML技术,对藏文古籍数字图书馆的体系结构进行了全... 对国内外数字图书馆的发展及现状进行了分析,研究了我国藏文古籍的特点及互联网上藏文信息的稀缺,根据古籍按民族分卷;民族按文种立卷的分类标准,采用J2EE规范,应用DreamWeaver、JSP和XML技术,对藏文古籍数字图书馆的体系结构进行了全面设计,提出了藏文古籍数字图书馆设计的几项关键性技术,实现了藏文古籍数字图书馆的各项需求,这一成果可使藏文古籍在数字化方面迈出了历史性的一步,是保存和延续发展民族文化遗产的最有效手段。 展开更多
关键词 藏文古籍 数字图书馆 J2EE XML技术 嵌入技术
在线阅读 下载PDF
基于Matlab唇形合成参数提取平台的实现
17
作者 郑文思 李永宏 丁丽娟 《计算机应用》 CSCD 北大核心 2012年第A01期137-138,143,共3页
唇形轮廓的准确提取是唇形合成的基础。实现了基于Matlab的唇形参数提取平台,平台实现的主要功能包括:文件读取,关键点标记,文件播放及显示,参数提取及数据存储。考虑到边缘检测的局限性,平台采用手动标记的方法标记关键点,得到了较理... 唇形轮廓的准确提取是唇形合成的基础。实现了基于Matlab的唇形参数提取平台,平台实现的主要功能包括:文件读取,关键点标记,文件播放及显示,参数提取及数据存储。考虑到边缘检测的局限性,平台采用手动标记的方法标记关键点,得到了较理想的唇形曲线及唇形人脸动画参数(FAP)。实验证明,该方法简单、有效。 展开更多
关键词 手动标记 唇线提取 参数提取 唇形合成 MATLAB
在线阅读 下载PDF
利用SAMPA实现藏语的字音转换 被引量:3
18
作者 刘博 杨鸿武 +1 位作者 甘振业 郭威彤 《计算机工程与应用》 CSCD 北大核心 2011年第35期117-121,共5页
机读音标SAMPA(Speech Assessment Methods Phonetic Alphabet)即计算机可读的音标,用计算机可读的ASCII字符表示语言的发音。提出了一种藏语的SAMPA标注的设计方案SAMPA-T(Tibetan),以藏语拉萨话为例列出了它们的辅音和元音对应的国际... 机读音标SAMPA(Speech Assessment Methods Phonetic Alphabet)即计算机可读的音标,用计算机可读的ASCII字符表示语言的发音。提出了一种藏语的SAMPA标注的设计方案SAMPA-T(Tibetan),以藏语拉萨话为例列出了它们的辅音和元音对应的国际音标与SAMPA-T标注,并实现了面向SAMPA-T的藏语字音转换,可应用于藏语语音合成等藏语语音信息处理中。 展开更多
关键词 藏语机读音标 机读音标(SAMPA) 字音转换
在线阅读 下载PDF
基于《知网》概念定义的情感词典构建研究 被引量:1
19
作者 张森 曹晖 《计算机工程与应用》 CSCD 北大核心 2015年第17期118-123,共6页
情感倾向,就是人对人或事物的看法,即主观色彩,通常分为褒贬、积极消极、好坏等方面。情感词语的情感倾向判别和权值赋予问题是文本倾向性分析研究中的基础,情感权值的研究在文本倾向性分析、舆情分析、文本分类等研究领域有着广泛的应... 情感倾向,就是人对人或事物的看法,即主观色彩,通常分为褒贬、积极消极、好坏等方面。情感词语的情感倾向判别和权值赋予问题是文本倾向性分析研究中的基础,情感权值的研究在文本倾向性分析、舆情分析、文本分类等研究领域有着广泛的应用,最具有代表性的方法是通过对《知网》中词语的义原相似度的计算来进行词语相似度的计算。在其词语相似度计算方法的基础上,对《知网》词语概念库glossary.dat文件进行提取、修剪和增删,并通过同义词、反义词和人工甄选种子词语,使其对于情感词的权值的计算研究更加精确,实验结果表明,该方法在情感词褒贬义判别、权值取值上和应用上都有不错的效果。 展开更多
关键词 概念定义 情感权值 倾向性分析 知网
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部