期刊文献+
共找到150篇文章
< 1 2 8 >
每页显示 20 50 100
基于结构增强的层次化任务导向提示策略的对话推荐系统SetaCRS
1
作者 姜皓骞 张东 +1 位作者 李冠宇 陈恒 《计算机应用》 北大核心 2026年第2期368-377,共10页
近年来,许多对话推荐系统的研究采用预训练语言模型作为统一框架,旨在解决传统多模块架构中模块间协同不当的问题;然而,这些方法难以发挥任务之间的协同作用,且无法有效捕获输入中潜在的结构化信息,这些问题很大程度上削弱了对话推荐系... 近年来,许多对话推荐系统的研究采用预训练语言模型作为统一框架,旨在解决传统多模块架构中模块间协同不当的问题;然而,这些方法难以发挥任务之间的协同作用,且无法有效捕获输入中潜在的结构化信息,这些问题很大程度上削弱了对话推荐系统在实际应用场景中的表现。因此,提出一种基于结构增强的层次化任务导向提示策略的对话推荐系统SetaCRS。SetaCRS利用异质图注意力神经网络建模用户系统历史对话中的序列共现信息。此外,构造层次化的全局任务描述和特定子任务描述,从而帮助模型捕获并利用当前子任务和总任务序列之间的联系。在DuRecDial与TG-ReDial这2个公开数据集上的实验结果表明,相较于UniMIND(Unified MultI-goal conversational recommeNDer system),SetaCRS在语义F1上分别提升了8.53%和1.55%,并在平均倒数排名(MRR)@10上分别提升了3.02%和9.54%。可见,SetaCRS能够利用所捕捉的任务关联性与对话结构信息来有效提升推荐准确性和回复质量。 展开更多
关键词 对话推荐系统 提示工程 预训练语言模型 图神经网络 深度学习
在线阅读 下载PDF
XBMU-AMDO31:藏语安多方言语音识别数据集
2
作者 谢晨宇 李冠宇 +2 位作者 马立克 孙倩 郭玉豪 《中国科学数据(中英文网络版)》 2026年第1期43-53,共11页
近年来,尽管语音识别技术在高资源语种(如英语、汉语)中取得显著进展,但针对藏语等低资源复杂音系语种的研究进展仍然缓慢。安多藏语作为低资源复杂音系语言,其语音识别面临数据稀缺与可用数据集质量和多样性不足的双重挑战。由于缺乏... 近年来,尽管语音识别技术在高资源语种(如英语、汉语)中取得显著进展,但针对藏语等低资源复杂音系语种的研究进展仍然缓慢。安多藏语作为低资源复杂音系语言,其语音识别面临数据稀缺与可用数据集质量和多样性不足的双重挑战。由于缺乏公开的数据集,相关研究面临着诸多限制。为此,本文构建并介绍了一个开源的藏语安多方言语音识别数据集。语音样本最初采集于中国甘肃省夏河地区,共收录了66位以藏语为母语者共31小时录音以及相应的转录文本,后续经过人工质检与标准化处理,确保了方言纯正性的以及数据的质量和一致性。本语音数据集的所有资源均已开放,目前已在多篇藏语语音识别相关论文或研究中被使用,得到业内专家的一致好评,更证明了数据集的质量。本数据集为藏语安多方言的高质量语音数据提供了重要补充,其复杂音系特性为跨语种迁移学习、小样本语音技术研究提供独特样本支持。 展开更多
关键词 语音识别 安多藏语数据集 多说话人 低资源
在线阅读 下载PDF
XBMU-bo-Lhasa31:藏语拉萨话语音识别数据集
3
作者 马立克 李冠宇 +2 位作者 谢晨宇 孙倩 郭玉豪 《中国科学数据(中英文网络版)》 2026年第1期31-42,共12页
藏语语音识别在藏语教育、新闻传播等领域具有重要应用价值。藏语拉萨话广泛使用于拉萨市及周边地区,由于地域等因素的影响,当前可用的藏语语音数据资源匮乏,高质量标注数据稀缺。为此,本研究构建了一个专业规范的藏语拉萨话语音识别数... 藏语语音识别在藏语教育、新闻传播等领域具有重要应用价值。藏语拉萨话广泛使用于拉萨市及周边地区,由于地域等因素的影响,当前可用的藏语语音数据资源匮乏,高质量标注数据稀缺。为此,本研究构建了一个专业规范的藏语拉萨话语音识别数据集。数据集使用自制录音软件实地录制,采集自51位说话人,总时长31.61小时,包含24,289条语音样本,平均每条时长4.68秒。数据内容主要选自新闻领域文本,确保语言规范性和领域代表性。为保障数据质量,实施了严格的质量控制流程:首先,对原始文本进行分句处理和人工校验;其次,在录音完成后,采用语音端点检测(VAD)技术筛选优质录音样本;最后,对文本中的非发音符号进行规范化处理,以提高语音识别的准确性。本数据集的建立为藏语语音识别研究提供了重要基础资源,对推动藏语语音识别技术发展具有积极意义。 展开更多
关键词 语音识别 藏语拉萨话 多说话人 语音语料库
在线阅读 下载PDF
维吾尔族大学生汉语普通话发音语料库
4
作者 阿布都外力·阿力木 李冠宇 《中国科学数据(中英文网络版)》 2026年第1期586-594,共9页
在少数民族群体汉语普通话习得规律研究及相关语音技术开发中,高质量、针对性强的发音语料库是重要基础。然而,当前针对维吾尔族大学生这一群体的汉语普通话发音系统性语料资源较为匮乏,难以满足对其发音特点的深入分析与应用需求。为此... 在少数民族群体汉语普通话习得规律研究及相关语音技术开发中,高质量、针对性强的发音语料库是重要基础。然而,当前针对维吾尔族大学生这一群体的汉语普通话发音系统性语料资源较为匮乏,难以满足对其发音特点的深入分析与应用需求。为此,本研究以新疆南疆地区48名维吾尔族大学生为发音人,同时选取2名汉族学生作为汉语普通话标准音参照,基于《普通话水平测试实施大纲》精选实验材料,系统涵盖汉语普通话39个韵母、21个声母及单字调、双字调,通过专业录音设备在标准化环境下采集语音数据,经切分去噪后形成14550个音频文件(总时长146分钟,数据量595.6 MB)及对应文本文件。语料库严格控制选字原则与发音变量,为分析维吾尔族大学生汉语发音规律、开发语音教学资源及优化相关技术提供了高质量数据支撑,对推动民族地区语言教育与跨语言信息处理具有重要价值。 展开更多
关键词 维吾尔族大学生 汉语普通话 发音语料库 第二语言习得
在线阅读 下载PDF
自适应聚类中心个数选择:一种联邦学习的隐私效用平衡方法 被引量:1
5
作者 宁博 宁一鸣 +3 位作者 杨超 周新 李冠宇 马茜 《电子与信息学报》 北大核心 2025年第2期519-529,共11页
联邦学习是一种分布式机器学习方法,它使多个设备或节点能够协作训练模型,同时保持数据的本地性。但由于联邦学习是由不同方拥有的数据集进行模型训练,敏感数据可能会被泄露。为了改善上述问题,已有相关工作在联邦学习中应用差分隐私对... 联邦学习是一种分布式机器学习方法,它使多个设备或节点能够协作训练模型,同时保持数据的本地性。但由于联邦学习是由不同方拥有的数据集进行模型训练,敏感数据可能会被泄露。为了改善上述问题,已有相关工作在联邦学习中应用差分隐私对梯度数据添加噪声。然而在采用了相应的隐私技术来降低敏感数据泄露风险的同时,模型精度和效果因为噪声大小的不同也受到了部分影响。为解决此问题,该文提出一种自适应聚类中心个数选择机制(DP-Fed-Adap),根据训练轮次和梯度的变化动态地改变聚类中心个数,使模型可以在保持相同性能水平的同时确保对敏感数据的保护。实验表明,在使用相同的隐私预算前提下DP-Fed-Adap与添加了差分隐私的联邦相似算法(FedSim)和联邦平均算法(FedAvg)相比,具有更好的模型性能和隐私保护效果。 展开更多
关键词 联邦学习 差分隐私保护 梯度聚类 自适应选择
在线阅读 下载PDF
网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法
6
作者 申小虎 李冠宇 +1 位作者 史洪飞 王传之 《应用声学》 北大核心 2025年第2期350-361,共12页
在鸟声识别应用中,算法模型多数采用参数密集型,缺少能够搭载至被动声学监测设备的高效网络。针对EfficientNet网络结构特点,将结构化剪枝与知识蒸馏方法相结合,确保剪枝后的网络保持良好的泛化能力,能够满足不同资源配置条件下的网络... 在鸟声识别应用中,算法模型多数采用参数密集型,缺少能够搭载至被动声学监测设备的高效网络。针对EfficientNet网络结构特点,将结构化剪枝与知识蒸馏方法相结合,确保剪枝后的网络保持良好的泛化能力,能够满足不同资源配置条件下的网络需求。一方面,通过逆背包准则建立了剪枝通道与资源间的信息表述,在保留网络框架条件下完成通道剪枝。另一方面,在知识蒸馏方法中通过加入MBConv模块内部蒸馏损失分量并完成训练,确保跨组信息交换保留了剪枝前后特征映射之间的距离。通过对南京浦口区老山森林中收集的10类鸟声检测分类实验,在压缩后网络参数量仅3.0M的条件下,分类精度可达到91.64%。该文所提方法在完成网络规模压缩的同时,较好地保留了分类精度,与相同规模主流轻量级网络相比较,能更好地适应鸟声识别被动声学监测的设备需求。 展开更多
关键词 网络剪枝 知识蒸馏 鸟声识别 轻量级网络 被动声学监测
在线阅读 下载PDF
基于联合自监督学习的多模态融合推荐算法 被引量:4
7
作者 吴宗航 张东 李冠宇 《计算机应用》 北大核心 2025年第6期1858-1868,共11页
针对多模态推荐算法的数据稀疏性问题,以及现有的自监督学习(SSL)算法往往集中在对数据集中单一特征的SSL上,而忽视了多特征联合学习的可能性的问题,提出一种基于联合SSL的多模态融合推荐算法SFELMMR(SelF supErvised Learning for Mult... 针对多模态推荐算法的数据稀疏性问题,以及现有的自监督学习(SSL)算法往往集中在对数据集中单一特征的SSL上,而忽视了多特征联合学习的可能性的问题,提出一种基于联合SSL的多模态融合推荐算法SFELMMR(SelF supErvised Learning for MultiModal Recommendation)。首先,整合并优化现有的SSL策略,以通过联合学习不同模态的数据特征,显著增强数据的表示能力,从而缓解数据稀疏性的问题;其次,通过融合全局视角下的深层次项目关系和局部视角下的直接相互作用,设计一种构造多模态潜在语义图的方法,使算法能更精准地捕捉项目间的复杂联系;最后,在3个数据集上进行实验。结果表明,与现有算法中表现最佳的多模态推荐算法相比,所提算法在多个推荐性能指标上取得了显著提升。具体地,所提算法的Recall@10分别提升了5.49%、2.56%、2.99%,NDCG@10分别提升了1.17%、1.98%、3.52%,Precision@10分别提升了4.69%、2.74%、1.22%,Map@10分别提升了0.81%、1.59%、3.11%。此外,通过对所提算法进行消融实验,验证了该算法的有效性。 展开更多
关键词 推荐系统 多模态 自监督学习 图卷积神经网络 特征融合
在线阅读 下载PDF
分布式异构数据集成系统的研究与实现 被引量:31
8
作者 李冠宇 刘军 张俊 《计算机应用研究》 CSCD 北大核心 2004年第3期96-98,共3页
探讨了异构数据集成系统的特点和所面临的问题,结合CORBA分布对象技术提出了一个集成企业异构数据源的解决方案;详细介绍了集成平台中异构数据源包装器的设计和实现。
关键词 数据集成 数据模型 包装器 CORBA 分布式系统
在线阅读 下载PDF
融合全局信息的复合兴趣表示学习会话推荐
9
作者 薛程元 张东 李冠宇 《计算机工程与设计》 北大核心 2025年第9期2465-2472,共8页
为深入挖掘全局层面上的项目间隐藏关联信息和会话层面的兴趣信息,提高推荐系统的准确性,提出了一种新颖的会话推荐模型CISR。在全局层面,CISR通过构建全局项目关系图并利用传播机制,有效学习会话间的隐藏关联信息,从而更全面地理解项... 为深入挖掘全局层面上的项目间隐藏关联信息和会话层面的兴趣信息,提高推荐系统的准确性,提出了一种新颖的会话推荐模型CISR。在全局层面,CISR通过构建全局项目关系图并利用传播机制,有效学习会话间的隐藏关联信息,从而更全面地理解项目间的相互影响和关系。在会话层面,CISR结合注意力机制与项目位置编码,学习并整合位置兴趣表示、层级兴趣表示和消极兴趣表示,形成复合兴趣表示,以捕捉用户在会话过程中的兴趣变化。实验结果表明,CISR模型在真实数据集上的性能显著优于其它基线方法,展现了其在会话推荐任务中的优越性和有效性。 展开更多
关键词 推荐系统 会话推荐 图神经网络 注意力机制 多头注意力 反向位置嵌入 全局项目关系图
在线阅读 下载PDF
ComHA:融合几何变换与层次结构的知识图谱嵌入模型
10
作者 李文浩 张东 李冠宇 《计算机工程》 北大核心 2025年第11期123-132,共10页
知识图谱嵌入技术旨在将复杂的语义信息转换为易于计算的低维向量形式,这一过程不仅有助于揭示实体和关系之间的潜在相似性,还能够促进计算机对知识图谱内容的理解和处理。当前,在知识图谱嵌入领域,现有的知识图谱嵌入模型仍然难以建模... 知识图谱嵌入技术旨在将复杂的语义信息转换为易于计算的低维向量形式,这一过程不仅有助于揭示实体和关系之间的潜在相似性,还能够促进计算机对知识图谱内容的理解和处理。当前,在知识图谱嵌入领域,现有的知识图谱嵌入模型仍然难以建模复杂的关系模式,在对称性、反对称性、反演性以及层次结构等方面仍存在局限性。层次感知模型HAKE通过将实体映射到极坐标系统中,并利用极坐标系中的同心圆来反映不同层次结构,同时捕捉同一层级内实体间的关系,但对于其他复杂关系的建模仍有局限。为了解决这一问题,提出一种新的知识图谱嵌入模型ComHA。ComHA在HAKE的基础上融合了几何变换的思想,通过平移、旋转和缩放操作来增强实体和关系的向量空间表示。在公开数据集WN18、WN18RR、FB15k、FB15k-237和YAGO3-10上的链接预测实验结果表明,ComHA实现了性能提升。这验证了ComHA在捕捉知识图谱中复杂关系和层次结构方面的有效性,为未来的知识图谱嵌入模型设计提供了新的研究方向和研究思路。 展开更多
关键词 知识图谱 知识图谱嵌入 几何变换 层次结构感知 链接预测
在线阅读 下载PDF
利用多头注意力融合数值属性的知识图谱嵌入方法
11
作者 冯文龙 张东 李冠宇 《计算机工程与应用》 北大核心 2025年第20期228-237,共10页
知识图谱作为结构化的语义知识库通过实体与关系表示现实世界。传统的知识图谱嵌入方法往往忽略了知识图谱中的数值信息,将数值信息通过数值编码的方式纳入知识图谱的链接预测过程,并利用多头注意力机制结合数值信息提升知识图谱链接预... 知识图谱作为结构化的语义知识库通过实体与关系表示现实世界。传统的知识图谱嵌入方法往往忽略了知识图谱中的数值信息,将数值信息通过数值编码的方式纳入知识图谱的链接预测过程,并利用多头注意力机制结合数值信息提升知识图谱链接预测任务的能力。研究通过自监督学习方法对已有的知识图谱数据生成正样本与负样本扩展数据集,提高模型对数据的利用效率。采用对比损失函数与交叉熵损失函数优化模型性能。实验部分选取了数据集Spotify、US-cities与Credit,并在数据集上进行链接预测实验,在MRR指标上相较于现有最佳模型分别提升5.54%、4.03%与1.12%,表明了该研究方法在链接预测任务中的有效性。 展开更多
关键词 知识图谱 链接预测 多头注意力 实体嵌入 自监督学习
在线阅读 下载PDF
基于Whisper的藏语方言语音识别研究
12
作者 马立克 李冠宇 《信号处理》 北大核心 2025年第12期1980-1991,共12页
尽管Whisper语音大模型基于68万小时多语种语料进行训练,但其原生架构并未涵盖藏语语音识别任务。直接采用模型自带的微调方法进行藏语语音识别任务的训练,仍面临以下问题:(1)共享表征空间被英语等高资源语言主导,导致模型对藏语特性的... 尽管Whisper语音大模型基于68万小时多语种语料进行训练,但其原生架构并未涵盖藏语语音识别任务。直接采用模型自带的微调方法进行藏语语音识别任务的训练,仍面临以下问题:(1)共享表征空间被英语等高资源语言主导,导致模型对藏语特性的学习不足;(2)模型自带的字节码编码将藏文音节无差别拆分,造成字符结构断裂与语义信息丢失;(3)藏语语料训练数据稀缺,模型难以充分习得藏语语言规律;(4)藏语各方言使用同一套文字体系,在多方言混合训练时难以区分音节在不同方言中的发音差异,产生严重的跨方言混淆,导致识别错误率上升。为此,本文提出一种在Whisper多语种预训练框架下改进的藏语方言语音识别方法,旨在促使模型学习方言间的共性与差异,以提升模型在不同方言场景下的识别鲁棒性与精度。首先,本文构建藏语字节对编码(Byte Pair Encoding,BPE)模型,并通过引入不同建模单元(如字母、BPE与音素)来扩展Whisper词表,系统比较不同编码策略对模型最终识别效果的影响;其次,在模型原有语音识别任务的基础上引入方言判别辅助机制,增强模型对藏语方言的区分能力;最后,结合对识别结果的分析,引入外部语言模型使用重打分以及浅融合的方式来提升模型的解码结果,进一步提升音频和文本一致性。实验结果表明,相较于模型直接全参微调,采用本方法并基于BPE-100建模单元对模型进行微调,同时引入语言模型优化解码结果,字符错误率(Character Error Rate,CER)可由45.80%降至9.56%。同时模型对藏语长序列文本的处理能力提升,最大可处理序列长度为原来的3倍。 展开更多
关键词 语音识别 藏语 Whisper 建模单元 低资源
在线阅读 下载PDF
融合注意力与结构降噪的对比学习知识感知推荐
13
作者 任衍栋 张东 李冠宇 《计算机工程与应用》 北大核心 2025年第17期232-240,共9页
现有基于知识图谱推荐方法利用知识图谱丰富项目表示,但是固定聚合邻居实体的策略无法动态调整邻居实体的重要性,而且用户历史行为数据往往是嘈杂的,影响了推荐系统的性能。针对这类问题,提出一种融合注意力机制与图结构降噪的对比学习... 现有基于知识图谱推荐方法利用知识图谱丰富项目表示,但是固定聚合邻居实体的策略无法动态调整邻居实体的重要性,而且用户历史行为数据往往是嘈杂的,影响了推荐系统的性能。针对这类问题,提出一种融合注意力机制与图结构降噪的对比学习推荐算法,在多视图对比学习框架下采用了一个度敏感边缘修剪方法对用户-项目交互图进行结构降噪,去掉可能含有无意交互噪声的边,并缓解图神经网络中度数高的节点学习特征时容易存在的过度平滑问题。在知识图谱聚合中引入可学习的图注意力机制来有效识别知识图谱中信息丰富的知识连接,动态调整不同实体的权重。在Last.FM和MovieLens-1M两个真实的公共数据集上与其他先进算法进行对比实验,结果表明该模型在AUC、F1和Recall@K评价指标上均优于其他先进模型。 展开更多
关键词 知识图谱(KG) 推荐系统 对比学习 注意力机制 图结构降噪
在线阅读 下载PDF
RotatCY:圆柱坐标系中基于旋转嵌入的链接预测模型
14
作者 孟繁琛 李晓楠 +1 位作者 刘冬帅 李冠宇 《计算机应用与软件》 北大核心 2025年第8期273-282,共10页
链接预测一直以来是知识图谱补全领域的重要研究课题。如今仍然存在很多链接预测模型忽略了现实世界中实体之间的语义联系。针对有效利用实体间的语义信息提出圆柱坐标系中基于旋转嵌入的链接预测模型——RotatCY。将实体和关系嵌入到... 链接预测一直以来是知识图谱补全领域的重要研究课题。如今仍然存在很多链接预测模型忽略了现实世界中实体之间的语义联系。针对有效利用实体间的语义信息提出圆柱坐标系中基于旋转嵌入的链接预测模型——RotatCY。将实体和关系嵌入到圆柱坐标系中,利用径向距离、高度和方位角结合的方式将实体按照语义层级划分,实现对实体间语义层级的建模。在五个标准数据集上进行实验,实验结果显示RotatCY模型的性能在四个评价指标上均有提升。与RotatH相比,RotatCY在FB15k数据集的Hits@1上提升最大,提高了0.143。 展开更多
关键词 知识图谱 链接预测 圆柱坐标系 知识图谱补全 语义层级
在线阅读 下载PDF
基于密集卷积和多特征感知的链接预测模型研究
15
作者 刘金竹 张东 李冠宇 《计算机工程与科学》 北大核心 2025年第8期1483-1492,共10页
ConvE将卷积神经网络应用于链接预测任务,其优异的性能引起了学术界的关注。但是,ConvE等卷积神经网络模型对图结构信息的特征提取仍不充分且没有考虑知识图谱中关系存在的多特征属性。为了充分利用图结构信息特征以及关系的多特征属性... ConvE将卷积神经网络应用于链接预测任务,其优异的性能引起了学术界的关注。但是,ConvE等卷积神经网络模型对图结构信息的特征提取仍不充分且没有考虑知识图谱中关系存在的多特征属性。为了充分利用图结构信息特征以及关系的多特征属性,提出了一个新的链接预测模型——Com-ConvR。该模型对关系的多特征进行提取,并向卷积神经网络添加密集卷积块,增强了网络的信息提取能力,实现了多特征融合,以完成链接预测任务。最后,使用ComConvR在4个基准数据集上进行链接预测实验并进行消融实验和关键参数讨论,表明了密集卷积块的有效性和高效性。 展开更多
关键词 链接预测 神经网络 多特征感知 密集卷积
在线阅读 下载PDF
MSIM:融合注意力机制的多阶段推理知识图谱问答模型
16
作者 邱天搏 张东 李冠宇 《计算机工程与应用》 北大核心 2025年第24期144-153,共10页
多跳知识图谱问答任务是根据用户输入的自然语言提问从知识图谱中检索对应的实体。鉴于现有方法在使用知识图谱的节点嵌入与问题文本指令嵌入时存在异构问题,提出了消息编码器来融合两种异构的嵌入,此编码器通过对图结构增加空间位置编... 多跳知识图谱问答任务是根据用户输入的自然语言提问从知识图谱中检索对应的实体。鉴于现有方法在使用知识图谱的节点嵌入与问题文本指令嵌入时存在异构问题,提出了消息编码器来融合两种异构的嵌入,此编码器通过对图结构增加空间位置编码使序列嵌入与图消息融合。并引入了一种新颖的节点嵌入初始化策略——关系频率-逆实体频率(RF-IGEF)。从而改进节点嵌入初始化策略,防止KGQA嵌入初始化方法存在的嵌入提取权重过小以及同义关系被覆盖等缺陷。结合以上两种方法提出的MSIM模型在流行知识图谱问答数据集对比H@1和F@1这两个关键性能指标,MSIM模型均展现出优于基准模型的表现。具体来说,与近两年的模型相比,MSIM模型在WebQuestionSP数据集中H@1指标上最高提升了1.2个百分点,在F@1指标上最高提升了2个百分点。在ComplexWebQuestions数据集中H@1指标上最高提升了1.1个百分点,在F@1指标上最高提升了0.3个百分点。在MetaQA1-hop、2-hop数据集中分别取得97.5%与100%的优良成绩。 展开更多
关键词 知识图谱 图神经网络 问答推理模型 注意力机制
在线阅读 下载PDF
藏语拉萨话大词表连续语音识别声学模型研究 被引量:16
17
作者 李冠宇 孟猛 《计算机工程》 CAS CSCD 2012年第5期189-191,共3页
根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语... 根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明,在最优情况下,该模型词错误率只有7.8%。 展开更多
关键词 藏语 拉萨话 连续语音识别 隐马尔可夫模型 HTK工具 声学模型
在线阅读 下载PDF
基于决策树的藏语拉萨话三音子模型 被引量:5
18
作者 李冠宇 于洪志 +1 位作者 李永宏 马宁 《计算机工程与科学》 CSCD 北大核心 2013年第9期146-150,共5页
对藏语拉萨话中单音子及三音子分布情况进行了统计,分析了在藏语大词表连续词表连续语音识别中建立上下文相关声学模型的必要性。选择音素为建模单元,根据藏语特点,建立以音节为单位的发音字典。讨论了利用决策树建立三音子模型的几个... 对藏语拉萨话中单音子及三音子分布情况进行了统计,分析了在藏语大词表连续词表连续语音识别中建立上下文相关声学模型的必要性。选择音素为建模单元,根据藏语特点,建立以音节为单位的发音字典。讨论了利用决策树建立三音子模型的几个关键问题和基本算法,结合国际音标分类和经验知识,确定了38个藏语拉萨话音子类别集及相应的决策树问题集。建立了共20个发音人8 170句的训练语料,在HTK平台上建立和训练得到了基于决策树的藏语拉萨话三音子模型,并分析了不同隐马尔可夫模型状态数及高斯混合度下的识别结果,确定了一套藏语大词表连续语音识别的完整方案。 展开更多
关键词 藏语 拉萨话 大词表连续语音识别 隐马尔可夫模型 三音子模型
在线阅读 下载PDF
一种语料缺乏条件下的藏语音素自动切分方法 被引量:2
19
作者 李冠宇 于洪志 吴志强 《计算机工程与科学》 CSCD 北大核心 2014年第10期2009-2013,共5页
藏语语音合成及语音学研究中,经常需要切分音素。人工切分费时费力,但是由于藏语语料缺乏,训练的藏语声学模型不够精确和鲁棒,自动切分的音素边界不够准确。以藏语拉萨方言为研究对象,在确定拉萨方言音素集、建立拉萨方言发音词典的基础... 藏语语音合成及语音学研究中,经常需要切分音素。人工切分费时费力,但是由于藏语语料缺乏,训练的藏语声学模型不够精确和鲁棒,自动切分的音素边界不够准确。以藏语拉萨方言为研究对象,在确定拉萨方言音素集、建立拉萨方言发音词典的基础上,通过计算音素模型间的距离,确定了拉萨方言和英语的共同音素,融合拉萨方言和英语GMM-HMM模型,并自动判断语音中的静音和短时停顿,构造语音对应的词网络,查询发音词典,将词网络扩展为模型(音素)网络,使用Viterbi算法将每一帧特征参数对应到模型的每一个状态上,进而对音素进行切分。实验表明,切分效果要优于单纯的藏语模型方法。 展开更多
关键词 藏语 拉萨方言 自动音素切分 维特比算法 隐马尔可夫模型
在线阅读 下载PDF
一种改进的SIFT血管图像特征匹配算法 被引量:5
20
作者 李冠宇 汪友生 《电子测量技术》 2015年第12期63-66,共4页
基于特征提取的图像配准在医学领域得到广泛的应用。为了将尺度不变特性变换算法更好地运用到血管图像特征提取与匹配中去,根据血管图像特点,采用曲线拟合确定合适的低对比度阈值,并为了提高SIFT算法的处理速度以及匹配准确度,对SIFT算... 基于特征提取的图像配准在医学领域得到广泛的应用。为了将尺度不变特性变换算法更好地运用到血管图像特征提取与匹配中去,根据血管图像特点,采用曲线拟合确定合适的低对比度阈值,并为了提高SIFT算法的处理速度以及匹配准确度,对SIFT算法的特征描述子进行降维处理,在特征点匹配阶段采用基于模比较的匹配方法,通过对比特征点描述向量模的关系寻找匹配点。实验结果及数据表明:改进后的算法在提高匹配速率和降低误匹配率方面均有提高,对临床血管疾病治疗有重要意义。 展开更多
关键词 尺度不变特征变换 特征点描述 特征点匹配 模比较
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部