期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
结合多尺度上下文信息的唐卡小样本目标检测
1
作者 胡文瑾 唐慧媛 +1 位作者 乐超洋 宋华飞 《光学精密工程》 EI CAS CSCD 北大核心 2023年第12期1859-1869,共11页
通过对图像中感兴趣的对象进行分类与定位,能够帮助人们理解唐卡图像丰富的语义信息,促进文化传承。针对唐卡图像样本较少,背景复杂,检测目标存在遮挡,检测精度不高等问题,本文提出了一种结合多尺度上下文信息和双注意力引导的唐卡小样... 通过对图像中感兴趣的对象进行分类与定位,能够帮助人们理解唐卡图像丰富的语义信息,促进文化传承。针对唐卡图像样本较少,背景复杂,检测目标存在遮挡,检测精度不高等问题,本文提出了一种结合多尺度上下文信息和双注意力引导的唐卡小样本目标检测算法。首先,构建了一个新的多尺度特征金字塔,学习唐卡图像的多层级特征和上下文信息,提高模型对多尺度目标的判别能力。其次,在特征金字塔末端加入双注意力引导模块,提升模型对关键特征的表征能力,同时降低噪声的影响。最后利用Rank&Sort Loss替换交叉熵分类损失,简化模型训练的复杂度并提升检测精度。实验结果表明,所提出的方法在唐卡数据集和COCO数据集上的10-shot实验中,平均检测精度分别达到了19.7%和11.2%。 展开更多
关键词 唐卡 小样本目标检测 上下文信息 多尺度特征 双注意力机制
在线阅读 下载PDF
基于超声成像的语言研究综述 被引量:4
2
作者 张金溪 李永宏 寇贇 《西北民族大学学报(哲学社会科学版)》 CSSCI 2019年第6期143-153,共11页
先进的实验设备和方法对语言研究有着极其重要的作用。基于国内外现有研究成果,介绍了超声设备及有关超声图像处理工具,对超声成像在语言研究中的应用进行归纳和分析。从发音生理、病理语音、语音工程三个领域探讨超声成像在语言研究中... 先进的实验设备和方法对语言研究有着极其重要的作用。基于国内外现有研究成果,介绍了超声设备及有关超声图像处理工具,对超声成像在语言研究中的应用进行归纳和分析。从发音生理、病理语音、语音工程三个领域探讨超声成像在语言研究中的前沿应用,梳理了最新的语言研究的实验手段和研究方法,分析了超声成像的优劣势和应对策略,展望了超声成像在语言研究中的发展趋势,以期为语言研究提供新的思路和佐证手段。 展开更多
关键词 超声成像 语言研究 发音生理 病理语音 语音工程
在线阅读 下载PDF
基于改进混沌分区算法的模糊信息抽取 被引量:7
3
作者 万福成 《计算机应用研究》 CSCD 北大核心 2019年第10期2952-2954,2970,共4页
在大数据环境下进行模糊信息挖掘抽取中受到数据之间的小扰动类间干扰的影响,导致信息抽取的特征聚类性不好。为此提出一种基于改进混沌分区算法的模糊信息抽取方法,对高维数据信息流进行分布式结构重组,以Lorenz混沌吸引子作为训练测... 在大数据环境下进行模糊信息挖掘抽取中受到数据之间的小扰动类间干扰的影响,导致信息抽取的特征聚类性不好。为此提出一种基于改进混沌分区算法的模糊信息抽取方法,对高维数据信息流进行分布式结构重组,以Lorenz混沌吸引子作为训练测试集进行大数据模糊信息抽取的自适应学习训练,采用相空间重构技术对大数据的混沌吸引子负载特征量进行自相关特征匹配处理,提取模糊信息的平均互信息特征量,结合关联规则模糊配对方法进行大数据混沌分区,实现模糊信息的优化聚类,根据数据聚类结果实现模糊信息准确抽取,对抽取的高维模糊信息进行特征压缩,降低计算开销。仿真结果表明,采用该方法进行大数据样本序列的模糊信息抽取的聚类性较好,抗类间扰动能力较强,模糊信息抽取的准确概率较高,在数据挖掘和特征提取中具有很好的应用价值。 展开更多
关键词 大数据 混沌 分区算法 聚类 模糊信息抽取
在线阅读 下载PDF
基于超声成像技术的发音生理舌体研究方法综述 被引量:4
4
作者 张金溪 李永宏 寇贇 《计算机应用研究》 CSCD 北大核心 2021年第1期15-22,共8页
对发音时的舌体进行超声成像是分析舌体运动的一种有效方法,而对舌体超声成像序列的处理分析可以为语言学、语音学、语音处理和舌体建模等应用领域提供有价值的信息。基于国内外现有研究成果,归纳了舌体超声成像中舌体轮廓线的跟踪与提... 对发音时的舌体进行超声成像是分析舌体运动的一种有效方法,而对舌体超声成像序列的处理分析可以为语言学、语音学、语音处理和舌体建模等应用领域提供有价值的信息。基于国内外现有研究成果,归纳了舌体超声成像中舌体轮廓线的跟踪与提取技术,分析了不同舌体轮廓线的量化比较方法,指出了生理发音舌体模型的构建方法。旨在通过舌体超声技术的梳理,能够在发音生理研究和语言研究方面为有关研究人员提供参考,在将来的研究中,能够改进相关技术,并将计算机领域中的新算法、新模型应用于发音生理舌体研究中,进一步提高描述语音现象的科学性和准确性。 展开更多
关键词 超声成像 发音生理舌体 轮廓跟踪 边缘提取 舌线量化比较 舌体运动 舌体模型
在线阅读 下载PDF
融合多尺度CNN与双向LSTM的唐卡问句分类模型 被引量:1
5
作者 王铁君 闫悦 +2 位作者 郭晓然 王铠杰 饶强 《科学技术与工程》 北大核心 2024年第22期9490-9497,共8页
当前大语言模型的兴起为自然语言处理、搜索引擎、生命科学研究等领域的研究者提供了新思路,但大语言模型存在资源消耗高、推理速度慢,难以在工业场景尤其是垂直领域应用等方面的缺点。针对这一问题,提出了一种多尺度卷积神经网络(convo... 当前大语言模型的兴起为自然语言处理、搜索引擎、生命科学研究等领域的研究者提供了新思路,但大语言模型存在资源消耗高、推理速度慢,难以在工业场景尤其是垂直领域应用等方面的缺点。针对这一问题,提出了一种多尺度卷积神经网络(convolutional neural network,CNN)与双向长短期记忆神经网络(long short term memory,LSTM)融合的唐卡问句分类模型,本文模型将数据的全局特征与局部特征进行融合实现唐卡问句分类任务,全局特征反映数据的本质特点,局部特征关注数据中易被忽视的部分,将二者以拼接的方式融合以丰富句子的特征表示。通过在Thangka数据集与THUCNews数据集上进行实验,结果表明,本文模型相较于Bert模型在精确度上略优,在训练时间上缩短了1/20,运算推理时间缩短了1/3。在公开数据集上的实验表明,本文模型在文本分类任务上也表现出了较好的适用性和有效性。 展开更多
关键词 文本分类 长短期记忆 多尺度卷积神经网络 唐卡
在线阅读 下载PDF
AI 绘画研究综述 被引量:13
6
作者 张泽宇 王铁君 +2 位作者 郭晓然 龙智磊 徐魁 《计算机科学与探索》 CSCD 北大核心 2024年第6期1404-1420,共17页
AI绘画,作为计算机视觉领域的热门研究方向,正通过自然语言处理技术、图文预训练大模型,以及新兴的扩散模型,不断拓展其在艺术创作、影视媒体、工业设计、艺术教育等领域的应用边界。将以图生图和以文生图两类AI绘画任务作为主线,深入... AI绘画,作为计算机视觉领域的热门研究方向,正通过自然语言处理技术、图文预训练大模型,以及新兴的扩散模型,不断拓展其在艺术创作、影视媒体、工业设计、艺术教育等领域的应用边界。将以图生图和以文生图两类AI绘画任务作为主线,深入分析了代表性模型及其关键技术和方法。对于以图生图方式,从基于自编码器和基于生成式对抗网络两类模型分别探讨了各自的发展脉络、生成原理以及优缺点,并总结了它们在公共数据集上的效果;对于以文生图方式,归纳了基于扩散模型等三类模型的结构区别,以及在三个数据集上各类模型的生成效果,同时指出利用扩散模型的以文生图方式已成为当下的热点,并预示着未来图像生成方式的多样化发展。对目前主流的AI绘画平台从使用方式、生成速度等角度进行了对比总结。最后在总结AI绘画在技术层面和社会层面所面临的问题与争议的基础上,展望了AI绘画与人类艺术家的互补发展、绘画过程互动性增强以及新职业和产业的出现等未来趋势。 展开更多
关键词 AI绘画 以图生图 以文生图 图像生成 人工智能生成内容(AIGC)
在线阅读 下载PDF
汉译藏传佛教典籍中的神灵命名实体识别方法研究 被引量:1
7
作者 郭晓然 王维兰 罗平 《高原科学研究》 CSCD 2020年第4期87-94,共8页
命名实体识别是自然语言处理中的一项基础性关键任务。针对汉译藏传佛教典籍中各种神灵名称难以识别的问题,提出一种基于BERT预训练语言模型、双向长短时记忆网络(BiLSTM)和条件随机场(CRF)的多神经网络融合方法BERT-BiLSTM-CRF-a。该... 命名实体识别是自然语言处理中的一项基础性关键任务。针对汉译藏传佛教典籍中各种神灵名称难以识别的问题,提出一种基于BERT预训练语言模型、双向长短时记忆网络(BiLSTM)和条件随机场(CRF)的多神经网络融合方法BERT-BiLSTM-CRF-a。该方法使用BERT代替浅层网络训练字向量,充分表征字的多义性;引入注意力机制的权重思想将BiLSTM层的前向和后向隐层向量加权后再拼接,进一步提高了上下文特征的有效利用率;最后使用CRF模型输出序列上的最优标注结果。实验表明,该方法在测试集上准确率达95.2%,较传统的BiLSTM-CRF模型提升7.6%,召回率也高出8.7%,因此能够应用于汉译藏传佛教典籍中神灵名称识别任务。 展开更多
关键词 藏传佛教神灵 命名实体识别 BERT预训练模型 注意力机制
在线阅读 下载PDF
基于超声影像的舌位参数提取及分析软件研究 被引量:1
8
作者 李永宏 寇贇 +1 位作者 张金溪 徐建 《计算机应用与软件》 北大核心 2023年第9期211-217,共7页
为提高处理舌位超声成像数据的效率,研发一套基于超声影像的舌位参数提取及分析软件,包括舌位曲线提取功能模块和舌位曲线参数分析功能模块,前一模块采用自动拟合和手工标记关键点相结合的方法,后一模块采用SPSS工具对舌位曲线帧距和舌... 为提高处理舌位超声成像数据的效率,研发一套基于超声影像的舌位参数提取及分析软件,包括舌位曲线提取功能模块和舌位曲线参数分析功能模块,前一模块采用自动拟合和手工标记关键点相结合的方法,后一模块采用SPSS工具对舌位曲线帧距和舌位空间距离进行量化统计分析。该软件可精确分析发音人发音时的舌位运动轨迹及相关参数,并通过统计图实时直观显示,不但为批量处理更多的舌位运动数据提供了可能,也为不同学科研究者分析发音过程中舌位运动的生理参数变化提供了便捷的技术支持。 展开更多
关键词 超声影像 舌位参数 舌位曲线 帧距 舌位空间距离
在线阅读 下载PDF
神经机器翻译综述 被引量:118
9
作者 李亚超 熊德意 张民 《计算机学报》 EI CSCD 北大核心 2018年第12期2734-2755,共22页
机器翻译研究将源语言所表达的语义自动转换为目标语言的相同语义,是人工智能和自然语言处理的重要研究内容.近年来,基于序列到序列模型(Sequence-to-Sequence Model)形成一种新的机器翻译方法:神经机器翻译(Neural Machine Translation... 机器翻译研究将源语言所表达的语义自动转换为目标语言的相同语义,是人工智能和自然语言处理的重要研究内容.近年来,基于序列到序列模型(Sequence-to-Sequence Model)形成一种新的机器翻译方法:神经机器翻译(Neural Machine Translation,NMT),它完全采用神经网络完成源语言到目标语言的翻译过程,成为一种极具潜力全新的机器翻译模型.神经机器翻译经过最近几年的发展,取得了丰富的研究成果,在多数语言对上逐渐超过了统计机器翻译方法.该文首先介绍了经典神经机器翻译模型及存在的问题与挑战;然后简单概括神经机器翻译中常用的神经网络;之后按照经典神经机器翻译模型、基础共性问题、新模型、新架构等分类体系详细介绍了相关研究进展;接着简单介绍基于神经网络的机器翻译评测方法;最后展望未来研究方向和发展趋势,并对该文做出总结. 展开更多
关键词 机器翻译 神经机器翻译 注意力机制 循环神经网络 序列到序列模型 机器翻译评测
在线阅读 下载PDF
基于朴素贝叶斯的档案分类研究 被引量:8
10
作者 刘佩鑫 于洪志 徐涛 《河北大学学报(自然科学版)》 CAS 北大核心 2018年第5期549-554,共6页
通过对甘肃省档案局数据资源的分析研究,并与朴素贝叶斯分类算法相结合,实现对档案资源分类应用的研究.根据档案数据的特征,选用TFIDF(term frequency-inverse document frequency)算法进行选取符合档案文本主题的属性.样本实验结果证明... 通过对甘肃省档案局数据资源的分析研究,并与朴素贝叶斯分类算法相结合,实现对档案资源分类应用的研究.根据档案数据的特征,选用TFIDF(term frequency-inverse document frequency)算法进行选取符合档案文本主题的属性.样本实验结果证明,该分类模型适用于档案文本资源的分类,实现了档案资源自动分类的功能.相较于传统朴素贝叶斯分类方法,所提出的分类模型针对档案资源的分类效率提高了1%~2%. 展开更多
关键词 档案文本资源 档案特征 文本分类 朴素贝叶斯分类器
在线阅读 下载PDF
融合多层次特征的中文语义角色标注 被引量:5
11
作者 王一成 万福成 马宁 《智能系统学报》 CSCD 北大核心 2020年第1期107-113,共7页
随着人工智能和中文信息处理技术的迅猛发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术。在统计机器学习仍占主流的中文信息处理领域,传统的标注方法对句子的句法及语义的解析程... 随着人工智能和中文信息处理技术的迅猛发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术。在统计机器学习仍占主流的中文信息处理领域,传统的标注方法对句子的句法及语义的解析程度依赖较大,因而标注准确率受限较大,已无法满足当前需求。针对上述问题,对基于Bi-LSTM的中文语义角色标注基础模型进行了改进研究,在模型后处理阶段结合了Max pooling技术,训练时融入了词法和句式等多层次的语言学特征,以实现对原有标注模型的深入改进。通过多组实验论证,结合语言学辅助分析,提出针对性的改进方法从而使模型标注准确率得到了显著提升,证明了结合Max pooling技术的Bi-LSTM语义角色标注模型中融入相关语言学特征能够改进模型标注效果。 展开更多
关键词 自然语言处理 语义角色标注 深度学习 Bi-LSTM 语言学特征 后处理层 Max pooling
在线阅读 下载PDF
融合FCN和LSTM的视频异常事件检测 被引量:5
12
作者 武光利 郭振洲 +1 位作者 李雷霆 王成祥 《上海交通大学学报》 EI CAS CSCD 北大核心 2021年第5期607-614,共8页
针对传统视频异常检测模型的缺点,提出一种融合全卷积神经(FCN)网络和长短期记忆(LSTM)网络的网络结构.该网络结构可以进行像素级预测,并能精确定位异常区域.首先,利用卷积神经网络提取视频帧不同深度的图像特征;然后,把不同的图像特征... 针对传统视频异常检测模型的缺点,提出一种融合全卷积神经(FCN)网络和长短期记忆(LSTM)网络的网络结构.该网络结构可以进行像素级预测,并能精确定位异常区域.首先,利用卷积神经网络提取视频帧不同深度的图像特征;然后,把不同的图像特征分别输入记忆网络分析时间序列的语义信息,并通过残差结构融合图像特征和语义信息;同时,采用跳级结构集成多模态下的融合特征并进行上采样,最终获得与原视频帧大小相同的预测图.所提网络结构模型在加州大学圣地亚哥分校(UCSD)异常检测数据集的ped 2子集和明尼苏达大学(UMN)人群活动数据集上进行测试,均取得了较好的结果.在UCSD上的等错误率低至6.6%,曲线下面积达到了98.2%,F 1分数达到了94.96%;在UMN上的等错误率低至7.1%,曲线下面积达到了93.7%,F 1分数达到了94.46%. 展开更多
关键词 计算机视觉 视频异常检测 像素级预测 全卷积神经网络 长短期记忆网络
在线阅读 下载PDF
结合注意力机制的多策略汉语语义角色标注 被引量:1
13
作者 朱傲 万福成 +1 位作者 马宁 车郭怡 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第6期1019-1023,共5页
语义角色标注旨在标注出句子中所有与谓语相关的语义成分,是进行语义分析的基础和关键技术.使用传统的机器学习方法进行语义角色标注,需要人工设定特征,特征稀疏且工作繁琐沉重,同时传统方法对句法解析精度有较高要求,所以语义角色标注... 语义角色标注旨在标注出句子中所有与谓语相关的语义成分,是进行语义分析的基础和关键技术.使用传统的机器学习方法进行语义角色标注,需要人工设定特征,特征稀疏且工作繁琐沉重,同时传统方法对句法解析精度有较高要求,所以语义角色标注发展缓慢.针对上述情况,采取基于双向长短时记忆(BiLSTM)网络-注意力机制(attention)-条件随机场(CRF)模型进行汉语语义角色标注,同时尝试针对性引入其他资源优化模型性能.在训练阶段,将词性、依存句法特征以及短语结构句法特征组成的多线索特征组共同送入模型.经过多组对照实验论证,相比于BiLSTM-CRF模型,融合注意力机制的模型性能显著提升,并且引入的多线索特征组可以进一步提升模型性能. 展开更多
关键词 汉语语义角色标注 双向长短时记忆 条件随机场 注意力机制 依存句法分析 短语结构句法分析
在线阅读 下载PDF
自注意力机制和随机森林回归的视频摘要生成 被引量:4
14
作者 李雷霆 武光利 郭振洲 《计算机工程与应用》 CSCD 北大核心 2022年第4期198-205,共8页
是通过生成关键帧或片段来达到压缩视频的效果,能够在概括视频主要内容的基础上极大缩短观看时间,在视频快速浏览与检索领域应用广泛。现有方法大多只基于图像内容进行探索,忽略了视频具有时序的特点,且模型对波动数据学习能力较差,导... 是通过生成关键帧或片段来达到压缩视频的效果,能够在概括视频主要内容的基础上极大缩短观看时间,在视频快速浏览与检索领域应用广泛。现有方法大多只基于图像内容进行探索,忽略了视频具有时序的特点,且模型对波动数据学习能力较差,导致生成的摘要缺乏时间连贯性和代表性。提出了一个以编码器-解码器为框架的视频摘要网络。具体来说,编码部分由卷积神经网络提取特征,通过自注意力机制提升对关键特征的权重,而解码部分由融合了随机森林的双向长短期记忆网络构成,通过调整随机森林和双向长短期记忆网络在损失函数中所占比例,使模型具有较强的稳定性和预测准确率。实验在两个数据集上与其他七种方法进行了比较,综合实验结果证明了方法的有效性与可行性。提出了自注意力机制和随机森林回归的视频摘要网络,利用自注意力机制完成对特征的优化,将双向长短期记忆网络与随机森林结合,提升模型的稳定性与泛化性,有效降低损失值,使得生成的视频摘要更符合用户视觉特性。 展开更多
关键词 计算机视觉 视频摘要 自注意力机制 长短期记忆网络 随机森林回归
在线阅读 下载PDF
基于联合复杂网络Cn-RippleNet模型的推荐方法 被引量:2
15
作者 罗宇泰 徐涛 徐章博 《西北工业大学学报》 EI CAS CSCD 北大核心 2021年第5期1070-1076,共7页
RippleNet对用户偏好传播进行建模,并运用在推荐系统中,取得了良好的效果,但RippleNet没有考虑知识图谱中的实体权重,导致推荐的实体不够精确。提出了一种加入复杂网络节点影响力的Cn-RippleNet模型,在构建基于知识图谱的复杂网络之后,... RippleNet对用户偏好传播进行建模,并运用在推荐系统中,取得了良好的效果,但RippleNet没有考虑知识图谱中的实体权重,导致推荐的实体不够精确。提出了一种加入复杂网络节点影响力的Cn-RippleNet模型,在构建基于知识图谱的复杂网络之后,抽取其最大子网模型,计算图谱网络中节点影响力,并将其作为实体的权重添加至图谱实体中,最终计算出推荐结果。实验结果表明,该方法将RippleNet的AUC和ACC的值提高到了93.0%和85.6%,弥补了RippleNet没有考虑图谱实体影响力的问题,使推荐结果更符合用户预期。 展开更多
关键词 知识图谱 推荐系统 复杂网络 节点影响力 RippleNet
在线阅读 下载PDF
基于注意力卷积神经网络的中文虚假评论检测 被引量:2
16
作者 吴正清 曹晖 刘宝锴 《广西师范大学学报(自然科学版)》 CAS 北大核心 2023年第5期26-36,共11页
针对现有的虚假评论检测方法未充分利用虚假评论文本特征这一问题,本文提出一种基于多层注意力机制的卷积神经网络模型。首先,使用多种预训练词向量初始化词嵌入层,并进行复值位置编码;然后,将经过多种卷积核卷积得到的多种特征映射依... 针对现有的虚假评论检测方法未充分利用虚假评论文本特征这一问题,本文提出一种基于多层注意力机制的卷积神经网络模型。首先,使用多种预训练词向量初始化词嵌入层,并进行复值位置编码;然后,将经过多种卷积核卷积得到的多种特征映射依次通过嵌入用户特征的通道级和卷积核级的注意力层,根据特征重要程度分配不同权重;最后,将拟合的评论文本特征表示进行Softmax分类。实验结果表明,与诸多主流优秀神经网络模型相比,本文模型准确率和F1值分别提高4.74和3.86个百分点。 展开更多
关键词 虚假评论检测 注意力机制 卷积神经网络 预训练词向量
在线阅读 下载PDF
不安全越界行为的个性化实时检测 被引量:2
17
作者 林强 张淋均 +1 位作者 谢艾伶 王维兰 《计算机科学与探索》 CSCD 北大核心 2020年第6期1017-1027,共11页
户外迷路甚至走失事件在老年人群体中多发频发,成为危及他们独立生活安全的突出问题之一。为防止老年人走离日常生活所在的安全区域,进而避免走失事件的发生,研究并提出基于个人出行轨迹的个性化安全地理围栏构建方法及面向越界行为发... 户外迷路甚至走失事件在老年人群体中多发频发,成为危及他们独立生活安全的突出问题之一。为防止老年人走离日常生活所在的安全区域,进而避免走失事件的发生,研究并提出基于个人出行轨迹的个性化安全地理围栏构建方法及面向越界行为发现的异常轨迹实时检测算法。首先,建模每个人的户外安全地理围栏为不规则多边形,其中顶点代表经常到访的物理位置,边代表连接物理位置之间的道路;其次,使用GPS轨迹实例化构建的安全地理围栏模型,包括相关区域的划分和轨迹的映射处理;再次,通过在传统点在多边形内部判定算法中融入异常轨迹跨越度的量化评价指标,提出不安全越界行为的个性化实时检测算法;最后,使用一组来自个人的GPS轨迹数据进行了实验验证。实验结果表明提出的方法在老年人边界越界行为的识别中是可行的,在所有数据集上获得的AUC值均高于0.995,该原型系统具有良好的响应时间和检测性能。 展开更多
关键词 地理围栏 GPS轨迹挖掘 智能辅助技术 实时检测算法
在线阅读 下载PDF
基于改进的双向长短期记忆网络的视频摘要生成模型 被引量:8
18
作者 武光利 李雷霆 +1 位作者 郭振洲 王成祥 《计算机应用》 CSCD 北大核心 2021年第7期1908-1914,共7页
针对传统视频摘要方法往往没有考虑时序信息以及提取的视频特征过于复杂、易出现过拟合现象的问题,提出一种基于改进的双向长短期记忆(BiLSTM)网络的视频摘要生成模型。首先,通过卷积神经网络(CNN)提取视频帧的深度特征,而且为了使生成... 针对传统视频摘要方法往往没有考虑时序信息以及提取的视频特征过于复杂、易出现过拟合现象的问题,提出一种基于改进的双向长短期记忆(BiLSTM)网络的视频摘要生成模型。首先,通过卷积神经网络(CNN)提取视频帧的深度特征,而且为了使生成的视频摘要更具多样性,采用BiLSTM网络将深度特征识别任务转换为视频帧的时序特征标注任务,让模型获得更多上下文信息;其次,考虑到生成的视频摘要应当具有代表性,因此通过融合最大池化在降低特征维度的同时突出关键信息以淡化冗余信息,使模型能够学习具有代表性的特征,而特征维度的降低也减少了全连接层需要的参数,避免了过拟合问题;最后,预测视频帧的重要性分数并转换为镜头分数,以此选取关键镜头生成视频摘要。实验结果表明,在标准数据集TvSum和SumMe上,改进后的视频摘要生成模型能提升生成视频摘要的准确性;而且它的F1-score值也比基于长短期记忆(LSTM)网络的视频摘要模型DPPLSTM在两个数据集上分别提高1.4和0.3个百分点。 展开更多
关键词 视频摘要 卷积神经网络 双向长短期记忆网络 最大池化
在线阅读 下载PDF
藏汉双语场景图像数据集合成及文本检测方法
19
作者 郝玉胜 王维兰 +1 位作者 李金成 林强 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第4期592-604,共13页
为满足大量藏汉双语场景图像中的文字检测和识别的需求,合成数据集并训练深度学习模型,提出场景图像藏汉双语文本检测方法.首先,针对缺乏藏汉双语场景图像数据集的问题,提出基于轮廓检测和泊松图像编辑的合成方法,采用人工标注和自动化... 为满足大量藏汉双语场景图像中的文字检测和识别的需求,合成数据集并训练深度学习模型,提出场景图像藏汉双语文本检测方法.首先,针对缺乏藏汉双语场景图像数据集的问题,提出基于轮廓检测和泊松图像编辑的合成方法,采用人工标注和自动化合成方式生成了具有相当规模的藏汉双语场景图像数据集BiTCSD,其中包含合成图像87680幅、人工标注图像5550幅;其次,验证了使用合成数据集训练模型的有效性;最后,在不同数据集上训练了深度文本框连接网络CTPN,并在测试集上针对不同语种评价了模型的文本检测性能.实验结果表明:通过合成样本训练CTPN模型,能够使模型的文本检测指标大幅提升;训练后的CTPN能够以较高的准确率和召回率检测场景图像中的藏汉双语文本区域,针对藏语文本的检测准确率P、召回率R和F值分别为0.91,0.85和0.88;针对汉语文本的检测准确率P、召回率R和F值分别为0.89,0.83和0.86. 展开更多
关键词 场景文本检测 藏汉双语 合成数据集 深度学习
在线阅读 下载PDF
融合音节和词条特征的藏文文本情感分类研究
20
作者 孟祥和 于洪志 《中文信息学报》 北大核心 2023年第2期80-86,共7页
将深度神经网络模型应用于藏文文本情感分类中,虽然取得不错的分类效果,但仍然存在因藏文评论文本长度较短引起的特征稀疏的问题,使得深度学习模型不能够提取到更为全面的藏文文本语义特征。该文提出一种以藏文音节和藏文词条同时作为... 将深度神经网络模型应用于藏文文本情感分类中,虽然取得不错的分类效果,但仍然存在因藏文评论文本长度较短引起的特征稀疏的问题,使得深度学习模型不能够提取到更为全面的藏文文本语义特征。该文提出一种以藏文音节和藏文词条同时作为文本基本表示对象,采用CNN、BiLSTM和Multi-Headed Self-Attention机制等深度学习模型完成对藏文评论文本情感分类的研究方法。实验首先对音节和词条进行向量化表示,然后分别采用多核卷积神经网络、BiLSTM和Multi-Headed Self-Attention机制获取藏文文本中多维度的内部特征,最后通过特征拼接,再经激活函数为Softmax的全连接神经网络完成文本情感分类。研究结果表明,在该文的实验测试语料集上,融合音节和词条特征模型的分类准确率要优于基于音节的模型和基于词条的模型。 展开更多
关键词 藏文文本 情感分类 藏文音节 深度神经网络
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部