期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
面向不完备混合数据的矩阵增量知识维护方法研究 被引量:5
1
作者 黄倩倩 李天瑞 +2 位作者 杨新 王国强 胡节 《小型微型计算机系统》 CSCD 北大核心 2020年第4期868-877,共10页
现有邻域粗糙集模型可用于处理包含名义型和数值型两种类型共存的混合数据,但较少考虑混合数据的不完备性.本文从缺失值的两种语义解释出发,即"不关心值"和"丢失值",通过定义邻域特征关系和量化邻域特征关系,提出... 现有邻域粗糙集模型可用于处理包含名义型和数值型两种类型共存的混合数据,但较少考虑混合数据的不完备性.本文从缺失值的两种语义解释出发,即"不关心值"和"丢失值",通过定义邻域特征关系和量化邻域特征关系,提出了面向不完备混合数据的两种新型邻域粗糙集模型,并给出了粗糙邻域近似知识的矩阵计算表达方法.此外,在属性集动态变化下,介绍了基于扩展邻域粗糙集模型的快速增量知识维护机理和方法.最后通过实例验证了所提出增量更新方法的有效性. 展开更多
关键词 不完备混合数据 粗糙集 邻域关系 矩阵运算 增量更新
在线阅读 下载PDF
基于医疗文本数据聚类的帕金森病早期诊断预测 被引量:6
2
作者 张晓博 杨燕 +2 位作者 李天瑞 陆凡 彭莉兰 《计算机应用》 CSCD 北大核心 2020年第10期3088-3094,共7页
针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测。首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度... 针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测。首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度的维度空间;然后,应用5个传统的经典聚类模型和3种不同的聚类集成方法分别对8个维度空间的数据进行聚类;最后,采用4个聚类性能指标来预测数据集中的多巴胺异常PD患者、健康体和无多巴胺缺失(SWEDD)PD患者。仿真结果显示,PCA特征维度值取30时,高斯混合模型(GMM)的聚类准确度达到89.12%;PCA特征维度值取70时,谱聚类(SC)的聚类准确度达到61.41%;PCA特征维度值取80时,元聚类算法(MCLA)的聚类准确度达到59.62%。对比实验结果表明,5种经典聚类方法中,PCA的特征维度值小于40时,高斯混合模型聚类效果最佳;3种聚类集成方法中,对于不同的特征维度,MCLA的聚类性能均表现优异,进而为PD的早期智能化辅助诊断提供了技术和理论支撑。 展开更多
关键词 帕金森病 医疗文本数据 主成分分析 聚类 聚类集成
在线阅读 下载PDF
基于多通道自注意力机制的电子病历实体关系抽取 被引量:38
3
作者 宁尚明 滕飞 李天瑞 《计算机学报》 EI CSCD 北大核心 2020年第5期916-929,共14页
电子病历是临床治疗过程中患者病情及治疗流程的重要载体之一,其中各类实体间关系包含了大量与患者健康相关的医学信息.因此,对电子病历文本的深度挖掘是获取医学知识、分析患者病情的有效手段之一.实体的高密度分布以及实体间关系的交... 电子病历是临床治疗过程中患者病情及治疗流程的重要载体之一,其中各类实体间关系包含了大量与患者健康相关的医学信息.因此,对电子病历文本的深度挖掘是获取医学知识、分析患者病情的有效手段之一.实体的高密度分布以及实体间关系的交叉互联为电子病历实体关系的抽取带来了极大挑战,应用于通识领域的实体关系抽取方法也因此受到极大的限制.针对这一文本差异性,本文提出一种基于多通道自注意力机制的"recurrent+transformer"神经网络架构,相比于主流的"recurrent+CNN"架构,该架构可强化模型对句级别语义特征的捕捉,提升对电子病历专有文本特点的学习能力,同时显著降低模型整体复杂度.此外,本文提出在该网络架构下的两种基于权重的辅助训练方法:带权学习的交叉熵损失函数以及基于权重的位置嵌入,前者用于缓解实体关系类别不均衡所造成的训练偏置问题,从而提升模型在真实分布数据中的普适性,同时可加速模型在参数空间的收敛速率;后者则用于进一步放大文本字符位置信息的重要性,以辅助提升transformer网络的训练效果.对比实验选用目前主流方法的6个模型作为基线,相继在2010i2b2/VA及SemEval 2013DDI医学语料中进行验证.相较于传统自注意力机制,多通道自注意力机制的引入在模型整体F1指标中最高实现10.67%的性能提升,在细粒度单项对比实验中,引入类别权重的损失函数在小类别样本中的F1值最高提升近23.55%. 展开更多
关键词 关系抽取 电子病历 多通道自注意力 recurrent+transformer 语义特征
在线阅读 下载PDF
融合多模态信息的社交网络谣言检测方法 被引量:14
4
作者 张少钦 杜圣东 +1 位作者 张晓博 李天瑞 《计算机科学》 CSCD 北大核心 2021年第5期117-123,共7页
随着社交网络平台的发展,社交网络已经成为人们获取信息的重要来源。然而社交网络的便利性也导致了虚假谣言的快速传播。与纯文本的谣言相比,带有多媒体信息的网络谣言更容易误导用户以及被传播,因此对多模态的网络谣言检测在现实生活... 随着社交网络平台的发展,社交网络已经成为人们获取信息的重要来源。然而社交网络的便利性也导致了虚假谣言的快速传播。与纯文本的谣言相比,带有多媒体信息的网络谣言更容易误导用户以及被传播,因此对多模态的网络谣言检测在现实生活中有着重要意义。研究者们已提出若干多模态的网络谣言检测方法,但这些方法都没有充分挖掘出视觉特征和融合文本与视觉的联合表征特征。为弥补这些不足,提出了一个基于深度学习的端到端的多模态融合网络。该网络首先抽取出图片中各个兴趣区域的视觉特征,然后使用多头注意力机制将文本和视觉特征进行更新与融合,最后将这些特征进行基于注意力机制的拼接以用于社交网络多模态谣言检测。在推特和微博公开数据集上进行对比实验,结果表明,所提方法在推特数据集上F1值有13.4%的提升,在微博数据集上F1值有1.6%的提升。 展开更多
关键词 多模态 谣言检测 深度学习 目标检测
在线阅读 下载PDF
基于Spark Streaming的流式并行文本校对 被引量:5
5
作者 杨宗霖 李天瑞 +3 位作者 刘胜久 殷成凤 贾真 珠杰 《计算机科学》 CSCD 北大核心 2020年第4期36-41,共6页
互联网的高速发展催生了海量网络文本,这对传统的串行文本校对算法提出了新的性能挑战。尽管近年来文本自动校对任务受到了较多关注,但相关研究工作多集中于串行算法,鲜有涉及校对的并行化。文中首先对串行校对算法进行泛化,给出一种串... 互联网的高速发展催生了海量网络文本,这对传统的串行文本校对算法提出了新的性能挑战。尽管近年来文本自动校对任务受到了较多关注,但相关研究工作多集中于串行算法,鲜有涉及校对的并行化。文中首先对串行校对算法进行泛化,给出一种串行校对的通用框架,然后针对串行校对算法处理大规模文本存在的耗时长的不足,提出3种通用的文本校对并行化方法:1)基于多线程的线程并行校对,它基于线程池的方式实现段落和校对功能的同时并行;2)基于Spark MapReduce的批处理并行校对,它通过RDD并行计算的方式实现段落的并行校对;3)基于Spark Streaming流式计算框架的流式并行校对,它通过将文本流的实时计算转为一系列小规模的基于时间分片的批处理作业,有效避免了固定开销,显著缩短了校对时延。由于流式计算兼有低时延和高吞吐的优势,文中最后选用流式校对来构建并行校对系统。性能对比实验表明,线程并行适合校对小规模文本,批处理并行适合大规模文本的离线校对,流式并行校对有效减少了约110s的固定时延,相比批处理校对,采用Streaming计算框架的流式校对取得了极大的性能提升。 展开更多
关键词 自动校对 流式计算 并行计算 多线程 SPARK
在线阅读 下载PDF
面向评论文本数据的旭日图可视化 被引量:6
6
作者 易小群 李天瑞 陈超 《计算机科学》 CSCD 北大核心 2019年第10期14-18,共5页
旭日图是一种现代饼图,它超越传统的饼图和环图,不仅能表达数据的占比问题,更能表达清晰的层级和归属关系,以父子层次结构来显示数据的构成情况。使用传统的旭日图对文本数据进行可视化时,不能全面地展示实体关系和情感偏向,而且旭日图... 旭日图是一种现代饼图,它超越传统的饼图和环图,不仅能表达数据的占比问题,更能表达清晰的层级和归属关系,以父子层次结构来显示数据的构成情况。使用传统的旭日图对文本数据进行可视化时,不能全面地展示实体关系和情感偏向,而且旭日图层数越多,信息的可读性就越低。针对以上问题,对传统的旭日图进行了改进。首先,设计同级相邻圆弧的交叠,展示文本中实体的关系。然后,将旭日图与柱形图相结合,展示评论文本的感情偏向,柱形图体现为圆弧的涂色宽度,表示对于某方面评论的满意度。最后,对数据进行优化重排,包括:1)基于整体的考虑,将凸出部分放在邻接位置以节省空间;2)对局部的数据优化进行重排,使得最外层的节点尽可能高低错落,以提高稀疏性,便于观察。实验结果表明:改进的旭日图能够更全面、清晰地对评论文本进行可视化,为用户提供更灵活、个性化的可视化展示。 展开更多
关键词 可视化 旭日图 情感偏向 数据重排 交互
在线阅读 下载PDF
基于二分图卷积表示的推荐算法 被引量:2
7
作者 熊旭东 杜圣东 +1 位作者 夏琬钧 李天瑞 《计算机科学》 CSCD 北大核心 2021年第4期78-84,共7页
随着数据驱动智能技术的快速发展,个性化推荐算法及相关应用成为了研究热点。推荐可视为将用户与物品进行匹配的问题,但用户与物品之间存在的语义差距不便于两者之间的直接匹配。现有的许多基于深度学习的推荐算法采用的思路都是将不同... 随着数据驱动智能技术的快速发展,个性化推荐算法及相关应用成为了研究热点。推荐可视为将用户与物品进行匹配的问题,但用户与物品之间存在的语义差距不便于两者之间的直接匹配。现有的许多基于深度学习的推荐算法采用的思路都是将不同空间中的实体映射到统一潜在语义空间,利用其嵌入表示来进行匹配度计算。随着网络表示学习方法的出现,由于用户和物品的交互可构成二分图,用户和物品的嵌入表示可被视作二分图节点表示,许多基于二分图节点表示的推荐算法被提出,但现有算法仍难以对高阶交互信息进行有效提取。针对这一问题,文中提出了一种基于二分图卷积表示学习的推荐算法BGCRRA(Bipartite Graph Convolution Representation-based Recommendation Algorithm)。该算法首先将用户和物品交互视作二分图,然后通过实现自适应融合多阶、多层次的图卷积模型来对节点进行嵌入表示,最后计算用户和物品的匹配度,并实现推荐。文中在3个公开的数据集上进行对比实验,通过将该算法与当前表现优异的算法进行HR和NDCG(Normalized Discounted Cumulative Gain)指标的比较分析,验证了所提推荐算法的有效性。 展开更多
关键词 推荐算法 嵌入方法 图卷积 二分图
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部