本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了...本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越.展开更多
地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地...地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地震灾害数据、地质/地理环境、地震灾害事件、地震灾害应急任务、地震灾害模型本体,形成地震灾害本体层;结合自底向上方法构建高质量数据层,通过卷积神经网络对遥感影像进行灾害前后变化识别,实现从影像信息到文本知识的智能结构化转换;融合微调后通用信息抽取框架(universal information extraction,简称UIE)预训练模型对文本数据进行命名实体及关系属性知识抽取,精确率分别为82.04%和70.66%。通过计算词向量语义相似度实现数据融合与统一表达。以2023年12月18日甘肃省临夏州积石山县地震为例,通过本体构建、数据抽取、统一表达形成高质量地震灾害知识图谱,实现地震灾害多源异构地震数据到统一知识表达的转化。基于所构建的地震灾害知识图谱实现了灾害损失、应急链决策支持的查询展示,及结合相关地质数据推理和查询潜在次生灾害。该方法结合深度学习与预训练技术,融合多模态数据,构建了地震灾害知识图谱构建,为快速准确的地震灾害信息查询与次生灾害发生提供辅助支撑。展开更多
台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工...台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工单分类模型(MiniRBT-LSTM-GAT)。首先,利用预训练模型计算电力工单文本中的字符级特征向量表示;其次,采用双向长短期记忆网络(BiLSTM)捕捉电力文本序列中的依赖关系;再次,通过图注意力网络(GAT)聚焦对文本分类贡献大的特征信息;最后,利用LS改进损失函数以提高模型的分类精度。所提模型与当前主流的文本分类算法在农网台区电力工单数据集(RSPWO)、浙江省95598电力工单数据集(ZJPWO)和THUCNews(TsingHua University Chinese News)数据集上的实验结果表明,与电力审计文本多粒度预训练语言模型(EPAT-BERT)相比,所提模型在RSPWO、ZJPWO上的查准率和F1值分别提升了2.76、2.02个百分点和1.77、1.40个百分点;与胶囊神经网络模型BRsyn-caps(capsule network based on BERT and dependency syntax)相比,所提模型在THUCNews数据集上的查准率和准确率分别提升了0.76和0.71个百分点。可见,所提模型有效提升了台区电力工单分类的性能,并在THUCNews数据集上表现良好,验证了模型的通用性。展开更多
文摘本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越.
文摘Self-Training算法的性能很大程度上取决于高置信度样本的识别准确度。受DPC算法启发,利用密度峰值定义样本间的原型关系,并构造出近亲结点图这一新型数据结构。在此基础上,提出了一种近亲结点图编辑的Self Training算法(self-training algorithm with editing direct relative node graph-DRNG)。DRNG采用假设检验的方法选择高置信度样本,将其加入有标签样本集进行迭代训练。因误分的高密度样本点对Self-Training算法的分类性能影响较大,所以,DRNG综合考虑距离和密度两个方面定义了近亲结点图中割边的非对称权重,增大了高密度点的割边权重,使其落在拒绝域外的概率增加,减小了因其误分类而产生的风险。为了验证DRNG的性能,在8个基准数据集上与类似算法进行对比实验,实验结果验证了DRNG的有效性。
文摘地震灾害观测数据多源异构、蕴含知识分散且关联程度低,导致难以高效利用数据进行信息整合和查询,进而提供风险评估、救援决策辅助支持。知识图谱是一种有效的数据关联和融合的手段。首先,基于自顶向下方法梳理地震灾害领域概念,构建地震灾害数据、地质/地理环境、地震灾害事件、地震灾害应急任务、地震灾害模型本体,形成地震灾害本体层;结合自底向上方法构建高质量数据层,通过卷积神经网络对遥感影像进行灾害前后变化识别,实现从影像信息到文本知识的智能结构化转换;融合微调后通用信息抽取框架(universal information extraction,简称UIE)预训练模型对文本数据进行命名实体及关系属性知识抽取,精确率分别为82.04%和70.66%。通过计算词向量语义相似度实现数据融合与统一表达。以2023年12月18日甘肃省临夏州积石山县地震为例,通过本体构建、数据抽取、统一表达形成高质量地震灾害知识图谱,实现地震灾害多源异构地震数据到统一知识表达的转化。基于所构建的地震灾害知识图谱实现了灾害损失、应急链决策支持的查询展示,及结合相关地质数据推理和查询潜在次生灾害。该方法结合深度学习与预训练技术,融合多模态数据,构建了地震灾害知识图谱构建,为快速准确的地震灾害信息查询与次生灾害发生提供辅助支撑。
文摘台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工单分类模型(MiniRBT-LSTM-GAT)。首先,利用预训练模型计算电力工单文本中的字符级特征向量表示;其次,采用双向长短期记忆网络(BiLSTM)捕捉电力文本序列中的依赖关系;再次,通过图注意力网络(GAT)聚焦对文本分类贡献大的特征信息;最后,利用LS改进损失函数以提高模型的分类精度。所提模型与当前主流的文本分类算法在农网台区电力工单数据集(RSPWO)、浙江省95598电力工单数据集(ZJPWO)和THUCNews(TsingHua University Chinese News)数据集上的实验结果表明,与电力审计文本多粒度预训练语言模型(EPAT-BERT)相比,所提模型在RSPWO、ZJPWO上的查准率和F1值分别提升了2.76、2.02个百分点和1.77、1.40个百分点;与胶囊神经网络模型BRsyn-caps(capsule network based on BERT and dependency syntax)相比,所提模型在THUCNews数据集上的查准率和准确率分别提升了0.76和0.71个百分点。可见,所提模型有效提升了台区电力工单分类的性能,并在THUCNews数据集上表现良好,验证了模型的通用性。