接诉即办是实现社会治理智能化、提高人民满意度的重要举措,其中精准分析民众诉求智能匹配工单处理部门,实现诉求的快速响应、高效办理尤为关键;然而,民众诉求数据中的诉求描述不清晰、类别混淆且比例失衡会导致诉求类别分析困难,影响...接诉即办是实现社会治理智能化、提高人民满意度的重要举措,其中精准分析民众诉求智能匹配工单处理部门,实现诉求的快速响应、高效办理尤为关键;然而,民众诉求数据中的诉求描述不清晰、类别混淆且比例失衡会导致诉求类别分析困难,影响了智能派单的效率与准确性。针对上述问题,提出编解码器结构的诉求层次多标签分类模型(HMCHotline)。首先,在文本编码器中引入诉求领域中的细粒度关键词先验知识以抑制噪声干扰,并融合诉求的时空信息提高语义特征的判别力;其次,利用标签层次结构生成具有层次与语义感知的标签嵌入,并构建基于Transformer模型的标签解码器,利用诉求的语义特征和标签嵌入进行标签解码;同时,在标签的层级依赖关系基础上引入动态标签表策略限制标签的解码范围,以解决标签不一致问题;最后,采用Softmax分组策略将样本数量相近的标签类别分为同组进行Softmax操作,从而缓解由标签长尾分布导致的分类准确率低的问题。在Hotline、RCV1(Reuters Corpus VolumeⅠ)-v2和WOS(Web Of Science)数据集上的实验结果表明,相较于层次感知的标签语义匹配网络(HiMatch),所提模型的Micro-F1分别提高了1.65、2.06和0.43个百分点,验证了模型的有效性。展开更多
随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文...随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法。首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型。在金融文本数据集上验证了本文所提方法的有效性。展开更多
文摘接诉即办是实现社会治理智能化、提高人民满意度的重要举措,其中精准分析民众诉求智能匹配工单处理部门,实现诉求的快速响应、高效办理尤为关键;然而,民众诉求数据中的诉求描述不清晰、类别混淆且比例失衡会导致诉求类别分析困难,影响了智能派单的效率与准确性。针对上述问题,提出编解码器结构的诉求层次多标签分类模型(HMCHotline)。首先,在文本编码器中引入诉求领域中的细粒度关键词先验知识以抑制噪声干扰,并融合诉求的时空信息提高语义特征的判别力;其次,利用标签层次结构生成具有层次与语义感知的标签嵌入,并构建基于Transformer模型的标签解码器,利用诉求的语义特征和标签嵌入进行标签解码;同时,在标签的层级依赖关系基础上引入动态标签表策略限制标签的解码范围,以解决标签不一致问题;最后,采用Softmax分组策略将样本数量相近的标签类别分为同组进行Softmax操作,从而缓解由标签长尾分布导致的分类准确率低的问题。在Hotline、RCV1(Reuters Corpus VolumeⅠ)-v2和WOS(Web Of Science)数据集上的实验结果表明,相较于层次感知的标签语义匹配网络(HiMatch),所提模型的Micro-F1分别提高了1.65、2.06和0.43个百分点,验证了模型的有效性。
文摘随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法。首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型。在金融文本数据集上验证了本文所提方法的有效性。