随着社交网络平台的迅速发展,网络欺凌问题日益突出,文本与图片相结合的多样化网络表达形式提高了网络欺凌的检测和治理难度.构建了一个包含文本和图片的中文多模态网络欺凌数据集,将BERT(bidirectional encoder representations from t...随着社交网络平台的迅速发展,网络欺凌问题日益突出,文本与图片相结合的多样化网络表达形式提高了网络欺凌的检测和治理难度.构建了一个包含文本和图片的中文多模态网络欺凌数据集,将BERT(bidirectional encoder representations from transformers)模型与ResNet50模型相结合,分别提取文本和图片的单模态特征,并进行决策层融合,对融合后的特征进行检测,实现了对网络欺凌与非网络欺凌2个类别的文本和图片的准确识别.实验结果表明,提出的多模态网络欺凌检测模型能够有效识别出包含文本与图片的具有网络欺凌性质的社交网络帖子或者评论,提高了多模态形式网络欺凌检测的实用性、准确性和效率,为社交网络平台的网络欺凌检测和治理提供了一种新的思路和方法,有助于构建更加健康、文明的网络环境.展开更多
为了解决自然场景文本图像因为遮挡、扭曲等原因难以识别的问题,提出基于多模态特征融合的场景文本识别网络(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享权重内部自回归的排列语言模型实现多种解码策略;其次,MMSTR...为了解决自然场景文本图像因为遮挡、扭曲等原因难以识别的问题,提出基于多模态特征融合的场景文本识别网络(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享权重内部自回归的排列语言模型实现多种解码策略;其次,MMSTR在图像编码阶段提出残差注意力编码器(residual attention encoder,REA-encoder)提高了对浅层特征捕获能力,使得浅层特征能够传到更深的网络层,有效缓解了vision Transformer提取图像浅层特征不充分引起的特征坍塌问题;最后,针对解码过程中存在语义特征与视觉特征融合不充分的问题,MMSTR构建了决策融合模块(decision fusion module,DFM),利用级联多头注意力机制提高语义与视觉的融合程度。经过实验证明,MMSTR在ⅢT5K、ICDAR13等六个公共数据集上平均词准确率达到96.6%。此外,MMSTR在识别遮挡、扭曲等难以识别的文本图像方面相较于其他的主流算法具有显著优势。展开更多
文摘随着社交网络平台的迅速发展,网络欺凌问题日益突出,文本与图片相结合的多样化网络表达形式提高了网络欺凌的检测和治理难度.构建了一个包含文本和图片的中文多模态网络欺凌数据集,将BERT(bidirectional encoder representations from transformers)模型与ResNet50模型相结合,分别提取文本和图片的单模态特征,并进行决策层融合,对融合后的特征进行检测,实现了对网络欺凌与非网络欺凌2个类别的文本和图片的准确识别.实验结果表明,提出的多模态网络欺凌检测模型能够有效识别出包含文本与图片的具有网络欺凌性质的社交网络帖子或者评论,提高了多模态形式网络欺凌检测的实用性、准确性和效率,为社交网络平台的网络欺凌检测和治理提供了一种新的思路和方法,有助于构建更加健康、文明的网络环境.
文摘为了解决自然场景文本图像因为遮挡、扭曲等原因难以识别的问题,提出基于多模态特征融合的场景文本识别网络(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享权重内部自回归的排列语言模型实现多种解码策略;其次,MMSTR在图像编码阶段提出残差注意力编码器(residual attention encoder,REA-encoder)提高了对浅层特征捕获能力,使得浅层特征能够传到更深的网络层,有效缓解了vision Transformer提取图像浅层特征不充分引起的特征坍塌问题;最后,针对解码过程中存在语义特征与视觉特征融合不充分的问题,MMSTR构建了决策融合模块(decision fusion module,DFM),利用级联多头注意力机制提高语义与视觉的融合程度。经过实验证明,MMSTR在ⅢT5K、ICDAR13等六个公共数据集上平均词准确率达到96.6%。此外,MMSTR在识别遮挡、扭曲等难以识别的文本图像方面相较于其他的主流算法具有显著优势。