期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
面向非任务型对话系统的人工标注中文数据集 被引量:7
1
作者 李菁 张海松 宋彦 《中文信息学报》 CSCD 北大核心 2019年第3期17-24,共8页
该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27 000个对话问题以及超过82 000个对话问题的回复①。为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性... 该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27 000个对话问题以及超过82 000个对话问题的回复①。为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性、连贯性、信息性、趣味性,以及是否潜在地具有让对话继续延续的特性进行标注,在标注中定义了一个五级评分方法,分别是:极差的、较差的、一般的、较好的、极好的。为了测试标注产生的数据集是否具有有效性和实用性,以对话回复选择为任务,在标注数据集上测试了多种无监督和有监督模型。实验结果表明,该数据集对于提升对话回复选择的质量有显著效果。 展开更多
关键词 对话系统 人工标注 中文数据集
在线阅读 下载PDF
多目标情感分类中文数据集构建及分析研究 被引量:3
2
作者 刘鹏远 田永胜 +1 位作者 杜成玉 邱立坤 《中文信息学报》 CSCD 北大核心 2021年第6期30-38,共9页
目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中... 目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身的缺陷限制了模型针对多个目标进行情感分类的提升空间。针对以上问题,该文构建了一个针对多目标情感分类的中文数据集,人工标注了6339个评价目标,共2071条数据。该数据集具备以下特点:①评价目标个数分布平衡;②情感正负极性分布平衡;③多目标情感倾向分布平衡。随后,该文利用多个目标情感分类的主流模型在该数据集上进行了实验与比较分析。结果表明,现有主流模型尚不能对存在多个目标且目标情感倾向性不一致实例中的目标进行很好的分类,尤其是目标的情感倾向为中性时。因此多目标情感分类任务具有一定的难度与挑战性。 展开更多
关键词 目标级情感分类 中文数据集 多目标
在线阅读 下载PDF
一种面向中文胸片报告生成的疾病标注器
3
作者 王梦伟 颜瑞馨 +2 位作者 侯泽毅 郎宁 周修庄 《小型微型计算机系统》 北大核心 2025年第6期1365-1372,共8页
在医学图像分析领域,中文胸片报告数据集的缺乏限制了中文胸片报告生成技术的发展.一方面,构建中文胸片报告数据集时,专家准确地标注疾病耗时长成本高.另一方面,单一的自然语言生成指标通常用于评价生成报告与真实报告之间的相似性,而... 在医学图像分析领域,中文胸片报告数据集的缺乏限制了中文胸片报告生成技术的发展.一方面,构建中文胸片报告数据集时,专家准确地标注疾病耗时长成本高.另一方面,单一的自然语言生成指标通常用于评价生成报告与真实报告之间的相似性,而评价生成报告的临床正确性和有效性依赖于一个准确的疾病标注器(分类器).针对专家标注疾病耗时长成本高及疾病标注器缺乏的问题,研究提出了一种面向中文胸片报告生成的疾病标注器.该标注器利用双BERT结构分别处理诊断报告和临床信息,并通过疾病与身体部位的隶属关系构建层级标签学习算法,以提升文本分类性能.利用该疾病标注器,构建了一个包含51262例胸片报告样本的中文胸片报告数据集.最后,在专家标注的中文胸片报告子集上进行了实验和分析,验证了该疾病标注器的有效性. 展开更多
关键词 多标签分类 层级标签 BERT 中文胸片报告数据 胸片报告生成
在线阅读 下载PDF
面向电力业务对话系统的意图识别数据集 被引量:16
4
作者 廖胜兰 殷实 +3 位作者 陈小平 张波 欧阳昱 张衡 《计算机应用》 CSCD 北大核心 2020年第9期2549-2554,共6页
针对供电营业厅客服机器人的智能对话系统,构建了一个较大规模的电力业务用户意图数据集。该数据集包括了9577条用户问询语句及其标注类别。首先对从供电营业厅采集到的真实语音数据进行清洗、处理和过滤。为了使数据能够驱动意图分类... 针对供电营业厅客服机器人的智能对话系统,构建了一个较大规模的电力业务用户意图数据集。该数据集包括了9577条用户问询语句及其标注类别。首先对从供电营业厅采集到的真实语音数据进行清洗、处理和过滤。为了使数据能够驱动意图分类相关的深度学习模型的研究,专业人员根据电力业务背景知识对数据进行高质量的标注和扩充。标注中根据电力业务定义了35种业务类别标签。为了测试该数据集的实用性和有效性,采用了多个意图分类经典模型进行实验,并将得到的意图分类模型嵌入到对话系统中。经典的文本分类模型循环卷积神经网络(Text-RCNN)在该数据集上可得到87.1%的准确率。实验结果表明该数据集可以有效驱动电力业务相关对话系统的研究,提升用户的满意度。 展开更多
关键词 意图识别 文本分类 中文数据集 对话系统 服务机器人 电力业务
在线阅读 下载PDF
面向中文APP用户评论数据的软件需求挖掘方法 被引量:7
5
作者 王莹 郑丽伟 +1 位作者 张禹尧 张晓妘 《计算机科学》 CSCD 北大核心 2020年第12期56-64,共9页
从APP用户反馈数据中挖掘用户需求是APP迭代更新和需求获取的一种重要方式,用户在APP应用市场中发表对APP不同维度的评价,其中蕴含着用户对APP软件的改善需求。但是,目前用户反馈数据存在数量大、质量良莠不齐的状况,如何从海量的用户... 从APP用户反馈数据中挖掘用户需求是APP迭代更新和需求获取的一种重要方式,用户在APP应用市场中发表对APP不同维度的评价,其中蕴含着用户对APP软件的改善需求。但是,目前用户反馈数据存在数量大、质量良莠不齐的状况,如何从海量的用户评论数据中省时省力地挖掘出有价值的需求,具有重要的研究与现实意义。文中着眼于APP开发问题,选取360手机助手中的APP用户评论数据,旨在挖掘蕴含于用户评论数据中的软件需求。首先,从功能性需求与非功能性需求两个维度出发,将APP用户评论数据中蕴含的软件需求划分为功能待添加、功能待改进、性能、可用性、可靠性5个需求类别;其次,对用户评论进行数据采集、标注,构建APP评论需求挖掘数据集;最后,利用构建好的数据集进行模型训练与交叉验证,探究主流深度学习方法相较于统计机器学习模型在该任务上的表现。实验表明,采用的深度学习模型TextCNN,TextRNN和Transformer相比传统的统计机器学习模型在此任务上更具优势。 展开更多
关键词 APP用户评论 软件需求挖掘 机器学习 中文数据集
在线阅读 下载PDF
面向电力营业厅等服务型场所的情感分析数据集 被引量:3
6
作者 张波 李晨光 +5 位作者 张迪 吕斌 周开保 张靖 朱启明 陈小平 《计算机应用》 CSCD 北大核心 2022年第S01期37-42,共6页
针对当前电力营业厅等服务型场所缺乏领域特有的情感分析数据集这一问题,构建了一个可应用于电力营业厅等服务型场所的情感分析数据集。该数据集可对用户话语进行情感极性分类,并可对用户情感来源进行归因分类。数据集共包含2080条数据... 针对当前电力营业厅等服务型场所缺乏领域特有的情感分析数据集这一问题,构建了一个可应用于电力营业厅等服务型场所的情感分析数据集。该数据集可对用户话语进行情感极性分类,并可对用户情感来源进行归因分类。数据集共包含2080条数据,首先从电力系统营业厅客户的交互、反馈中收集原始语音、文本数据,然后对这些数据进行清洗、脱敏和增广,最后进行情感极性分类和情感指向分类两类文本分类任务的标签标注和校对。在得到的数据集上使用多种特征提取方法和分类器模型进行多次交叉验证实验,其中基于BERT作为编码器的神经网络分类器模型最高可在数据集两类任务上取得95.31%和92.07%的准确率,充分验证了所提出的情感分析数据集的有效性和实用性。实验结果表明该数据集可用于对话系统的实际应用及相关领域的情感分析中,帮助营业厅等服务类场所更有针对性地提升服务质量和用户体验。 展开更多
关键词 自然语言处理 情感分析 文本分类 中文数据集 对话系统 服务机器人
在线阅读 下载PDF
融合交叉注意力的突发事件多模态中文反讽识别模型 被引量:3
7
作者 胡文彬 陈龙 +2 位作者 黄贤波 陈晨 仲兆满 《智能系统学报》 CSCD 北大核心 2024年第2期392-400,共9页
网民在社交媒体参与突发事件讨论时,时常会采用反讽修辞方式表达对事件的看法,此举导致情感分析的难度增加,且已有中文反讽识别对社交媒体中网民发布的多模态评论研究较少,有必要对图文多模态中文反讽识别进行深入研究。运用交叉注意力... 网民在社交媒体参与突发事件讨论时,时常会采用反讽修辞方式表达对事件的看法,此举导致情感分析的难度增加,且已有中文反讽识别对社交媒体中网民发布的多模态评论研究较少,有必要对图文多模态中文反讽识别进行深入研究。运用交叉注意力机制捕捉模态间的不一致性表达,提出融合交叉注意力的多模态中文反讽识别模型(fuse cross attention model,FCAM)。在模型中,首先运用TextCNN(text convolutional neural networks)和ResNet(deep residual network)分别提取中文文本浅层特征和图像特征,再运用交叉注意力机制分别得到文本层和图像层的注意力特征,按照残差方式分别实现文本浅层特征和文本层注意力特征的连接、图像特征和图像层注意力特征的连接,使用注意力机制融合2个特征表示,经过分类层得到反讽分类结果。基于某一地区新冠疫情期间相关话题的微博评论数据,构建出突发公共卫生事件多模态中文反讽数据集,在该数据集上试验验证,相较于基准模型,FCAM具有一定的优越性。 展开更多
关键词 突发事件 社交媒体 多模态评论 中文反讽识别 中文反讽数据 交叉注意力机制 注意力机制 情感分析
在线阅读 下载PDF
基于多角度信息交互的文本语义匹配模型 被引量:2
8
作者 翁兆琦 张琳 《计算机工程》 CAS CSCD 北大核心 2021年第10期97-102,共6页
现有的文本语义匹配方法大多基于简单的注意力机制进行交互,较少考虑文本自身结构信息和文本之间原始信息的的交互。针对2个中文文本的语义匹配问题,构建一个多角度信息交互的文本匹配模型MAII。分别从颗粒、局部、全局3个角度计算2个... 现有的文本语义匹配方法大多基于简单的注意力机制进行交互,较少考虑文本自身结构信息和文本之间原始信息的的交互。针对2个中文文本的语义匹配问题,构建一个多角度信息交互的文本匹配模型MAII。分别从颗粒、局部、全局3个角度计算2个文本深层次的语义交互矩阵,同时考虑语序信息之间和结构信息之间的交互以及文本内部的依赖关系,从而得到含有丰富信息的语义向量,并通过语义推理计算出两文本之间的语义匹配度。实验结果表明,相比在英文数据集上表现良好的DSSM、ESIM和DIIN模型,MAII模型在CCKS 2018问句匹配大赛的中文数据集上达到77.77%的准确率,表现出更好的匹配性能。 展开更多
关键词 信息交互 语义匹配 注意力机制 深度神经网络 中文数据集
在线阅读 下载PDF
基于文本行匹配的跨图文本阅读方法
9
作者 戴禹 许林峰 《计算机科学》 CSCD 北大核心 2022年第9期139-145,共7页
通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取... 通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取完整的文本内容。针对跨图文本阅读任务,提出了基于文本行匹配的跨图文本阅读方法。首先采用文本检测网络来裁剪文本行,然后设计了基于多头自注意力机制的文本行匹配网络来预测文本行的匹配关系,最后提出了基于编辑的文本阅读网络,以去除重叠文本并读取文本内容。为了训练和评估跨图文本阅读方法,构造了跨图中文文本阅读数据集(Cross-image Chinese Text Reading Dataset, CCTR)。在CCTR数据集上进行实验,结果表明,相比像素级拼接和识别方法,所提方法能够得到更高的阅读性能,验证了其优越性。 展开更多
关键词 跨图文本阅读 跨图中文文本阅读数据 文本行匹配 基于编辑的文本阅读 注意力机制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部