方面情感三元组抽取(aspect sentiment triplet extraction,ASTE)是方面级情感分析(aspect based sentiment analysis,ABSA)中具有挑战性的子任务之一,旨在从文本中抽取方面术语、观点术语和情感极性三元组.近期基于生成式的抽取方法取...方面情感三元组抽取(aspect sentiment triplet extraction,ASTE)是方面级情感分析(aspect based sentiment analysis,ABSA)中具有挑战性的子任务之一,旨在从文本中抽取方面术语、观点术语和情感极性三元组.近期基于生成式的抽取方法取得了出色的表现,这些方法通过顺序串联目标三元组来实现自回归式三元组生成.然而,这种串联方法可能导致无序三元组之间存在顺序依赖,从而在解码过程中引入错误累积.为解决这个问题,提出了基于术语提示双路文本生成(term-prompted and dual-path text generation,TePDuP)的方法.该方法首先利用机器阅读理解(machine reading comprehension,MRC)实现方面术语和观点术语的并行化抽取,然后将它们作为提示前缀来引导条件式三元组的生成,形成双路文本生成框架.同时,在训练阶段引入计划采样的方法来修正MRC抽取错误所带来的偏差.为进一步提高性能,引入生成概率将方面术语和观点术语引导的结果合并,以增强模型的鲁棒性.基于ASTE-DATA-V2数据集的实验结果表明,提出的方法是有效的且明显优于其他基线模型,并给出具体案例分析,证明该方法一定程度上解决了前述问题.展开更多
通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取...通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取完整的文本内容。针对跨图文本阅读任务,提出了基于文本行匹配的跨图文本阅读方法。首先采用文本检测网络来裁剪文本行,然后设计了基于多头自注意力机制的文本行匹配网络来预测文本行的匹配关系,最后提出了基于编辑的文本阅读网络,以去除重叠文本并读取文本内容。为了训练和评估跨图文本阅读方法,构造了跨图中文文本阅读数据集(Cross-image Chinese Text Reading Dataset, CCTR)。在CCTR数据集上进行实验,结果表明,相比像素级拼接和识别方法,所提方法能够得到更高的阅读性能,验证了其优越性。展开更多
文摘方面情感三元组抽取(aspect sentiment triplet extraction,ASTE)是方面级情感分析(aspect based sentiment analysis,ABSA)中具有挑战性的子任务之一,旨在从文本中抽取方面术语、观点术语和情感极性三元组.近期基于生成式的抽取方法取得了出色的表现,这些方法通过顺序串联目标三元组来实现自回归式三元组生成.然而,这种串联方法可能导致无序三元组之间存在顺序依赖,从而在解码过程中引入错误累积.为解决这个问题,提出了基于术语提示双路文本生成(term-prompted and dual-path text generation,TePDuP)的方法.该方法首先利用机器阅读理解(machine reading comprehension,MRC)实现方面术语和观点术语的并行化抽取,然后将它们作为提示前缀来引导条件式三元组的生成,形成双路文本生成框架.同时,在训练阶段引入计划采样的方法来修正MRC抽取错误所带来的偏差.为进一步提高性能,引入生成概率将方面术语和观点术语引导的结果合并,以增强模型的鲁棒性.基于ASTE-DATA-V2数据集的实验结果表明,提出的方法是有效的且明显优于其他基线模型,并给出具体案例分析,证明该方法一定程度上解决了前述问题.
文摘通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取完整的文本内容。针对跨图文本阅读任务,提出了基于文本行匹配的跨图文本阅读方法。首先采用文本检测网络来裁剪文本行,然后设计了基于多头自注意力机制的文本行匹配网络来预测文本行的匹配关系,最后提出了基于编辑的文本阅读网络,以去除重叠文本并读取文本内容。为了训练和评估跨图文本阅读方法,构造了跨图中文文本阅读数据集(Cross-image Chinese Text Reading Dataset, CCTR)。在CCTR数据集上进行实验,结果表明,相比像素级拼接和识别方法,所提方法能够得到更高的阅读性能,验证了其优越性。