-
题名面向代码注释生成任务的注释质量评价研究
被引量:1
- 1
-
-
作者
赵衔麟
潘兴禄
邹艳珍
刘陈晓
谢冰
-
机构
高可信软件技术教育部重点实验室(北京大学)
北京大学计算机学院
-
出处
《软件学报》
北大核心
2025年第8期3744-3768,共25页
-
基金
科技创新2030—“新一代人工智能”重大项目(2021ZD0110303)。
-
文摘
代码注释生成是软件工程领域的重要研究任务.当前主流的注释生成方法训练深度学习模型以生成注释,依靠在开放的代码注释数据集上采用BLEU等指标来进行注释质量评价,主要反映生成注释与数据集中人工参考注释的相似性.但由于开放注释数据集中人工参考注释的质量难以保障,其有效性受到越来越多质疑.因此,面向代码注释生成任务,亟需一种直观有效的代码注释质量评价方法,一方面改进开放注释数据集的质量,另一方面提升生成注释的评价效果.针对该问题,对现有量化的注释质量评价方法进行调研和分析,并将一套多维度注释质量评价指标用于对主流开放数据集、典型注释生成方法以及ChatGPT生成代码注释的质量评价,由此给出一些具有参考价值的研究发现:1)现有主流开放数据集中的代码注释质量俱有待提高,均存在不同程度的不准确、可读性差、过于简短、缺乏有用信息等问题;2)现有方法生成的注释普遍在词汇和语义上与代码更接近,缺乏代码高层意图等对开发者更有用的信息;3)生成注释的BLEU值较低,一个重要原因是数据集中大量的参考注释本身质量不佳,譬如与代码缺乏关联、自然性较差等,应过滤或改进此种参考注释;4)大语言模型ChatGPT生成的代码注释内容丰富但较为冗长,其质量评价需要根据开发者意图与具体场景进行针对性改进.基于这些发现,也对未来代码注释生成任务及注释质量评价研究给出若干建议.
-
关键词
代码注释
注释质量
注释评价
注释数据集
注释生成
-
Keywords
code comment
comment quality
comment evaluation
comment dataset
comment generation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名融合交叉注意力的突发事件多模态中文反讽识别模型
被引量:4
- 2
-
-
作者
胡文彬
陈龙
黄贤波
陈晨
仲兆满
-
机构
江苏海洋大学计算机工程学院
江苏省海洋资源开发研究院
-
出处
《智能系统学报》
CSCD
北大核心
2024年第2期392-400,共9页
-
基金
国家自然科学基金项目(72174079)
江苏省“青蓝工程”优秀教学团队(2022-29)。
-
文摘
网民在社交媒体参与突发事件讨论时,时常会采用反讽修辞方式表达对事件的看法,此举导致情感分析的难度增加,且已有中文反讽识别对社交媒体中网民发布的多模态评论研究较少,有必要对图文多模态中文反讽识别进行深入研究。运用交叉注意力机制捕捉模态间的不一致性表达,提出融合交叉注意力的多模态中文反讽识别模型(fuse cross attention model,FCAM)。在模型中,首先运用TextCNN(text convolutional neural networks)和ResNet(deep residual network)分别提取中文文本浅层特征和图像特征,再运用交叉注意力机制分别得到文本层和图像层的注意力特征,按照残差方式分别实现文本浅层特征和文本层注意力特征的连接、图像特征和图像层注意力特征的连接,使用注意力机制融合2个特征表示,经过分类层得到反讽分类结果。基于某一地区新冠疫情期间相关话题的微博评论数据,构建出突发公共卫生事件多模态中文反讽数据集,在该数据集上试验验证,相较于基准模型,FCAM具有一定的优越性。
-
关键词
突发事件
社交媒体
多模态评论
中文反讽识别
中文反讽数据集
交叉注意力机制
注意力机制
情感分析
-
Keywords
emergency
social media
multimodal comment
Chinese sarcasm detection
Chinese sarcasm dataset
crossattention mechanism
attention mechanism
sentiment analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名社交网站中用户评论行为预测
被引量:3
- 3
-
-
作者
孔庆超
毛文吉
张育浩
-
机构
中国科学院自动化研究所复杂系统管理与控制国家重点实验室
-
出处
《智能系统学报》
CSCD
北大核心
2015年第3期349-353,共5页
-
基金
国家自然科学基金资助项目(61175040
U1435221)
-
文摘
社交网站为用户相互交流、发表意见和观点提供了非常便利的平台。对社交网站的用户行为进行建模和预测对于安全、商业等多个领域具有十分重要的社会意义和应用价值,近年来逐渐得到研究者的重视。面向社交网站中用户评论行为,预测用户是否会参与讨论。采用基于特征的机器学习方法,其中特征包括讨论帖子及其内容、用户行为特征和社交关系,并引入参数控制数据集的不平衡性。实验采用来自豆瓣小组的真实数据。实验结果表明,新提出的用户行为和社交关系特征以及对不平衡数据集的处理方法能够有效提高用户评论行为的预测效果,进一步说明用户的历史行为和所在的社交关系网络对当前的评论行为有较大影响。
-
关键词
社交网络
用户评论
机器学习
行为建模
行为预测
不平衡性数据集
-
Keywords
social network
user comments
machine learning
behavior modeling
behavior prediction
imbalance dataset
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP393.092
[自动化与计算机技术—计算机应用技术]
-