期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于RNN的中文二分结构句法分析 被引量:17
1
作者 谷波 王瑞波 +1 位作者 李济洪 李国臣 《中文信息学报》 CSCD 北大核心 2019年第1期35-45,共11页
为了构建一个简单易扩展的中文句法分析器,我们依据朱德熙和陆俭明先生的中文二分结构的层次分析句法理论,手工构建了一个3万句的二分结构的中文句法树库,并使用哈夫曼编码方式来简化表示完全二叉树的层次结构。该文将中文句法分析转换... 为了构建一个简单易扩展的中文句法分析器,我们依据朱德熙和陆俭明先生的中文二分结构的层次分析句法理论,手工构建了一个3万句的二分结构的中文句法树库,并使用哈夫曼编码方式来简化表示完全二叉树的层次结构。该文将中文句法分析转换为迭代二分的序列标注问题,并根据该任务的特点,提出了在词的间隔上进行标记的序列标注模型(RNN-Interval,RNN-INT),与常用的循环神经网络模型(RNN,LSTM)和条件随机场模型(CRF)进行对比实验,使用mx2交叉验证序贯t-检验来比较模型。实验结果表明,RNN-INT模型在窗口为1的词特征就可达到最好的性能,并好于其他窗口大小和其他序列标注模型(RNN,LSTM,CRF)。最后,在测试集上,在人工分词下,RNN-INT在短语级别的F1值(块F1)达到71.25%,在句子级别的准确率达到约43%。 展开更多
关键词 层次句法分析 循环神经网络(RNN) 2CV序贯t-检验
在线阅读 下载PDF
基于最大信息系数的软件缺陷预测模型 被引量:4
2
作者 崔军 刘亚娜 +2 位作者 郭新峰 王瑞波 李济洪 《应用概率统计》 CSCD 北大核心 2019年第1期86-108,共23页
在软件缺陷预测的回归建模中,由静态代码提取的类层面度量元(特征)以及由方法聚合(sum、avg、max、min)到类的特征往往较多,使用传统的特征选择方法(如AIC、BIC)通常先要确定了模型,不同的模型选出的特征集差异较大,且模型的可解释性差... 在软件缺陷预测的回归建模中,由静态代码提取的类层面度量元(特征)以及由方法聚合(sum、avg、max、min)到类的特征往往较多,使用传统的特征选择方法(如AIC、BIC)通常先要确定了模型,不同的模型选出的特征集差异较大,且模型的可解释性差.最大信息系数MIC (maximal information coefficient)是Reshef等^([4])提出的度量两个连续变量之间相互依赖程度的一个指标,且有基于观测数据的计算办法.本文基于软件缺陷个数与各特征的MIC度量先选择特征,再对所选特征进行了适当的幂次变换,最后使用主成分泊松和负二项回归建模.本文实验基于NASA的KC1的类层面数据集,采用了m×2交叉验证的序贯t-检验来对两模型的性能差异的显著性进行检验,模型性能评价指标采用FPA、AAE、ARE.实验结果表明:1)基于MIC选出的特征主要是sum、avg、max三种聚合模式特征,与AIC、BIC方法有明显的差异;2)对特征做适当的幂次变换在多数模型下可以改善其性能;3)对特征做幂次变换后,做主成分分析与因子分析可以得到两个明显的因子,其一个因子正好对应avg与max聚合模式的特征集,另一个因子正好对应sum的聚合模式特征集,使得模型具有较好的可解释性.综合实验的各项指标可以得出,sum、avg、max三种聚合模式对软件缺陷预测有显著作用,且基于MIC所选特征而构造的模型是有优势的. 展开更多
关键词 mIC度量 软件缺陷预测 泊松回归模型 负二项回归模型 2交叉验证序贯t-检验
在线阅读 下载PDF
基于GAN数据增强的软件缺陷预测聚合模型 被引量:8
3
作者 徐金鹏 郭新峰 +1 位作者 王瑞波 李济洪 《计算机科学》 CSCD 北大核心 2023年第12期24-31,共8页
在软件缺陷预测任务中,通常基于C&K等静态软件特征数据集,使用机器学习分类算法来构建软件缺陷预测(SDP)模型。然而,大多数静态软件特征数据集中缺陷数较少,数据集的类不平衡问题较为严重,导致学习到的SDP模型的预测性能较差。文中... 在软件缺陷预测任务中,通常基于C&K等静态软件特征数据集,使用机器学习分类算法来构建软件缺陷预测(SDP)模型。然而,大多数静态软件特征数据集中缺陷数较少,数据集的类不平衡问题较为严重,导致学习到的SDP模型的预测性能较差。文中基于生成对抗网络(GAN),并利用FID得分筛选生成正例样本数据,增强正例样本量,然后在组块正则化m×2交叉验证(m×2BCV)框架下,通过众数投票法聚合多个子模型的结果,最终构成SDP模型。以PROMISE数据库下的20个数据集为实验数据集,采用随机森林算法构建SDP聚合模型。实验结果表明,与传统的随机上采样、SMOTE、随机下采样相比,所提SDP聚合模型的F1平均值分别提高了10.2%,5.7%,3.4%,且F1的稳定性也得到相应提高;所提SDP聚合模型在20个数据集的评测中,有17个F1值最高。从AUC指标来看,所提方法与传统的采样方法没有明显差异。 展开更多
关键词 生成对抗网络 数据增强 组块正则化交叉验证 软件缺陷预测 聚合模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部