基于集合效用边际贡献学习的可解释薪酬预测算法

Interpretable Salary Prediction Algorithm Based on Set Utility Marginal Contribution Learning

在线阅读下载PDF

导出

摘要知识技能对薪酬影响作用视为一种多变量影响下高维元素集合的效用建模问题.深度神经网络为解决复杂问题提供了新的机遇,但针对知识导向的细粒度薪酬预测问题,仍缺乏能够对复杂变量影响下的集合效用进行准确、可解释建模的神经网络结构.为此,提出一种基于边际贡献的增量式集合效用网络(marginal contribution-based incremental set utility network,MCISUN)来拟合元素加入时的效用增量,从而灵活且可解释地建模集合效用.区别于以往基于池化层的排列不变性建模算法,MCISUN构建顺序敏感的中间结果,利用集合的排列不变性实现数据增强,有效提升模型数据效率及泛化性.最后,大规模真实薪酬数据上的实验结果表明所提模型在基于技能的薪酬预测任务上比最先进的(state-of-the-art,SOTA)模型效果提升超过30%.同时,定性实验证明模型能够为技能设置合理的贡献值且发现技能间的关联. Accurately quantifying the relationship between skills and salary is essential to improve reasonable job salary setting and promote talent attraction and retention.However,the relationship between skills and salary is complex because it involves modeling set utility in a high-dimensional space with massive possible elements.Deep neural networks offer a new solution for complex fitting problems.However,for skill-based fine-grained salary prediction,there still lacks interpretable neural networks that can effectively model set utility under the influence of complex variables.To address this issue,we propose a marginal contribution-based incremental set utility network(MCISUN).MCISUN models the marginal contribution of elements when they are added to the set.In this way,the set utility can be naturally obtained in a flexible and interpretable way.In particular,rather than relying on pooling structures to ensure permutation invariance,MCISUN constructs order-sensitive intermediate results through recurrent attention neural networks and takes advantage of the sets’permutation invariance property to achieve data augmentation,thus improving the model’s robustness.We conduct extensive experiments on a real-world large-scale salary dataset.The experimental results show that MCISUN outperforms state-of-the-art models by 30%for skillbased salary prediction.Qualitative experiments show that our model can recognize reasonable skill contribution values and capture the relationship between skills.

作者孙莹章玉婷庄福振祝恒书何清熊辉 Sun Ying;Zhang Yuting;Zhuang Fuzhen;Zhu Hengshu;He Qing;Xiong Hui(Thrust of Artificial Intelligence,The Hong Kong University of Science and Technology(Guangzhou),Guangzhou 511458;Special Technology Research Center,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190;Institute of Artificial Intelligence,Beihang University,Beijing 100191;Career Science Lab,BOSS Zhipin,Beijing 100028;CAS Key Laboratory of Intelligent Information Processing(Institute of Computing Technology,Chinese Academy of Sciences),Beijing 100190;University of Chinese Academy of Sciences,Beijing 101408)

机构地区香港科技大学(广州)人工智能学域中国科学院计算技术研究所专项技术研究中心北京航空航天大学人工智能研究院 BOSS直聘职业科学实验室中国科学院智能信息处理重点实验室(中国科学院计算技术研究所) 中国科学院大学

出处《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1276-1289,共14页 Journal of Computer Research and Development

基金国家自然科学基金项目(62176014,61836013) 广州市科技计划市校联合资助项目(2023A03J0141) 中央高校基本科研业务费专项资金。

关键词集合效用建模边际贡献薪酬预测神经网络可解释性 set utility modeling marginal contribution salary prediction neural network interpretability

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介孙莹,1994年生.博士,助理教授,博士生导师.CCF会员.主要研究方向为机器学习、数据挖掘.(yings@hkust-gz.edu.cn);章玉婷,1998年生.硕士研究生.主要研究方向为机器学习、数据挖掘;庄福振,1983年生.博士,教授,博士生导师.CCF高级会员.主要研究方向为机器学习、数据挖掘;祝恒书,1986年生.博士,高级工程师(正研级).CCF高级会员.主要研究方向为机器学习、数据挖掘;何清,1965年生.博士,研究员,博士生导师.CCF高级会员.主要研究方向为机器学习、数据挖掘;熊辉,1972年生.博士,教授,博士生导师.CCF高级会员.主要研究方向为数据与知识工程.

引文网络
相关文献

参考文献2

1潘博,张青川,于重重,曹帅.Doc2vec在薪水预测中的应用研究[J].计算机应用研究,2018,35(1):155-157. 被引量：7
2马新宇,范意兴,郭嘉丰,张儒清,苏立新,程学旗.关于短文本匹配的泛化性和迁移性的研究分析[J].计算机研究与发展,2022,59(1):118-126. 被引量：6

二级参考文献3

1余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：45
2黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：230
3曹建平,王晖,夏友清,乔凤才,张鑫.基于LDA的双通道在线主题演化模型[J].自动化学报,2014,40(12):2877-2886. 被引量：16

共引文献11

1彭义春,张捷,覃左仕.基于随机森林算法的职位薪资预测[J].智能计算机与应用,2021,11(10):67-72. 被引量：4
2任高山,韩友德.基于评论文本的情感分析研究[J].中小企业管理与科技,2018,2(14):62-63.
3权甜甜,王虎.基于搜索数据的用户基本属性混合预测模型研究[J].现代商贸工业,2018,39(16):202-206.
4郝苗,陈临强.PMI与Hownet结合的中文微博情感分析[J].电子科技,2021,34(7):50-55. 被引量：3
5陈果,叶潮.融合半监督学习与主动学习的细分领域新闻分类研究[J].数据分析与知识发现,2022,6(4):28-38. 被引量：4
6丁露雨,吕阳,李奇峰,王朝元,余礼根,宗伟勋.融合多环境参数的鸡粪氨气排放预测模型研究[J].农业机械学报,2022,53(5):366-375. 被引量：6
7林心慧,陈超.基于Stacking的个人薪资预测研究[J].现代计算机,2023,29(10):25-29.
8贾钰峰,李容,章蓬伟,邵小青.基于字向量的短文本情感分类研究[J].微处理机,2023,44(6):40-45. 被引量：1
9李思恒,金蓓弘,张扶桑,王志,马俊麒,苏畅,任晓勇,刘海琴.基于多任务注意力网络的非接触式睡眠监测[J].计算机研究与发展,2024,61(11):3739-3753. 被引量：1
10殷秀秀,檀健,朱金秋,张诗韵.融合维度构建和数据增强的评教文本匹配算法[J].中北大学学报(自然科学版),2025,46(1):10-18.

1张志强.素养导向的文言文测评初探[J].教育研究与评论（中学教育教学）,2024(3):28-31.
2刘议丹,朱小飞,尹雅博.基于异质图卷积神经网络的论点对抽取模型[J].浙江大学学报（工学版）,2024,58(5):900-907. 被引量：1
3邵华.移动机器人数学模型构建方法研究[J].中国设备工程,2024(8):258-260.
4徐敏慧,王琦,李春.滹沱河天鹅湖湿地景观生态保护与恢复设计[J].Design（汉斯）,2024,9(1):572-582.
5金隆,刘存镇.利用白凉粉改进初中物理实验系列——以浙教版《科学》为例[J].复印报刊资料（中学物理教与学）,2022(10):44-46.
6王武,谭彬.拟连续定向空间的性质[J].模糊系统与数学,2023,37(6):100-104.
7黄远,戴晓红,黄伟建,于钧豪,黄峥.基于A-BiLSTM和CNN的文本分类[J].计算机工程与设计,2024,45(5):1428-1434. 被引量：3
8Jing Li,Xinyan Liu,Hong Wang,Yanjuan Sun,Fan Dong.Prediction and interpretation of photocatalytic NO removal on g-C_(3)N_(4)-based catalysts using machine learning[J].Chinese Chemical Letters,2024,35(2):477-483.
9席建普,周卓林,罗来华,张通通,聂子凯.自由曲面轮廓仪机架多目标优化设计[J].制造技术与机床,2024(5):122-127. 被引量：2
10邹观哲,黄可言.基于多级轴向加性网络的轻量级单图超分辨率[J].应用数学进展,2024,13(4):1842-1852.

计算机研究与发展

2024年第5期

浏览历史

内容加载中请稍等...

基于集合效用边际贡献学习的可解释薪酬预测算法

参考文献2

二级参考文献3

共引文献11

相关作者

相关机构

相关主题

浏览历史