基于Stacking集成学习的在线健康社区问答信息采纳识别研究被引量：7

Information Adoption Recognition in Online Question and Answer Health Communities Based on Stacking Ensemble Strategy

导出

摘要【目的/意义】提出基于Stacking集成学习的问答信息采纳行为识别策略,促进在线健康社区问答的精准化推送、助推数字化医疗服务高质量发展。【方法/过程】构建以集成学习方法和非集成学习方法为基学习器、以逻辑回归算法(LR)为元学习器的Stacking集成学习模型,比较单预测模型、同类预测模型组合、不同类预测模型组合的Stacking集成学习模型预测精度,选取“寻医问药”平台的慢性病问答构建数据集验证模型的优越性,并选取“快速问医生有问必答120”平台数据验证模型的可移植性。【结果/结论】Stacking集成模型相比于单预测模型能够更精准识别被采纳问答信息,模型具有较强的泛化性,可以适用于不同的在线健康社区。【创新/局限】本文基于Stacking集成思想构建两阶段预测模型,并借助机器学习构建最佳预测模型组合,显著提高在线健康社区问答信息采纳识别精度,但伴随问答信息积累,在线健康社区问答模式不断发展变化,考虑结合历史数据和每日更新数据的动态预测方法是未来研究工作重点。【Purpose/significance】In order to promote the accurate recommendation of online health community Q & A and boost the high-quality development of digital medical services, this paper proposes the information adoption forecasting model according to the stacking ensemble strategy which based on the massive online health community Q & A information.【Method/process】The stacking ensemble strategy chooses non-integrated learning method and integrated learning method as the first layer learners, while linear regression is used as the meta learner. We choose ’xywy.com’ to build the dataset and construct predict indicators, including text structure, online social communication record, professional authority. We compare the prediction accuracy between single prediction model and stacking ensemble strategy with different model combination. Then we select the data from ’120ask.com’ platform to verify the generalization of stacking ensemble strategy.【Result/conclusion】The results demonstrate that the stacking ensemble strategy has higher prediction accuracy and strong generalization than the single prediction model, which can be applied to different online health Q & A communities.【Innovation/limitation】Based on machine learning methods, the stacking ensemble strategy can significantly improve the prediction accuracy of information adoption for online health Q & A communities. At the same time, the communication patterns are changing in online health Q & A communities, and it is important to take the daily updated data into account to improve the predict accuracy by stacking ensemble strategy in the future research.

作者林萍吕健超 LIN Ping;LYU Jian-chao(School of Management,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;Center of Innovation and Emergency Management in Information Industry,Research Base of Philosophy and Social Sciences in Jiangsu,Nanjing 210003,China;Jiangsu Joint Postgraduate Training Base Construction by Nanjing University of Posts and Telecommunication and Socool—Tech Co.,Ltd,Nanjing 210000,China)

机构地区南京邮电大学管理学院江苏高校哲学社会科学重点研究基地——信息产业融合创新与应急管理研究中心南京索酷信息科技股份有限公司江苏省研究生工作站

出处《情报科学》 CSSCI 北大核心 2023年第2期135-142,共8页 Information Science

基金国家自然科学基金资助项目“层次网络结构DEA模型及其在医疗卫生系统绩效管理中的应用研究”(72171124) 江苏高校哲学社会科学研究重大项目“数字医疗时代在线健康社区问答信息采纳研究”(2022SJZD095) 江苏省学术学位研究生创新计划项目“老年人群健康信息采纳机制研究——基于社会认知与信息质量交互视角”(KYCX20_0837)。

关键词在线健康社区 Stacking集成策略机器学习信息采纳信息识别 online health community stacking ensemble strategy machine learning information adoption information recognition

分类号 R-058 [医药卫生]

作者简介林萍(1977-),女,福建惠安人,博士研究生,副教授,硕士生导师,主要从事数据挖掘、网络舆情研究;吕健超(1996-),男,江苏南京人,硕士研究生,主要从事网络数据挖掘研究。

引文网络
相关文献

参考文献16

1张敏,车雨霏,张艳.双渠道视角下在线健康社区用户诊疗信息求助行为的形成路径分析[J].情报科学,2019,37(2):25-32. 被引量：10
2唐旭丽,张斌,张岩.在线健康社区用户的信息采纳意愿研究——基于健康素养和信任的视角[J].信息资源管理学报,2018,8(3):102-112. 被引量：63
3陈致中,黄荟云,陈嘉瑜.健康传播信息对受众健康行为影响之实证研究——基于饮食行为倾向的实验[J].现代传播（中国传媒大学学报）,2016,38(7):52-57. 被引量：15
4莫秀婷,邓朝华.基于社交网站采纳健康信息行为特点及其影响因素的实证研究[J].现代情报,2014,34(12):29-37. 被引量：30
5李敏波,董伟伟.面向不平衡数据集的汽车零部件质量预测[J].中国机械工程,2022,33(1):88-96. 被引量：16
6郑红,叶成,金永红,程云辉.基于Stacking集成学习的流失用户预测方法[J].应用科学学报,2020,38(6):944-954. 被引量：11
7李瑶琦,周鑫,高卫益,柏志安,耿娜.基于Stacking集成学习的急诊患者到达预测[J].工业工程与管理,2019,24(6):180-187. 被引量：7
8丁岚,骆品亮.基于Stacking集成策略的P2P网贷违约风险预警研究[J].投资研究,2017,36(4):41-54. 被引量：31
9严炜炜,黄为,温馨.学术社交网络问答质量智能评价与服务优化研究[J].图书情报工作,2021,65(6):129-137. 被引量：10
10苗富,张朋柱.健康社区中回答可靠性的评估方法研究[J].上海管理科学,2019,41(2):116-121. 被引量：2

二级参考文献119

1李利群.健康传播运动中的健康风险信息理论研究[J].现代传播（中国传媒大学学报）,2005,27(3):117-118. 被引量：12
2秦美婷,汤书昆.健康信息的传播对改变个体行为之刍议[J].中国健康教育,2006,22(1):64-66. 被引量：7
3张亮,王树梅,黄河燕,张孝飞.面向中文问答系统的问句句法分析[J].山东大学学报（理学版）,2006,41(3):85-88. 被引量：5
4张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
5Agichtein E, Castillo C, Donato D, et al. Finding high-quality content in social media [C] // Proceedings of the International Conference on Web Search and Web Data Mining Palo Alto. Cal- ifornia, USA, 2008.
6Shah C, Pomerantz J. Evaluating and Predicting Answer Quality in Community QA [C] // SIGIR ' 10. Geneva, Switzerland, July 2010:19-23.
7Broder A, Kumar R, Maghoul F, et al. Graph structure in the Web[J]. Computer Networks, 2000: 33 (1-6) :309-320.
8Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine [J]. Computer Networks and ISDN Systems, 1998,30(1-7) :107-117.
9Kleinberg J M. Authoritative sources in a hyperlinked environ- ment[J]. Journal of the ACM, 1999,46(5) :604-632.
10Zhou Y,Croft W B. Document quality models for web ad hoe re- trieval[C]//Proceedings of the ACM Fourteenth Conference on Information and Knowledge Management. 2005:331-332.

共引文献254

1李鹏钦,张长胜,李英娜,李川.改进Stacking算法的光伏发电功率预测[J].应用科学学报,2022,40(2):288-301. 被引量：5
2陈静,吴蝶.认知参照视角下用户健康信息辨识行为机理研究——基于眼动实验的比较分析[J].知识管理论坛,2024(2):161-176.
3丁楠,曹玮倬,相甍甍.基于SBM-Malmquist的技术问答社区知识交流效率测度研究[J].知识管理论坛,2022(2):101-115. 被引量：1
4李希光,苏婧,文三妹.公众在重大疫情暴发初期的风险感知差异——新型冠状病毒肺炎健康信息采用的影响机制研究[J].全球传媒学刊,2020,7(1):130-151. 被引量：29
5齐托托,王天梅.内容带货对免费知识分享行为的溢出效应[J].管理科学,2024,37(1):1-14.
6谢国民,王嘉良.基于混合采样与IHBA-SVM的变压器故障辨识方法[J].电子测量与仪器学报,2022,36(12):77-85. 被引量：12
7胡雨濛.“防疫”标语的健康动员:话语策略、框架与权力结构[J].国际新闻界,2021,43(5):86-105. 被引量：17
8于海,王斌.北疆棉花纤维品质现状及改良技术[J].新疆农业科学,2000,37(1):42-43. 被引量：3
9贾佳,宋恩梅,苏环.社会化问答平台的答案质量评估——以“知乎”、“百度知道”为例[J].信息资源管理学报,2013,3(2):19-28. 被引量：80
10彭月娥,杨思春,李心磊,丁菲菲,向恒月.面向中文问答社区的问题去重技术研究[J].苏州科技学院学报（自然科学版）,2014,31(1):76-80.

同被引文献111

1楼润平,李贝,齐晓梅.中国互联网企业的成长路径、公司战略及管理策略研究[J].管理评论,2021(1):229-241. 被引量：15
2周金连,吴晔,韩仪,张伦.社会化媒体信息接触对个体健康行为的说服效果研究——以HPV疫苗采纳为例[J].新闻大学,2022(2):1-16. 被引量：11
3孟立慧.全面推进乡村振兴背景下中部地区防范规模性返贫对策研究[J].农村经济与科技,2023,34(20):217-220. 被引量：1
4马雯嘉,吴茂祯.从全面脱贫到乡村振兴:国家级贫困县政策对当地经济发展的影响[J].中国软科学,2023(S01):1-15. 被引量：6
5陈铁明,马继霞,Samuel H.Huang,蔡家楣.一种新的快速特征选择和数据分类方法[J].计算机研究与发展,2012,49(4):735-745. 被引量：20
6宗乾进,袁勤俭,沈洪洲.基于VOSviewer的2010年中国图书馆学研究热点分析[J].图书馆,2012(4):88-90. 被引量：36
7吕峻.基于不同指标类型的公司财务危机征兆和预测比较研究[J].山西财经大学学报,2014,36(1):103-113. 被引量：20
8金碧漪,许鑫.社会化问答社区中糖尿病健康信息的需求分析[J].中华医学图书情报杂志,2014,23(12):37-42. 被引量：36
9施亦龙,许鑫.中美在线问答社区中的自闭症信息分析[J].中华医学图书情报杂志,2015,24(4):5-8. 被引量：7
10俞锋,池仁勇.中国企业跨国并购法律风险评价及“浙江模式”总结[J].技术经济,2015,34(5):86-93. 被引量：4

引证文献7

1江乾坤,王成哲.互联网企业海外并购财务风险大数据预警研究——基于Stacking集成学习[J].技术经济,2023,42(9):147-160. 被引量：16
2邓伟伟,余天炜,陈寒,奉国和.基于多模态数据挖掘的网络医生答复采纳预测研究[J].医学信息学杂志,2024,45(2):44-51.
3杨平,肖遗规.基于文本挖掘的在线健康社区用药咨询研究[J].文献与数据学报,2024,6(1):80-91.
4尤剑,余先明,孟猛,曾子明.全球健康信息采纳行为研究热点与前沿分析[J].现代情报,2024,44(6):168-176. 被引量：2
5刘红达,孙小华,王斌,王超,王福顺.基于Stacking集成学习的脱贫人口返贫风险预测方法研究[J].河北农业大学学报,2024,47(6):75-82.
6邹筱,刘垣春,周欢,袁义.基于证据理论的在线健康社区医生回答群决策方法研究[J].湖南工业大学学报,2025,39(3):73-81.
7杨雅娴,吴金红,吴彦坤,任晓露,张星.融合知识图谱和大语言模型的虚假健康信息识别方法研究[J].情报理论与实践,2025,48(3):127-133. 被引量：2

二级引证文献20

1何昀,张川,张继夫,陈伟.基于随机森林的多源小样本数据快速集成方法[J].信息与电脑,2024,36(1):52-54. 被引量：2
2郭冰倩,夏佐铎,王莹莹.基于改进功效系数法的财务风险预警研究--以中粮生物科技股份有限公司为例[J].黑龙江粮食,2024(5):142-144.
3江乾坤,王成哲.东道国国家风险与跨国并购二元边际研究——以互联网企业为例[J].生产力研究,2024(7):137-143.
4林依溪,潘莎莎,张有捷.初中生肥胖防控资源评估的质性研究[J].中国全科医学,2024,27(33):4176-4181.
5朱晓伟.互联网背景下企业财务内部控制的完善对策分析[J].南北桥,2024(13):112-114.
6李林泰,崔巍.铁矿石价格波动的因果推断:影响因素与效应分析[J].技术经济,2024,43(8):36-45. 被引量：2
7陈丽.基于大数据技术的财务风险预警机制研究[J].中国科技投资,2024(29):58-60. 被引量：2
8储霞玲.数字经济下基于Stacking集成学习的财务舞弊识别模型构建[J].贵阳学院学报(自然科学版),2024,19(4):17-20.
9江乾坤,王成哲.ESG表现与企业跨国并购[J].天津商业大学学报,2025,45(2):43-49. 被引量：1
10李田雨,高煌婷,翟亚琪.基于非平衡大数据的公司破产评估模型研究[J].财经理论与实践,2025,46(2):43-50. 被引量：1

1黄颖杰.关于信息系统集成与数据集成的策略探讨[J].中文科技期刊数据库（引文版）工程技术,2022(3):155-157.
2任乐毅,周雅婷.科普类短视频受众信息采纳行为研究[J].青年记者,2023(4):50-53. 被引量：8
3孙丽,杨丽君,曹瑞君,刘起君.突发公共卫生事件下社交媒体用户健康信息采纳行为影响因素研究[J].医学与社会,2023,36(4):95-99. 被引量：5
4本刊编辑部.温馨提示[J].家庭医药（就医选药）,2023(2):61-61.
5李治会.谈小学语文阅读教学研究[J].中文科技期刊数据库(全文版)社会科学,2021(2):130-131.
6杨青飏.微博用户健康信息采纳意愿影响因素研究[J].医学与社会,2023,36(4):100-105. 被引量：5
7谷健,北京第二外国语学院英语学院.“全民阅读”视域下的丹麦阅读训练模式[J].教育家,2023(1):22-23.
8陈亚芸.小学语文阅读教学存在的问题及对策分析[J].世纪之星—高中版,2022(24):181-183.
9王泽,吉鎔瑜,李青.旅游城市节假日防疫信息传播--以北海和青岛为例[J].内蒙古科技与经济,2023(1):35-40.
10李瑜.新发展阶段药品监管工作面临的形势和任务分析[J].中文科技期刊数据库（全文版）医药卫生,2022(5):189-192.

情报科学

2023年第2期

浏览历史

内容加载中请稍等...

基于Stacking集成学习的在线健康社区问答信息采纳识别研究被引量：7

参考文献16

二级参考文献119

共引文献254

同被引文献111

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于Stacking集成学习的在线健康社区问答信息采纳识别研究 被引量：7

参考文献16

二级参考文献119

共引文献254

同被引文献111

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于Stacking集成学习的在线健康社区问答信息采纳识别研究被引量：7