期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于大模型的新闻媒体网页信息提取方法
1
作者 刘建文 万子建 +2 位作者 陈婷 刘汪洋 沈宜 《情报杂志》 北大核心 2025年第6期177-184,共8页
[研究目的]针对现有基于非视觉特征的网页信息提取技术存在的采集精度不高、难以满足复杂需求等问题,研究高效智能的网页信息提取技术,实现新闻媒体网页信息的快速准确提取。[研究方法]提出了一种基于大模型的新闻媒体网页信息提取方法... [研究目的]针对现有基于非视觉特征的网页信息提取技术存在的采集精度不高、难以满足复杂需求等问题,研究高效智能的网页信息提取技术,实现新闻媒体网页信息的快速准确提取。[研究方法]提出了一种基于大模型的新闻媒体网页信息提取方法,通过模型基座对比选型、数据集构建、监督微调、提示词工程等技术手段构建网页信息提取专用大模型,提升新闻媒体网页信息提取的准确率和效率。[研究结果/结论]通过多类新闻网页数据智能提取方案实验对比分析发现,基于开源大模型基座及监督微调构建的专用新闻媒体大模型,其信息提取结果平均准确率及平均F1值皆超过90%,相比现有网页信息提取方案具有更高的适用性。 展开更多
关键词 大语言模型 新闻网页 文本信息提取 HTML智能解析 网页要素智能提取 多语种识别 思维链
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部