期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
采用长短期记忆网络的深度学习方法进行网页正文提取 被引量:5
1
作者 陈前华 胡嘉杰 +1 位作者 江吉 吴豪 《计算机应用》 CSCD 北大核心 2021年第S01期20-24,共5页
针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE)。首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对... 针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE)。首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对象模型(DOM)树来根据DOM树结构划分每一个具有文本信息的文本块;然后,通过预训练模型对每一个内容块的从属关系进行表征;最后,这些标签会被输入到用这种格式的数据预先训练好的长短期记忆(LSTM)网络模型进行主要内容正文判别。实验结果证明,模型能够有效拟合已标记的数据集,在训练集中的F1分数能稳定在0.96以上;对于不存在于训练集中的网页格式,对其正文的预测准确度也比两个传统正文抽取工具Readability和Newspaper3k的分别高47.54、19.02个百分点。由实验结果可知,LTE能够有效提取出网页中的正文内容。 展开更多
关键词 文档对象模型 长短期记忆网络 预训练 深度学习 正文提取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部