期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
使用特征文本密度的网页正文提取
被引量:
13
1
作者
王少康
董科军
阎保平
《计算机工程与应用》
CSCD
北大核心
2010年第20期1-3,29,共4页
针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间和空...
针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间和空间复杂度均较低。实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性。
展开更多
关键词
文本密度
文本
特征
信息抽取
网页
在线阅读
下载PDF
职称材料
阈值优化的文本密度聚类算法
被引量:
6
2
作者
马素琴
施化吉
《计算机工程与应用》
CSCD
北大核心
2011年第17期134-136,共3页
针对DBSCAN算法的聚类性能受全局阈值影响而降低的问题,提出一种阈值优化的文本密度聚类算法。该算法使用k-近邻距离对对象进行排序,通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。...
针对DBSCAN算法的聚类性能受全局阈值影响而降低的问题,提出一种阈值优化的文本密度聚类算法。该算法使用k-近邻距离对对象进行排序,通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果影响的问题,提高了聚类精确度和时间效率。采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。
展开更多
关键词
文本
挖掘
文本
聚类
一个基于高
密度
连接区域的
密度
聚类方法
一种阈值优化的
文本密度
聚类算法
分位数
在线阅读
下载PDF
职称材料
一种基于SVM及文本密度特征的网页信息提取方法
被引量:
14
3
作者
周艳平
李金鹏
宋群豹
《计算机应用与软件》
北大核心
2019年第10期251-255,261,共6页
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样...
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。
展开更多
关键词
SVM
正文抽取
DOM树
文本密度
特征
在线阅读
下载PDF
职称材料
文本视觉密度与界面色调对老年人数字健康教育的影响研究
被引量:
1
4
作者
彭程
易敏哲
+1 位作者
吴群
于航勇
《图学学报》
CSCD
北大核心
2024年第3期613-623,共11页
数字健康教育以丰富的内容和灵活的教育方式在提升百姓健康素养方面做出了巨大贡献,但由于老年群体认知能力和视觉水平的衰退,在接受数字教育时常面临信息难以识别、理解困难等问题。因此,以数字健康教育平台阅读界面为研究对象,分析了...
数字健康教育以丰富的内容和灵活的教育方式在提升百姓健康素养方面做出了巨大贡献,但由于老年群体认知能力和视觉水平的衰退,在接受数字教育时常面临信息难以识别、理解困难等问题。因此,以数字健康教育平台阅读界面为研究对象,分析了界面视觉设计对老年群体阅读效果和认知负荷的影响。研究中的自变量为文本视觉密度和界面色调,因变量为阅读绩效。2×2双因子实验结果表明:①低文本密度下的阅读理解效果优于标准密度;②冷色调的阅读理解效果优于暖色调;③文本视觉密度与界面色调在阅读时间上存在显著的交互作用。冷色调在标准密度下的阅读用时更少,而暖色调在低密度下的阅读用时更少。研究从健康教育内容传播的视角进行界面设计分析,丰富了老年数字阅读体验数据,探讨了文本视觉密度和色调在界面中的效果与交叉关系,为提升老年人数字教育效能提供了具体设计建议。
展开更多
关键词
数字健康教育
老年人学习
界面视觉设计
文本
视觉
密度
界面色调
在线阅读
下载PDF
职称材料
基于文本块密度和标签路径覆盖率的网页正文抽取
被引量:
5
5
作者
刘鹏程
胡骏
吴共庆
《计算机应用研究》
CSCD
北大核心
2018年第6期1645-1650,共6页
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征...
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。
展开更多
关键词
正文抽取
文本
块
密度
标签路径覆盖率
特征融合
在线阅读
下载PDF
职称材料
基于文本集密度的特征选择与权重计算方案
被引量:
8
6
作者
吴科
石冰
+1 位作者
卢军
牛小飞
《中文信息学报》
CSCD
北大核心
2004年第1期42-47,共6页
在信息检索的向量空间模型中 ,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中 ,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方...
在信息检索的向量空间模型中 ,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中 ,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献衡量该词的价值的方法。使用这种方法 ,我们能找出不损失文本有效信息的最小特征词语集 ,并且创造出更为合理权重计算方案。在文中还用了一种新的衡量权重好坏的标准———元打分法 。
展开更多
关键词
计算机应用
中文信息处理
信息检索
文本
集
密度
权重计算方案
元打分法
在线阅读
下载PDF
职称材料
基于文本集密度的社交媒体软件内容推荐系统设计研究
被引量:
4
7
作者
汪涛
夏彬
《现代电子技术》
2021年第12期73-77,共5页
针对传统的推荐系统中由于人工分配推荐内容权重导致的推荐内容单一的问题,提出基于文本集密度的社交媒体软件内容推荐系统设计研究。在硬件设计上,以FPGA作为系统硬件加速的核心,通过PCIE接口将其与服务器相连接,将FPGA的指令缓冲区作...
针对传统的推荐系统中由于人工分配推荐内容权重导致的推荐内容单一的问题,提出基于文本集密度的社交媒体软件内容推荐系统设计研究。在硬件设计上,以FPGA作为系统硬件加速的核心,通过PCIE接口将其与服务器相连接,将FPGA的指令缓冲区作为控制数据访问和计算单元使用;在软件设计上,以空间文本信息作为对象,采用密度聚类的方式检索空间文本内容,生成推荐内容结果集,提前训练用户主题,根据用户ID实时向用户推荐内容。至此,系统设计完成。实验结果表明,设计的基于文本集密度的社交媒体软件内容推荐系统中与关键词实体相似的实体集概率高,推荐内容权重分配合理,能够向用户提供内容丰富的社交媒体相关信息。
展开更多
关键词
社交媒体软件
内容推荐系统
文本
集
密度
硬件设计
软件设计
内容检索
实验分析
在线阅读
下载PDF
职称材料
基于文本对象模型的自动化网页内容提取方法
被引量:
3
8
作者
李桐宇
任锐
+1 位作者
蔡鸿明
姜丽红
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2018年第10期1363-1369,共7页
网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点...
网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降.
展开更多
关键词
文本
对象模型
网页内容提取
文本密度
节点熵
在线阅读
下载PDF
职称材料
基于标签密度的自适应正文提取方法
被引量:
3
9
作者
孙皓
董守斌
《郑州大学学报(理学版)》
CAS
北大核心
2009年第1期44-47,共4页
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分...
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.
展开更多
关键词
标签
密度
锚
文本密度
正文信息
网页去噪
在线阅读
下载PDF
职称材料
一种基于统计的中文网页正文抽取方法
被引量:
3
10
作者
钱爱兵
《情报学报》
CSSCI
北大核心
2009年第2期187-194,共8页
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值...
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现。
展开更多
关键词
文本密度
文本
结点
正文抽取
贝叶斯判别准则
DOM树
在线阅读
下载PDF
职称材料
题名
使用特征文本密度的网页正文提取
被引量:
13
1
作者
王少康
董科军
阎保平
机构
中国科学院计算机网络信息中心
中国科学院研究生院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第20期1-3,29,共4页
基金
国家高技术研究发展计划(863)No.2006AA01A120
中科院信息化项目No.INFO-115-D01
CNIC青年基金项目No.CNIC_QN_09005~~
文摘
针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间和空间复杂度均较低。实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性。
关键词
文本密度
文本
特征
信息抽取
网页
Keywords
text density
text feature
information extraction
web page
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
阈值优化的文本密度聚类算法
被引量:
6
2
作者
马素琴
施化吉
机构
江苏大学计算机科学与通信工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2011年第17期134-136,共3页
基金
国家自然科学基金No.60841003
国家火炬计划项目(No.2004EB33006)~~
文摘
针对DBSCAN算法的聚类性能受全局阈值影响而降低的问题,提出一种阈值优化的文本密度聚类算法。该算法使用k-近邻距离对对象进行排序,通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果影响的问题,提高了聚类精确度和时间效率。采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。
关键词
文本
挖掘
文本
聚类
一个基于高
密度
连接区域的
密度
聚类方法
一种阈值优化的
文本密度
聚类算法
分位数
Keywords
text mining
text clustering
Density-Based Spatial Clustering of Applications with Noise(DBSCAN) algorithm
Text Density Clustering Algorithm with Optimized Threshold Values (TDCAOTV) algorithm
quantile
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种基于SVM及文本密度特征的网页信息提取方法
被引量:
14
3
作者
周艳平
李金鹏
宋群豹
机构
青岛科技大学信息科学技术学院
出处
《计算机应用与软件》
北大核心
2019年第10期251-255,261,共6页
基金
国家自然科学基金项目(61402246)
山东省高等学校科技计划项目(J14LN31)
文摘
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。
关键词
SVM
正文抽取
DOM树
文本密度
特征
Keywords
SVM
Text extraction
DOM tree
Text density features
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
在线阅读
下载PDF
职称材料
题名
文本视觉密度与界面色调对老年人数字健康教育的影响研究
被引量:
1
4
作者
彭程
易敏哲
吴群
于航勇
机构
浙江理工大学艺术与设计学院
福州大学厦门工艺美术学院
出处
《图学学报》
CSCD
北大核心
2024年第3期613-623,共11页
基金
国家社会科学基金青年项目(23CSH014)。
文摘
数字健康教育以丰富的内容和灵活的教育方式在提升百姓健康素养方面做出了巨大贡献,但由于老年群体认知能力和视觉水平的衰退,在接受数字教育时常面临信息难以识别、理解困难等问题。因此,以数字健康教育平台阅读界面为研究对象,分析了界面视觉设计对老年群体阅读效果和认知负荷的影响。研究中的自变量为文本视觉密度和界面色调,因变量为阅读绩效。2×2双因子实验结果表明:①低文本密度下的阅读理解效果优于标准密度;②冷色调的阅读理解效果优于暖色调;③文本视觉密度与界面色调在阅读时间上存在显著的交互作用。冷色调在标准密度下的阅读用时更少,而暖色调在低密度下的阅读用时更少。研究从健康教育内容传播的视角进行界面设计分析,丰富了老年数字阅读体验数据,探讨了文本视觉密度和色调在界面中的效果与交叉关系,为提升老年人数字教育效能提供了具体设计建议。
关键词
数字健康教育
老年人学习
界面视觉设计
文本
视觉
密度
界面色调
Keywords
digital health education
elderly learning
interface visual design
text visual density
interface color hue
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于文本块密度和标签路径覆盖率的网页正文抽取
被引量:
5
5
作者
刘鹏程
胡骏
吴共庆
机构
合肥工业大学计算机与信息学院
出处
《计算机应用研究》
CSCD
北大核心
2018年第6期1645-1650,共6页
基金
国家重点研发计划资助项目(2016YFB1000901)
国家自然科学基金资助项目(61273297
+3 种基金
61229301
61673152)
国家教育部创新团队发展计划资助项目(IRT13059)
国家留学基金资助项目(201506695019)
文摘
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。
关键词
正文抽取
文本
块
密度
标签路径覆盖率
特征融合
Keywords
content extraction
text block density
tag path coverage
feature fusion
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于文本集密度的特征选择与权重计算方案
被引量:
8
6
作者
吴科
石冰
卢军
牛小飞
机构
山东大学计算机科学与技术学院
山东轻工业学院物理系
出处
《中文信息学报》
CSCD
北大核心
2004年第1期42-47,共6页
基金
山东省教育厅项目 (J0 0F0 4 )
文摘
在信息检索的向量空间模型中 ,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中 ,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献衡量该词的价值的方法。使用这种方法 ,我们能找出不损失文本有效信息的最小特征词语集 ,并且创造出更为合理权重计算方案。在文中还用了一种新的衡量权重好坏的标准———元打分法 。
关键词
计算机应用
中文信息处理
信息检索
文本
集
密度
权重计算方案
元打分法
Keywords
computer application
Chinese information Processing
information retrieval
text set density
weighting scheme
meta scoring
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于文本集密度的社交媒体软件内容推荐系统设计研究
被引量:
4
7
作者
汪涛
夏彬
机构
沈阳航空航天大学
出处
《现代电子技术》
2021年第12期73-77,共5页
基金
辽宁省自然科学基金项目(20180550282)。
文摘
针对传统的推荐系统中由于人工分配推荐内容权重导致的推荐内容单一的问题,提出基于文本集密度的社交媒体软件内容推荐系统设计研究。在硬件设计上,以FPGA作为系统硬件加速的核心,通过PCIE接口将其与服务器相连接,将FPGA的指令缓冲区作为控制数据访问和计算单元使用;在软件设计上,以空间文本信息作为对象,采用密度聚类的方式检索空间文本内容,生成推荐内容结果集,提前训练用户主题,根据用户ID实时向用户推荐内容。至此,系统设计完成。实验结果表明,设计的基于文本集密度的社交媒体软件内容推荐系统中与关键词实体相似的实体集概率高,推荐内容权重分配合理,能够向用户提供内容丰富的社交媒体相关信息。
关键词
社交媒体软件
内容推荐系统
文本
集
密度
硬件设计
软件设计
内容检索
实验分析
Keywords
social media software
content recommendation system
text set density
hardware design
software design
content retrieval
experiment analysis
分类号
TN911-34 [电子电信—通信与信息系统]
TP319 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于文本对象模型的自动化网页内容提取方法
被引量:
3
8
作者
李桐宇
任锐
蔡鸿明
姜丽红
机构
上海交通大学软件学院
出处
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2018年第10期1363-1369,共7页
基金
国家自然科学基金资助项目(61373030)
文摘
网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降.
关键词
文本
对象模型
网页内容提取
文本密度
节点熵
Keywords
document object model(DOM)
content extraction of web pages
text density
node entropy
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于标签密度的自适应正文提取方法
被引量:
3
9
作者
孙皓
董守斌
机构
华南理工大学广东省计算机网络重点实验室
出处
《郑州大学学报(理学版)》
CAS
北大核心
2009年第1期44-47,共4页
基金
国家863计划项目
编号2006AA012196
文摘
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.
关键词
标签
密度
锚
文本密度
正文信息
网页去噪
Keywords
tag density
anchor density
content information
Web denoising
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种基于统计的中文网页正文抽取方法
被引量:
3
10
作者
钱爱兵
机构
南京中医药大学经贸管理学院
出处
《情报学报》
CSSCI
北大核心
2009年第2期187-194,共8页
文摘
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现。
关键词
文本密度
文本
结点
正文抽取
贝叶斯判别准则
DOM树
Keywords
text density
text node
fulltext extraction
Bayesian criteria
DOM tree
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
H152.3 [语言文字—汉语]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
使用特征文本密度的网页正文提取
王少康
董科军
阎保平
《计算机工程与应用》
CSCD
北大核心
2010
13
在线阅读
下载PDF
职称材料
2
阈值优化的文本密度聚类算法
马素琴
施化吉
《计算机工程与应用》
CSCD
北大核心
2011
6
在线阅读
下载PDF
职称材料
3
一种基于SVM及文本密度特征的网页信息提取方法
周艳平
李金鹏
宋群豹
《计算机应用与软件》
北大核心
2019
14
在线阅读
下载PDF
职称材料
4
文本视觉密度与界面色调对老年人数字健康教育的影响研究
彭程
易敏哲
吴群
于航勇
《图学学报》
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
5
基于文本块密度和标签路径覆盖率的网页正文抽取
刘鹏程
胡骏
吴共庆
《计算机应用研究》
CSCD
北大核心
2018
5
在线阅读
下载PDF
职称材料
6
基于文本集密度的特征选择与权重计算方案
吴科
石冰
卢军
牛小飞
《中文信息学报》
CSCD
北大核心
2004
8
在线阅读
下载PDF
职称材料
7
基于文本集密度的社交媒体软件内容推荐系统设计研究
汪涛
夏彬
《现代电子技术》
2021
4
在线阅读
下载PDF
职称材料
8
基于文本对象模型的自动化网页内容提取方法
李桐宇
任锐
蔡鸿明
姜丽红
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2018
3
在线阅读
下载PDF
职称材料
9
基于标签密度的自适应正文提取方法
孙皓
董守斌
《郑州大学学报(理学版)》
CAS
北大核心
2009
3
在线阅读
下载PDF
职称材料
10
一种基于统计的中文网页正文抽取方法
钱爱兵
《情报学报》
CSSCI
北大核心
2009
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部