期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
使用特征文本密度的网页正文提取 被引量:13
1
作者 王少康 董科军 阎保平 《计算机工程与应用》 CSCD 北大核心 2010年第20期1-3,29,共4页
针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间和空... 针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间和空间复杂度均较低。实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性。 展开更多
关键词 文本密度 文本特征 信息抽取 网页
在线阅读 下载PDF
阈值优化的文本密度聚类算法 被引量:6
2
作者 马素琴 施化吉 《计算机工程与应用》 CSCD 北大核心 2011年第17期134-136,共3页
针对DBSCAN算法的聚类性能受全局阈值影响而降低的问题,提出一种阈值优化的文本密度聚类算法。该算法使用k-近邻距离对对象进行排序,通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。... 针对DBSCAN算法的聚类性能受全局阈值影响而降低的问题,提出一种阈值优化的文本密度聚类算法。该算法使用k-近邻距离对对象进行排序,通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果影响的问题,提高了聚类精确度和时间效率。采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。 展开更多
关键词 文本挖掘 文本聚类 一个基于高密度连接区域的密度聚类方法 一种阈值优化的文本密度聚类算法 分位数
在线阅读 下载PDF
一种基于SVM及文本密度特征的网页信息提取方法 被引量:14
3
作者 周艳平 李金鹏 宋群豹 《计算机应用与软件》 北大核心 2019年第10期251-255,261,共6页
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样... 针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。 展开更多
关键词 SVM 正文抽取 DOM树 文本密度特征
在线阅读 下载PDF
文本视觉密度与界面色调对老年人数字健康教育的影响研究 被引量:1
4
作者 彭程 易敏哲 +1 位作者 吴群 于航勇 《图学学报》 CSCD 北大核心 2024年第3期613-623,共11页
数字健康教育以丰富的内容和灵活的教育方式在提升百姓健康素养方面做出了巨大贡献,但由于老年群体认知能力和视觉水平的衰退,在接受数字教育时常面临信息难以识别、理解困难等问题。因此,以数字健康教育平台阅读界面为研究对象,分析了... 数字健康教育以丰富的内容和灵活的教育方式在提升百姓健康素养方面做出了巨大贡献,但由于老年群体认知能力和视觉水平的衰退,在接受数字教育时常面临信息难以识别、理解困难等问题。因此,以数字健康教育平台阅读界面为研究对象,分析了界面视觉设计对老年群体阅读效果和认知负荷的影响。研究中的自变量为文本视觉密度和界面色调,因变量为阅读绩效。2×2双因子实验结果表明:①低文本密度下的阅读理解效果优于标准密度;②冷色调的阅读理解效果优于暖色调;③文本视觉密度与界面色调在阅读时间上存在显著的交互作用。冷色调在标准密度下的阅读用时更少,而暖色调在低密度下的阅读用时更少。研究从健康教育内容传播的视角进行界面设计分析,丰富了老年数字阅读体验数据,探讨了文本视觉密度和色调在界面中的效果与交叉关系,为提升老年人数字教育效能提供了具体设计建议。 展开更多
关键词 数字健康教育 老年人学习 界面视觉设计 文本视觉密度 界面色调
在线阅读 下载PDF
基于文本块密度和标签路径覆盖率的网页正文抽取 被引量:5
5
作者 刘鹏程 胡骏 吴共庆 《计算机应用研究》 CSCD 北大核心 2018年第6期1645-1650,共6页
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征... 大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。 展开更多
关键词 正文抽取 文本密度 标签路径覆盖率 特征融合
在线阅读 下载PDF
基于文本集密度的特征选择与权重计算方案 被引量:8
6
作者 吴科 石冰 +1 位作者 卢军 牛小飞 《中文信息学报》 CSCD 北大核心 2004年第1期42-47,共6页
在信息检索的向量空间模型中 ,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中 ,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方... 在信息检索的向量空间模型中 ,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中 ,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献衡量该词的价值的方法。使用这种方法 ,我们能找出不损失文本有效信息的最小特征词语集 ,并且创造出更为合理权重计算方案。在文中还用了一种新的衡量权重好坏的标准———元打分法 。 展开更多
关键词 计算机应用 中文信息处理 信息检索 文本密度 权重计算方案 元打分法
在线阅读 下载PDF
基于文本集密度的社交媒体软件内容推荐系统设计研究 被引量:4
7
作者 汪涛 夏彬 《现代电子技术》 2021年第12期73-77,共5页
针对传统的推荐系统中由于人工分配推荐内容权重导致的推荐内容单一的问题,提出基于文本集密度的社交媒体软件内容推荐系统设计研究。在硬件设计上,以FPGA作为系统硬件加速的核心,通过PCIE接口将其与服务器相连接,将FPGA的指令缓冲区作... 针对传统的推荐系统中由于人工分配推荐内容权重导致的推荐内容单一的问题,提出基于文本集密度的社交媒体软件内容推荐系统设计研究。在硬件设计上,以FPGA作为系统硬件加速的核心,通过PCIE接口将其与服务器相连接,将FPGA的指令缓冲区作为控制数据访问和计算单元使用;在软件设计上,以空间文本信息作为对象,采用密度聚类的方式检索空间文本内容,生成推荐内容结果集,提前训练用户主题,根据用户ID实时向用户推荐内容。至此,系统设计完成。实验结果表明,设计的基于文本集密度的社交媒体软件内容推荐系统中与关键词实体相似的实体集概率高,推荐内容权重分配合理,能够向用户提供内容丰富的社交媒体相关信息。 展开更多
关键词 社交媒体软件 内容推荐系统 文本密度 硬件设计 软件设计 内容检索 实验分析
在线阅读 下载PDF
基于文本对象模型的自动化网页内容提取方法 被引量:3
8
作者 李桐宇 任锐 +1 位作者 蔡鸿明 姜丽红 《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第10期1363-1369,共7页
网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点... 网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降. 展开更多
关键词 文本对象模型 网页内容提取 文本密度 节点熵
在线阅读 下载PDF
基于标签密度的自适应正文提取方法 被引量:3
9
作者 孙皓 董守斌 《郑州大学学报(理学版)》 CAS 北大核心 2009年第1期44-47,共4页
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分... 提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的. 展开更多
关键词 标签密度 文本密度 正文信息 网页去噪
在线阅读 下载PDF
一种基于统计的中文网页正文抽取方法 被引量:3
10
作者 钱爱兵 《情报学报》 CSSCI 北大核心 2009年第2期187-194,共8页
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值... 针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现。 展开更多
关键词 文本密度 文本结点 正文抽取 贝叶斯判别准则 DOM树
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部