期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
一种灵活高效的增量式Web平行语料抽取方法
1
作者 刘小峰 郑禹铖 李东阳 《计算机科学》 CSCD 北大核心 2024年第11期248-254,共7页
从Web中抽取平行语料对于机器翻译和其他多语语言处理任务来说非常重要,由此提出了一种从Web中灵活高效地增量抽取平行语料的方法,通过持续地对Common Crawl的Web抓取存档进行下载、扫描和分析统计,增量更新域名下的语言文本长度统计数... 从Web中抽取平行语料对于机器翻译和其他多语语言处理任务来说非常重要,由此提出了一种从Web中灵活高效地增量抽取平行语料的方法,通过持续地对Common Crawl的Web抓取存档进行下载、扫描和分析统计,增量更新域名下的语言文本长度统计数据。对于任意给定的感兴趣目标语言对,抽取方法基于域名下的语言文本长度统计数据确定抓取网站入口,并根据目标语言进行定向抓取,忽略多语域名和目标语言外的链接。此外还提出了一种在多语域名内基于语义相似性进行全局对齐的新的句子对齐方法。实验表明,增量抽取能够持续不断地获得新的平行语料,根据指定的语言对进行抽取,可以灵活地获得感兴趣的目标语言对平行语料;新的对齐方法在对齐效率上明显优于全局方法,且能完成局部方法无法完成的对齐;在6个语言方向中,抽取到的平行语料在4个中低资源语言方向的质量优于现有Web开源平行语料,在2个高资源语言方向的质量接近现有最好的Web开源平行语料。 展开更多
关键词 平行语料抽取 句子对齐 语料库构建 机器翻译 web挖掘
在线阅读 下载PDF
可扩展并行Web服务器群技术的研究 被引量:10
2
作者 庄伟强 王鼎兴 +1 位作者 沈美明 郑纬民 《小型微型计算机系统》 EI CSCD 北大核心 2000年第1期19-23,共5页
随着Internet应用的发展,传统的Web 服务器已不能满足客户端访问能力的需求,可扩展并行Web 服务器群技术的研究和开发应运而生.它具有高可用、可扩展等特点.另一方面,机群系统具有良好的可扩展性能和计算能力,是实... 随着Internet应用的发展,传统的Web 服务器已不能满足客户端访问能力的需求,可扩展并行Web 服务器群技术的研究和开发应运而生.它具有高可用、可扩展等特点.另一方面,机群系统具有良好的可扩展性能和计算能力,是实现可扩展并行Web 服务器群的最好系统平台.本文在分析Web 服务器特点的基础上,总结用机群系统实现可扩展并行Web 服务器的优点和关键技术,提出一个系统实现方案,然后介绍在该系统基础上开发的信息搜集和检索系统. 展开更多
关键词 web 服务器 机群系统 信息检索系统
在线阅读 下载PDF
基于Web的双语平行句对自动获取 被引量:12
3
作者 叶莎妮 吕雅娟 +1 位作者 黄赟 刘群 《中文信息学报》 CSCD 北大核心 2008年第5期67-73,共7页
双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的... 双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性。此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。 展开更多
关键词 计算机应用 中文信息处理 双语句对 平行网页 网页挖掘
在线阅读 下载PDF
Web平行语料挖掘及其在机器翻译中的应用 被引量:5
4
作者 林政 吕雅娟 +1 位作者 刘群 马希荣 《中文信息学报》 CSCD 北大核心 2010年第5期85-91,共7页
双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共... 双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共获取了258万双语平行句对,平均正确率为93.75%,其中前150万句对的平均正确率达到96%。该文还提出句对质量排序和领域信息检索两种方法将Web数据应用于统计机器翻译的模型训练,在IWSLT评测数据上BLEU值可以提高2到5个百分点。 展开更多
关键词 web挖掘 平行语料库 句子对齐 统计机器翻译
在线阅读 下载PDF
一种并行Web信息采集系统模型 被引量:1
5
作者 杨天奇 周晔 《计算机应用》 CSCD 北大核心 2007年第1期225-227,共3页
根据国内外在信息采集领域的发展以及并行采集技术的研究,提出了一个基于多线程并行的W eb信息采集结构模型,该模型以线程并行的方式对W eb页面同时采集,实现了全面、高效并且灵活的信息搜集。
关键词 并行web 信息采集 搜索引擎
在线阅读 下载PDF
基于工作流的并行化Web服务合成技术研究 被引量:4
6
作者 李娜 冯百明 +1 位作者 王继东 张瑜 《计算机工程与设计》 CSCD 北大核心 2010年第6期1240-1242,1246,共4页
为了提高基于工作流的服务合成效率,满足用户高质量的应用需求,提出了基于工作流的并行化Web服务合成方案,并提出了流程划分算法。该方案依据服务发现模块的个数,将流程中的各个服务划分到不同的服务发现模块中,以实现服务发现的并行化... 为了提高基于工作流的服务合成效率,满足用户高质量的应用需求,提出了基于工作流的并行化Web服务合成方案,并提出了流程划分算法。该方案依据服务发现模块的个数,将流程中的各个服务划分到不同的服务发现模块中,以实现服务发现的并行化,进而提高了整个流程的执行效率。通过实例阐明了该方案,并且表明了该方案的高效性,最后总结了其优点。 展开更多
关键词 网络服务 工作流 并行 服务合成 模型
在线阅读 下载PDF
可扩展并行Web服务器集群的实现技术 被引量:16
7
作者 陈华平 孙清扬 《计算机工程与应用》 CSCD 北大核心 2002年第3期149-151,共3页
随着INTERNET用户和流量的不断增长,对Web站点的性能提出了更高的要求,以缩短用户请求的响应时间。该文介绍了高性能的可扩展并行Web服务器集群的工作原理和实现机制,并说明了Web服务器集群的应用前景和发展趋势。
关键词 服务器集群 并行分布计算 INTERNET web 负载平衡
在线阅读 下载PDF
一种增量式并行Web信息采集方法 被引量:5
8
作者 杨天奇 周晔 《计算机工程》 EI CAS CSCD 北大核心 2006年第20期97-99,共3页
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间... 提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。 展开更多
关键词 web 信息采集 搜索引擎 并行
在线阅读 下载PDF
基于遗传算法的Web集群负载均衡方法 被引量:5
9
作者 朱长武 戴上平 刘智 《广西师范大学学报(自然科学版)》 CAS 北大核心 2006年第4期239-242,共4页
Web集群技术解决了Web服务器系统的容量问题,其核心思想是负载均衡策略和算法。在此对Web集群中的负载均衡技术进行了分析和探讨,并提出一种混合遗传算法。仿真实验表明,这种算法能有效解决Web集群的负载均衡问题,并且能避免标准遗传算... Web集群技术解决了Web服务器系统的容量问题,其核心思想是负载均衡策略和算法。在此对Web集群中的负载均衡技术进行了分析和探讨,并提出一种混合遗传算法。仿真实验表明,这种算法能有效解决Web集群的负载均衡问题,并且能避免标准遗传算法的早熟收敛现象,同传统的负载均衡方法相比,降低了任务执行时间。 展开更多
关键词 web集群 负载均衡 并行遗传算法 标准遗传算法
在线阅读 下载PDF
基于部分平行Web语料的自动术语翻译
10
作者 孙越恒 李志圣 +1 位作者 何丕廉 周锦姝 《情报学报》 CSSCI 北大核心 2009年第1期97-104,共8页
不借助于任何辞典工具而从Web中自动挖掘出术语的翻译,这是一项有趣且富有挑战性的工作。本文提供了一种基于部分平行Web语料的自动术语翻译方法。首先通过一个术语对,采用Web挖掘技术,获取潜在的匹配模式。接着,在用户对源术语进... 不借助于任何辞典工具而从Web中自动挖掘出术语的翻译,这是一项有趣且富有挑战性的工作。本文提供了一种基于部分平行Web语料的自动术语翻译方法。首先通过一个术语对,采用Web挖掘技术,获取潜在的匹配模式。接着,在用户对源术语进行翻译时,利用已获取的模式来抽取候选答案集,最后依据评分函数,对候选答案进行排序,并将结果以格式化的形式反馈给用户:本文依据三条层次规则,构造了候选答案的评分函数。实验结果表明,本文所构造的评分函数客观反映了不同匹配模式的不同重要性,且基于部分平行Web语料的方法能够很好地发现源术语的正确翻译,优于现有的技术方案。 展开更多
关键词 自动术语翻译 部分平行web语料 匹配模式 评分函数
在线阅读 下载PDF
面向并联机床概念设计的Web环境
11
作者 孟飚 郭志平 朱煜 《计算机工程与应用》 CSCD 北大核心 2003年第17期225-226,229,共3页
在分析当前概念设计现状以及Internet应用情况的基础上,探索了基于Web环境进行概念设计的理论、方法与架构技术,并以并联机床为对象搭建了基于Web的概念设计环境,详细探讨了系统模块结构和功能,并对并联机床概念设计方法和Web技术的结... 在分析当前概念设计现状以及Internet应用情况的基础上,探索了基于Web环境进行概念设计的理论、方法与架构技术,并以并联机床为对象搭建了基于Web的概念设计环境,详细探讨了系统模块结构和功能,并对并联机床概念设计方法和Web技术的结合作了简单论述。 展开更多
关键词 概念设计 web环境 并联机床
在线阅读 下载PDF
基于Web Service技术分布式并行数据挖掘的研究与实现 被引量:1
12
作者 金春霞 白秋产 《现代电子技术》 2008年第10期42-44,共3页
主要介绍基于Web Service技术的一个数据挖掘系统,在一个关联规则挖掘的并行算法—CD算法的基础上,结合一种基于动态数据集划分的并行关联规则挖掘算法,利用动态方式分配数据量,使每个处理器获得相同多的数据集,解决在网络中大量分散的... 主要介绍基于Web Service技术的一个数据挖掘系统,在一个关联规则挖掘的并行算法—CD算法的基础上,结合一种基于动态数据集划分的并行关联规则挖掘算法,利用动态方式分配数据量,使每个处理器获得相同多的数据集,解决在网络中大量分散的数据因通信等问题而引起的负载平衡,从而提高了数据挖掘效率。 展开更多
关键词 web服务 关联规则 并行数据挖据 动态数据集
在线阅读 下载PDF
大规模分布式Web负载测试系统的设计 被引量:3
13
作者 尹颖禹 徐小平 《计算机工程与设计》 CSCD 北大核心 2009年第9期2174-2176,共3页
负载测试主要是针对Web应用的性能指标制定测试方案,以验证系统在设计载荷下的可用性、适应性、稳定性和安全性。在对系统功能分析的基础上,剖析了系统实现的关键技术的原理和方法,主要包括测试策略、分布式测试框架、数据的采集及可视... 负载测试主要是针对Web应用的性能指标制定测试方案,以验证系统在设计载荷下的可用性、适应性、稳定性和安全性。在对系统功能分析的基础上,剖析了系统实现的关键技术的原理和方法,主要包括测试策略、分布式测试框架、数据的采集及可视化、微内核可扩展测试框架。最后对系统的特点与创新作了总结。应用本系统,可以有效地加快Web应用开发的过程,和通过持续测试增强其健壮性。 展开更多
关键词 web系统 GoldTester 负载测试 自动化测试 并行分布式
在线阅读 下载PDF
Web应用前后端融合的遗传算法并行化测试用例生成 被引量:18
14
作者 王微微 李奕超 +1 位作者 赵瑞莲 李征 《软件学报》 EI CSCD 北大核心 2020年第5期1314-1331,共18页
Web应用测试用例生成并行化是提升Web应用测试生成效率的一个有效手段.Web应用的前后端分离、事件驱动等特性,导致传统的并行化技术难以直接应用于Web应用的测试用例自动生成中.因此,如何针对Web应用进行并行化测试用例生成,是一项具有... Web应用测试用例生成并行化是提升Web应用测试生成效率的一个有效手段.Web应用的前后端分离、事件驱动等特性,导致传统的并行化技术难以直接应用于Web应用的测试用例自动生成中.因此,如何针对Web应用进行并行化测试用例生成,是一项具有挑战性的工作.将种群并行化计算引入到基于遗传算法的Web应用前后端融合的测试用例生成中,通过线程池及调度逻辑设计、多浏览器进程管理及后端覆盖路径获取,实现种群个体在多浏览器上的并行化执行及基于后端路径覆盖的适应度值并行化计算,以更高效地生成Web应用的测试用例.实验结果表明:相对于Web应用的GA串行化测试用例生成方法,所提的并行化测试生成方法能够更充分地利用系统资源,极大地提升Web应用测试用例的生成效率. 展开更多
关键词 web应用测试 测试用例生成 遗传算法 并行化 敏感路径
在线阅读 下载PDF
Web数据并行搜索驱动模型
15
作者 陈庆奎 《计算机工程》 CAS CSCD 北大核心 2007年第21期31-33,共3页
面对海量Web数据的高效率搜索问题的需求,并行、分布式的体系结构可以构建大规模搜索系统。该文利用多级分布式并行构架,运用网格理论技术,挖掘Internet上空闲的计算资源,提出了一个Web数据并行搜索驱动模型,描述了模型的主要部件、体... 面对海量Web数据的高效率搜索问题的需求,并行、分布式的体系结构可以构建大规模搜索系统。该文利用多级分布式并行构架,运用网格理论技术,挖掘Internet上空闲的计算资源,提出了一个Web数据并行搜索驱动模型,描述了模型的主要部件、体系结构、搜索过程及并行驱动机制。分析和实验表明,该模型具有良好的可扩展性,适合Internet网络数据的大规模搜索应用。 展开更多
关键词 web数据 并行搜索 网格技术 INTERNET 空闲资源
在线阅读 下载PDF
基于ProActive的分布式并行WebSpider设计
16
作者 张林才 梁正友 《计算机工程》 CAS CSCD 北大核心 2008年第19期47-48,52,共3页
单机Web Spider的数据采集速度较慢,采用MPI技术或直接用Java开发分布式Web Spider代价较高。该文利用ProActive中间件提供的主动对象技术、网络并行计算技术、自动部署机制设计实现了P-Spider分布式并行Web Spider。实验结果表明,该P-S... 单机Web Spider的数据采集速度较慢,采用MPI技术或直接用Java开发分布式Web Spider代价较高。该文利用ProActive中间件提供的主动对象技术、网络并行计算技术、自动部署机制设计实现了P-Spider分布式并行Web Spider。实验结果表明,该P-Spider采集速率是单机多线程Web Spider的2.2倍。 展开更多
关键词 web Spider程序 ProActive中间件 并行 分布式
在线阅读 下载PDF
一个高效可靠的Web farm系统
17
作者 魏文国 张凌 +1 位作者 董守斌 谢赞福 《计算机工程与设计》 CSCD 2004年第6期856-858,共3页
针对Web服务器的特点,给出了基于集群的高效、可靠的Web farm系统的体系结构,并对其中负载均衡技术、集群并行文件系统和高可用性支撑环境3大关键技术的设计和实现进行了分析和论述。实验表明:该系统使Web farm的性能得到很大提升,可用... 针对Web服务器的特点,给出了基于集群的高效、可靠的Web farm系统的体系结构,并对其中负载均衡技术、集群并行文件系统和高可用性支撑环境3大关键技术的设计和实现进行了分析和论述。实验表明:该系统使Web farm的性能得到很大提升,可用性也明显改善。 展开更多
关键词 web farm系统 集群 负载均衡 并行文件系统 高可用性
在线阅读 下载PDF
基于Web Services数据抽取的研究与实践
18
作者 胡晨光 《现代电子技术》 2010年第24期65-67,76,共4页
通过对Web Services技术和数据抽取的研究,提出了基于Web Services技术的数据抽取解决方案。重点介绍了增量数据自动化产生方法,提出了基于Web Services技术的解决方案,该方案是建立在数据端到端安全传输规范和并行数据抽取的基础之上,... 通过对Web Services技术和数据抽取的研究,提出了基于Web Services技术的数据抽取解决方案。重点介绍了增量数据自动化产生方法,提出了基于Web Services技术的解决方案,该方案是建立在数据端到端安全传输规范和并行数据抽取的基础之上,通过使用简单的标准适配器和接口,来完成粗粒度数据交换服务和高效的数据传输,能够满足大型异构企业环境的数据交换需求。基于Web Services技术的数据抽取提高了数据抽取的安全性和执行效率,使企业数据交换更加方便、灵活、可靠,伸缩性也更强。 展开更多
关键词 web SERVICES 并行数据抽取 增量数据 服务安全
在线阅读 下载PDF
基于Web Service的分布式文件服务系统的关键算法 被引量:2
19
作者 徐慧英 朱信忠 +2 位作者 童吉 杨凡 赵建民 《计算机工程》 CAS CSCD 北大核心 2004年第24期40-43,共4页
论述了基于WebService的分布式文件服务系统的关键技术及算法创新研究,探讨了基于WebService的分布式文件服务系统原型系统设计,最后通过模拟应用实例分析了该系统性能。
关键词 分布式文件服务系统 web服务 并发访问控制 组件模型
在线阅读 下载PDF
一种基于多Agent的Web数据挖掘方法 被引量:2
20
作者 熊海亮 白振兴 《现代电子技术》 2010年第8期83-86,共4页
基于多Agent的数据挖掘技术,不仅能够针对不同的Web数据综合采用不同的挖掘算法,而且可以在各站点进行并行挖掘,避免Web通信量过载。在简述Agent技术和Web数据挖掘技术的基础上,结合多Agent和Web数据挖掘,设计出一种新型数据挖掘模型,... 基于多Agent的数据挖掘技术,不仅能够针对不同的Web数据综合采用不同的挖掘算法,而且可以在各站点进行并行挖掘,避免Web通信量过载。在简述Agent技术和Web数据挖掘技术的基础上,结合多Agent和Web数据挖掘,设计出一种新型数据挖掘模型,且进一步阐述了该模型,并做了一些分析测试。结果证明,该方法能有效提高Web数据挖掘的速度、准确率和覆盖率,提高了数据利用率。 展开更多
关键词 web数据挖掘 多AGENT web数据 网络通信量 并行挖掘
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部