期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
搜索引擎索引网页集合选取方法研究 被引量:9
1
作者 茹立云 李智超 马少平 《计算机研究与发展》 EI CSCD 北大核心 2014年第10期2239-2247,共9页
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的... 随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求. 展开更多
关键词 搜索引擎 内容签名 文本聚类 机器学习 线性回归模型
在线阅读 下载PDF
中国中文信息学会2020年“钱伟长中文信息处理科学技术奖”之——认知计算模型驱动的互联网搜索技术及其应用 被引量:1
2
作者 刘奕群 +7 位作者 王小川 张敏 陈炜鹏 马少平 许静芳 毛佳昕 王蟒 马为 《中文信息学报》 CSCD 北大核心 2021年第6期F0003-F0003,共1页
随着互联网信息爆炸增长,搜索引擎已成为最重要的互联网应用之一,关系到社会信息处理水平与利用效率;当前绝大部分国家的搜索服务被跨国巨头垄断,拥有自主可控的搜索技术对国家信息安全意义重大。2006年至今,清华大学与搜狗公司通过紧... 随着互联网信息爆炸增长,搜索引擎已成为最重要的互联网应用之一,关系到社会信息处理水平与利用效率;当前绝大部分国家的搜索服务被跨国巨头垄断,拥有自主可控的搜索技术对国家信息安全意义重大。2006年至今,清华大学与搜狗公司通过紧密的校企合作建设了搜狗搜索引擎,致力于提供性能突出、自主可控、内容可信的搜索服务。 展开更多
关键词 中文信息处理 搜索引擎 国家信息安全 搜索服务 认知计算 搜狗 模型驱动 校企合作
在线阅读 下载PDF
利用单语数据改进神经机器翻译压缩模型的翻译质量 被引量:11
3
作者 李响 刘洋 +1 位作者 陈伟 刘群 《中文信息学报》 CSCD 北大核心 2019年第7期46-55,共10页
该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了'伪双语数据'的教学方法,利用教师模型翻译单语数据获... 该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了'伪双语数据'的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了'负对数似然—知识蒸馏联合优化'教学方法,除了利用合成双语数据,还利用教师模型获得的目标语言词语概率分布作为知识,从而在知识蒸馏框架下提高学生模型的翻译质量。实验证明,在中英和德英翻译任务上,使用该方法训练的学生模型不仅在领域内测试集上显著超过了基线学生模型,而且在领域外测试集上的泛化性能也得到了提高。 展开更多
关键词 神经机器翻译 知识蒸馏 单语数据
在线阅读 下载PDF
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化 被引量:10
4
作者 龚鸣清 叶煌 +2 位作者 张鉴 卢兴敬 陈伟 《计算机应用》 CSCD 北大核心 2019年第6期1557-1562,共6页
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指... 针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。 展开更多
关键词 ARMv8 单指令多数据流计算 基础线性代数子程序库 高性能计算
在线阅读 下载PDF
神经机器翻译中英语单词及其大小写联合预测模型 被引量:12
5
作者 张楠 李响 +1 位作者 靳晓宁 陈伟 《中文信息学报》 CSCD 北大核心 2019年第3期52-58,共7页
英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方... 英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方式是抽取包含大小写的词表,但这种方式扩大了词表,增加了模型参数。该文提出了一种在神经机器翻译训练中联合预测英语单词及其大小写属性的方法,在同一个解码器输出层分别预测单词及其大小写属性,预测大小写时充分考虑源端语料和目标端语料上下文信息。该方法不仅减小了词表的大小和模型参数,译文的质量也得到提升。在WMT 2017汉英新闻翻译任务测试集上,相比基线方法,该方法在大小写敏感和大小写不敏感两个评价指标上分别提高0.97BLEU和1.01BLEU,改善了神经机器翻译模型的性能。 展开更多
关键词 机器翻译 大小写恢复 联合预测
在线阅读 下载PDF
面向互联网应用的图像LBP算法GPU并行加速 被引量:1
6
作者 王香荣 高飞 +2 位作者 李钦 刘轶 张阔 《计算机工程与科学》 CSCD 北大核心 2013年第11期153-159,共7页
很多互联网应用需要进行海量的图片处理。LBP算法是一种图像纹理特征提取算法,广泛用于图像检索等领域,但该算法较为复杂,在处理互联网环境中的海量图片时面临着性能挑战。解决该问题的办法之一就是采用GPU对LBP算法进行并行加速,特别... 很多互联网应用需要进行海量的图片处理。LBP算法是一种图像纹理特征提取算法,广泛用于图像检索等领域,但该算法较为复杂,在处理互联网环境中的海量图片时面临着性能挑战。解决该问题的办法之一就是采用GPU对LBP算法进行并行加速,特别是针对海量图片处理设计加速方案,使GPU同时进行多幅图像LBP特征的并行提取,并采用异步传输方式使多幅图像数据的复制与Kernel函数的执行并行化。通过对GPU单幅和多幅图像并行处理的实验测试,并将实验数据与CPU程序性能进行对比分析,结果表明:对不同分辨率多幅图像并行处理的加速比可达58倍。 展开更多
关键词 GPU 局部二值模式 异步传输 互联网
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部