检索结果-维普期刊中文期刊服务平台

搜索引擎索引网页集合选取方法研究被引量：9: 1; 作者茹立云李智超马少平《计算机研究与发展》 EI CSCD 北大核心 2014年第10期2239-2247,共9页; 随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的... 展开更多; 关键词搜索引擎内容签名文本聚类机器学习线性回归模型; 在线阅读下载PDF 职称材料

中国中文信息学会2020年“钱伟长中文信息处理科学技术奖”之——认知计算模型驱动的互联网搜索技术及其应用被引量：1: 2; 作者无刘奕群 +7 位作者王小川张敏陈炜鹏马少平许静芳毛佳昕王蟒马为《中文信息学报》 CSCD 北大核心 2021年第6期F0003-F0003,共1页; 随着互联网信息爆炸增长,搜索引擎已成为最重要的互联网应用之一,关系到社会信息处理水平与利用效率;当前绝大部分国家的搜索服务被跨国巨头垄断,拥有自主可控的搜索技术对国家信息安全意义重大。2006年至今,清华大学与搜狗公司通过紧... 展开更多; 关键词中文信息处理搜索引擎国家信息安全搜索服务认知计算搜狗模型驱动校企合作; 在线阅读下载PDF 职称材料

利用单语数据改进神经机器翻译压缩模型的翻译质量被引量：11: 3; 作者李响刘洋 +1 位作者陈伟刘群《中文信息学报》 CSCD 北大核心 2019年第7期46-55,共10页; 该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了'伪双语数据'的教学方法,利用教师模型翻译单语数据获... 展开更多; 关键词神经机器翻译知识蒸馏单语数据; 在线阅读下载PDF 职称材料

基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化被引量：10: 4; 作者龚鸣清叶煌 +2 位作者张鉴卢兴敬陈伟《计算机应用》 CSCD 北大核心 2019年第6期1557-1562,共6页; 针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指... 展开更多; 关键词 ARMv8 单指令多数据流计算基础线性代数子程序库高性能计算; 在线阅读下载PDF 职称材料

神经机器翻译中英语单词及其大小写联合预测模型被引量：12: 5; 作者张楠李响 +1 位作者靳晓宁陈伟《中文信息学报》 CSCD 北大核心 2019年第3期52-58,共7页; 英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方... 展开更多; 关键词机器翻译大小写恢复联合预测; 在线阅读下载PDF 职称材料

面向互联网应用的图像LBP算法GPU并行加速被引量：1: 6; 作者王香荣高飞 +2 位作者李钦刘轶张阔《计算机工程与科学》 CSCD 北大核心 2013年第11期153-159,共7页; 很多互联网应用需要进行海量的图片处理。LBP算法是一种图像纹理特征提取算法,广泛用于图像检索等领域,但该算法较为复杂,在处理互联网环境中的海量图片时面临着性能挑战。解决该问题的办法之一就是采用GPU对LBP算法进行并行加速,特别... 展开更多; 关键词 GPU 局部二值模式异步传输互联网; 在线阅读下载PDF 职称材料

题名搜索引擎索引网页集合选取方法研究被引量：9: 1; 作者茹立云李智超马少平; 机构智能技术与系统国家重点实验室(清华大学) 清华信息科学与技术国家实验室(筹) 清华大学计算机科学与技术系北京搜狗科技发展有限公司; 出处《计算机研究与发展》 EI CSCD 北大核心 2014年第10期2239-2247,共9页; 基金国家"九七三"重点基础研究发展计划基金项目(2015CB358700) 国家自然科学基金项目(60903107 61073071); 文摘随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.; 关键词搜索引擎内容签名文本聚类机器学习线性回归模型; Keywords model search engine content signature text clustering machine learning linear regression; 分类号 TP391.3 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名中国中文信息学会2020年“钱伟长中文信息处理科学技术奖”之——认知计算模型驱动的互联网搜索技术及其应用被引量：1: 2; 作者无刘奕群王小川张敏陈炜鹏马少平许静芳毛佳昕王蟒马为; 机构清华大学北京搜狗科技发展有限公司不详; 出处《中文信息学报》 CSCD 北大核心 2021年第6期F0003-F0003,共1页; 文摘随着互联网信息爆炸增长,搜索引擎已成为最重要的互联网应用之一,关系到社会信息处理水平与利用效率;当前绝大部分国家的搜索服务被跨国巨头垄断,拥有自主可控的搜索技术对国家信息安全意义重大。2006年至今,清华大学与搜狗公司通过紧密的校企合作建设了搜狗搜索引擎,致力于提供性能突出、自主可控、内容可信的搜索服务。; 关键词中文信息处理搜索引擎国家信息安全搜索服务认知计算搜狗模型驱动校企合作; 分类号 TP391.3 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名利用单语数据改进神经机器翻译压缩模型的翻译质量被引量：11: 3; 作者李响刘洋陈伟刘群; 机构中国科学院计算技术研究所智能信息处理重点实验室中国科学院大学清华大学计算机科学与技术系北京搜狗科技发展有限公司语音交互技术中心华为诺亚方舟实验室; 出处《中文信息学报》 CSCD 北大核心 2019年第7期46-55,共10页; 基金国家自然科学基金(61876174,61662077); 文摘该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了'伪双语数据'的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了'负对数似然—知识蒸馏联合优化'教学方法,除了利用合成双语数据,还利用教师模型获得的目标语言词语概率分布作为知识,从而在知识蒸馏框架下提高学生模型的翻译质量。实验证明,在中英和德英翻译任务上,使用该方法训练的学生模型不仅在领域内测试集上显著超过了基线学生模型,而且在领域外测试集上的泛化性能也得到了提高。; 关键词神经机器翻译知识蒸馏单语数据; Keywords neural machine translation knowledge distillation monolingual data; 分类号 TP391.2 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化被引量：10: 4; 作者龚鸣清叶煌张鉴卢兴敬陈伟; 机构中国科学院计算机网络信息中心中国科学院大学北京搜狗科技发展有限公司; 出处《计算机应用》 CSCD 北大核心 2019年第6期1557-1562,共6页; 基金国家重点研发计划项目(2016YFB0201100,2017YFB0202803) 国家自然科学基金资助项目(11871454,91630204,61531166003) +1 种基金中国科学院信息化专项(XXH13506-204)~~; 文摘针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。; 关键词 ARMv8 单指令多数据流计算基础线性代数子程序库高性能计算; Keywords ARMv8 single instruction multiple data basic linear algebra subprogram high performance computation; 分类号 TP332 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名神经机器翻译中英语单词及其大小写联合预测模型被引量：12: 5; 作者张楠李响靳晓宁陈伟; 机构北京工业大学北京未来网络科技高精尖创新中心中国科学院计算技术研究所中国科学院大学北京搜狗科技发展有限公司; 出处《中文信息学报》 CSCD 北大核心 2019年第3期52-58,共7页; 文摘英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方式是抽取包含大小写的词表,但这种方式扩大了词表,增加了模型参数。该文提出了一种在神经机器翻译训练中联合预测英语单词及其大小写属性的方法,在同一个解码器输出层分别预测单词及其大小写属性,预测大小写时充分考虑源端语料和目标端语料上下文信息。该方法不仅减小了词表的大小和模型参数,译文的质量也得到提升。在WMT 2017汉英新闻翻译任务测试集上,相比基线方法,该方法在大小写敏感和大小写不敏感两个评价指标上分别提高0.97BLEU和1.01BLEU,改善了神经机器翻译模型的性能。; 关键词机器翻译大小写恢复联合预测; Keywords machine translation case restoration joint prediction; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名面向互联网应用的图像LBP算法GPU并行加速被引量：1: 6; 作者王香荣高飞李钦刘轶张阔; 机构北京航空航天大学中德联合软件研究所北京搜狗科技发展有限公司; 出处《计算机工程与科学》 CSCD 北大核心 2013年第11期153-159,共7页; 基金国家863计划资助项目(2011AA01A205); 文摘很多互联网应用需要进行海量的图片处理。LBP算法是一种图像纹理特征提取算法,广泛用于图像检索等领域,但该算法较为复杂,在处理互联网环境中的海量图片时面临着性能挑战。解决该问题的办法之一就是采用GPU对LBP算法进行并行加速,特别是针对海量图片处理设计加速方案,使GPU同时进行多幅图像LBP特征的并行提取,并采用异步传输方式使多幅图像数据的复制与Kernel函数的执行并行化。通过对GPU单幅和多幅图像并行处理的实验测试,并将实验数据与CPU程序性能进行对比分析,结果表明:对不同分辨率多幅图像并行处理的加速比可达58倍。; 关键词 GPU 局部二值模式异步传输互联网; Keywords GPU local binary pattern asynchronous transmission Internet; 分类号 TP391.4 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	搜索引擎索引网页集合选取方法研究	茹立云李智超马少平	《计算机研究与发展》 EI CSCD 北大核心	2014	9	在线阅读下载PDF 职称材料
2	中国中文信息学会2020年“钱伟长中文信息处理科学技术奖”之——认知计算模型驱动的互联网搜索技术及其应用	无刘奕群王小川张敏陈炜鹏马少平许静芳毛佳昕王蟒马为	《中文信息学报》 CSCD 北大核心	2021	1	在线阅读下载PDF 职称材料
3	利用单语数据改进神经机器翻译压缩模型的翻译质量	李响刘洋陈伟刘群	《中文信息学报》 CSCD 北大核心	2019	11	在线阅读下载PDF 职称材料
4	基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化	龚鸣清叶煌张鉴卢兴敬陈伟	《计算机应用》 CSCD 北大核心	2019	10	在线阅读下载PDF 职称材料
5	神经机器翻译中英语单词及其大小写联合预测模型	张楠李响靳晓宁陈伟	《中文信息学报》 CSCD 北大核心	2019	12	在线阅读下载PDF 职称材料
6	面向互联网应用的图像LBP算法GPU并行加速	王香荣高飞李钦刘轶张阔	《计算机工程与科学》 CSCD 北大核心	2013	1	在线阅读下载PDF 职称材料