期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
汉语分词技术在信息工程中的应用 被引量:5
1
作者 姜文志 蒋伟俊 范洪达 《信息与电子工程》 2007年第5期385-387,共3页
针对信息自动处理中涉及到的汉语词语切分问题,利用多个成熟的汉语分词技术,采用判定规则为"与"、"或"混合逻辑运算的数据融合方法,构成了一个汉语分词系统并应用于信息自动处理工程中。实际使用表明,判定规则简单... 针对信息自动处理中涉及到的汉语词语切分问题,利用多个成熟的汉语分词技术,采用判定规则为"与"、"或"混合逻辑运算的数据融合方法,构成了一个汉语分词系统并应用于信息自动处理工程中。实际使用表明,判定规则简单有效,分词的正确率达到了99.5%以上。 展开更多
关键词 分词技术 信息工程 数据融合 判定规则
在线阅读 下载PDF
搜索引擎之中文分词技术研究
2
作者 王洪信 何爱元 +1 位作者 陈新 张楠 《信息技术与信息化》 2015年第10期189-190,共2页
近年来,网络发展迅猛,出现了很多新的网络名词,如云计算、虚拟技术和互联网+等,国家也非常重视中国互联网的发展。2015年5月21日互联网金融大会在乌镇召开,共同探讨了"互联网金融+"新机遇与行业发展。在这样一个大数据时代下... 近年来,网络发展迅猛,出现了很多新的网络名词,如云计算、虚拟技术和互联网+等,国家也非常重视中国互联网的发展。2015年5月21日互联网金融大会在乌镇召开,共同探讨了"互联网金融+"新机遇与行业发展。在这样一个大数据时代下,想要准确、快速的获取自己需要的东西显得特别重要,本文就搜索引擎技术的一种核心技术——中文分词技术进行阐述,本文抛砖引玉,旨在与大家共同学习。 展开更多
关键词 中文分词技术 自然语言处理 中文分词算法 中文分词系统
在线阅读 下载PDF
中文信息处理中自动分词技术的研究与展望
3
作者 郭淑妮 《科技创新与应用》 2015年第25期106-106,共1页
当前人们在工作和学习中需使用中文信息处理技术获取自己需要的资源,基于人们需求不断增加,必须提升人们搜索资源的效率,提升中文信息处理相关技术,让中文信息处理与时俱进,满足人们实际需求。中文信息处理包含多种关键技术,为提高信息... 当前人们在工作和学习中需使用中文信息处理技术获取自己需要的资源,基于人们需求不断增加,必须提升人们搜索资源的效率,提升中文信息处理相关技术,让中文信息处理与时俱进,满足人们实际需求。中文信息处理包含多种关键技术,为提高信息处理能力必须多种技术同时发挥作用。中文信息处理自动分词技术是信息处理技术瓶颈,文章就文信息处理自动分词技术展开研究。 展开更多
关键词 中文信息处理技术 自动分词技术 研究
在线阅读 下载PDF
自学习分词算法在科研项目查重系统中的应用 被引量:1
4
作者 胡局新 鞠训光 《科技通报》 北大核心 2013年第6期14-16,19,共4页
分析了几种常见分词算法的优缺点,简述了自动分词算法模型以及其应用领域,基于现有分词算法的局限,提出了一种基于字符串和统计分词算法相结合的自学习分词算法,并将此算法成功应用于科技项目查重系统中,实现便捷、快速、准确的一种有... 分析了几种常见分词算法的优缺点,简述了自动分词算法模型以及其应用领域,基于现有分词算法的局限,提出了一种基于字符串和统计分词算法相结合的自学习分词算法,并将此算法成功应用于科技项目查重系统中,实现便捷、快速、准确的一种有效检测手段,为进一步实现科研项目查重系统更智能化、更科技化打下基础。 展开更多
关键词 自学习 分词技术 查重系统
在线阅读 下载PDF
搜索引擎技术研究
5
作者 阙镭 张亚平 《中山大学学报论丛》 2007年第7期284-286,共3页
智能信息处理是中文信息处理中的重要课题,本文阐述了搜索引擎技术的基本原理,指出了传统搜索引擎技术的缺点,展望了未来搜索引擎的技术创新。
关键词 网络蜘蛛 分词技术 智能搜索
在线阅读 下载PDF
基于历史事故案例的瓦斯爆炸情景要素提取及情景构建方法研究
6
作者 国汉君 赵伟 +4 位作者 宋亚楠 郭小芳 赵志虎 周爱桃 王凯 《矿业安全与环保》 CAS 北大核心 2024年第3期43-49,共7页
为深入探究煤矿瓦斯爆炸事故发展规律,提出一种基于中文分词技术对瓦斯爆炸事故情景要素进行分析和提取的方法。通过煤矿安全网等途径搜集统计了1978—2020年间的733起瓦斯爆炸事故报告,在此基础上进行数据预处理,剔除不完整的事故报告... 为深入探究煤矿瓦斯爆炸事故发展规律,提出一种基于中文分词技术对瓦斯爆炸事故情景要素进行分析和提取的方法。通过煤矿安全网等途径搜集统计了1978—2020年间的733起瓦斯爆炸事故报告,在此基础上进行数据预处理,剔除不完整的事故报告,最终选取255起瓦斯爆炸事故报告进行要素分析与提取;将事故等级、事故经过、事故原因等内容进行整理储存,形成待挖掘文本语料库;基于Jieba分词算法提取瓦斯爆炸事故情景关键词,并采用TF-IDF算法进行权重计算,将情景划分为事故体、致灾体、承灾体、抗灾体4个维度和24个要素,为后续瓦斯爆炸事故的情景表示和事故未来的可能性组合提供了参考依据。 展开更多
关键词 安全工程 瓦斯爆炸 情景分析 中文分词 Jieba分词技术
在线阅读 下载PDF
军用词典库的设计 被引量:2
7
作者 姜文志 蒋伟俊 +1 位作者 张金乙 王迪 《兵工自动化》 2007年第8期50-51,65,共3页
军用词典库的设计,关键是对装备有词类进行"类分"和"组分"。其数据结构由常用的位置代码改为父级代码,同时记录本层次的代码。词处理模块选用中科院的多层隐马模型分词系统ICTCLAS及哈工大的统计分词系统HIT_IRLab... 军用词典库的设计,关键是对装备有词类进行"类分"和"组分"。其数据结构由常用的位置代码改为父级代码,同时记录本层次的代码。词处理模块选用中科院的多层隐马模型分词系统ICTCLAS及哈工大的统计分词系统HIT_IRLab,并设计判决器及其判决规则。理论值和实际统计所得数据仿真比较表明,该词典库有利于提高装备信息管理的自动化水平。 展开更多
关键词 军用词典库 词类 数据结构 分词技术 判决规则
在线阅读 下载PDF
异构并行的DGA域名检测方法 被引量:1
8
作者 温雪岩 焦燕 +1 位作者 郭云飞 赵玉茗 《中国电子科学研究院学报》 北大核心 2023年第10期957-967,共11页
现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此... 现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此外对于较难检测的基于单词的DGA域名可以进行针对性处理。因此,文中提出了一种基于Word ninja分词技术的三路异构并行的DGA域名检测模型。先将域名分为三类,再针对每一类进行检测模型结构的搭建。对于字符级域名,通过人工提取特征来进行域名的有效分类。对于词根词缀级域名,采用FastTest进行子词之间、字符之间以及上下文之间关系的特征提取,再作为词向量嵌入。对于单词级域名,采用Word2Vec理解和处理词的含义和词之间的关系。最后,将文中方法和当前流行方法、多路异构并行模型和单路模型的检测结果进行比较评估,实验结果证明了提前分类的必要性以及多路并行的有效性。 展开更多
关键词 深度学习 恶意域名 机器学习 门控循环单元网络 词向量嵌入 Word ninja分词技术
在线阅读 下载PDF
文本挖掘中的特征表示及聚类方法 被引量:6
9
作者 胥桂仙 许建潮 +1 位作者 连远锋 李昱翠 《吉林工学院学报(自然科学版)》 2002年第3期12-15,共4页
文本挖掘中特征表示函数的选择影响到特征词表达文本的能力 ,文中设计的评判函数可以比较准确地表达特征词的重要程度。采用K邻近算法对文本集进行聚类 。
关键词 特征表示 文本挖掘 分词技术 文本聚类 K邻近算法 特征提取 自然语言处理
在线阅读 下载PDF
基于大数据分析挖掘的地质文献推荐方法研究 被引量:10
10
作者 张戈一 胡博然 +2 位作者 常力恒 朱月琴 吕鹏飞 《中国矿业》 北大核心 2017年第9期92-97,共6页
地质图书馆书籍多,数据资料庞大,然而却存在数据资料增长过快和难以发现读者兴趣点的问题。实现高效的图书馆借阅数据挖掘分析与推荐,是提高效率的重要手段。为此本文提出了基于大数据地质文献分析挖掘平台,包括聚类分析,中文分词,推荐... 地质图书馆书籍多,数据资料庞大,然而却存在数据资料增长过快和难以发现读者兴趣点的问题。实现高效的图书馆借阅数据挖掘分析与推荐,是提高效率的重要手段。为此本文提出了基于大数据地质文献分析挖掘平台,包括聚类分析,中文分词,推荐系统,关联分析功能,再通过Hadoop集群多节点进行推荐,从而提高了工作的效率。 展开更多
关键词 大数据技术 分词技术 推荐系统 并行计算
在线阅读 下载PDF
基于移动流量的用户偏好模型设计与实现 被引量:1
11
作者 冯劲苗 张恩海 +1 位作者 王铎 洪满 《信息技术》 2016年第9期107-110,共4页
在智能手机市场快速发展的同时,也产生了大量的移动数据流量。这些流量反映了人们在手机上的浏览情况和个人喜好。文中使用DPI&DFI技术解析客户端使用流量情况,使用网络爬虫技术及分词技术解析网页访问信息,最后汇总整合解析出的流... 在智能手机市场快速发展的同时,也产生了大量的移动数据流量。这些流量反映了人们在手机上的浏览情况和个人喜好。文中使用DPI&DFI技术解析客户端使用流量情况,使用网络爬虫技术及分词技术解析网页访问信息,最后汇总整合解析出的流量数据信息。以数据信息为输入建立偏好模型,计算得到用户对每一类业务的喜爱程度分数。将分数汇总列为用户偏好清单,以用户手机号为标识,各个分类的得分为内容。将此结果用于对移动用户的流量经营,为用户提供符合其流量使用偏好的推荐内容,提升流量规模和收入。 展开更多
关键词 移动数据流量 网络爬虫 分词技术 偏好模型 个性推荐
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部