开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网...开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果.展开更多
文摘开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果.
文摘网络流分类与协议识别是网络管理的前提和必要条件,但是越来越多加密协议的出现,使得传统的流分类方法失效。针对加密协议的协议识别问题,提出了一种融合自动化逆向分析技术和网络消息聚类分析技术的新型分类方法(automatic reverse and message analysis,ARCA)。该方法通过自动化逆向分析技术获得网络协议的结构特征;再利用网络消息聚类分析技术,获得网络协议的交互过程;最后将网络协议的结构特征与交互过程用于加密协议流量的识别和分类检测。该方法不依赖于网络包的内容检测,能够解决协议加密带来的识别问题。通过对多个加密协议(如迅雷、BT、QQ和GTalk等)真实流量的实验,其准确率和召回率分别高于96.9%和93.1%,而且只需要检测流量中0.9%的字节内容即可。因此,ARCA方法能够对各类加密协议流量进行有效和快速的识别。