期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多层面文体特征的博客作者身份识别研究 被引量:16
1
作者 祁瑞华 杨德礼 +1 位作者 郭旭 刘彩虹 《情报学报》 CSSCI 北大核心 2015年第6期628-634,共7页
传统的文体风格特征模型不适用于当前大量涌现的网络文本。本文针对以博客为代表的网络文本篇幅短小、表达方式丰富灵活的特点,以内容无关为原则,分别抽取字符特征、词汇特征、句法特征和文本布局等特征,建立了由词汇特征、浅层句法... 传统的文体风格特征模型不适用于当前大量涌现的网络文本。本文针对以博客为代表的网络文本篇幅短小、表达方式丰富灵活的特点,以内容无关为原则,分别抽取字符特征、词汇特征、句法特征和文本布局等特征,建立了由词汇特征、浅层句法特征、深层句法特征和结构特征组成的多层面文体风格特征模型,并选取朴素贝叶斯、决策树、序列最小优化支持向量机和大规模线性分类支持向量机算法在公开博客语料上进行对照实验。实验结果验证了各个层面特征在作者身份识别中的作用,表明了本文方法的准确性、通用性及其在短文本上的鲁棒性。 展开更多
关键词 文体特征 博客 作者身份
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部