期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于自然标注的跨平台虚拟账号关联方法研究
1
作者 季铎 敬少杰 +1 位作者 彭如香 孔华锋 《计算机应用与软件》 北大核心 2024年第9期190-194,共5页
随着大数据时代的到来,跨平台虚拟账号的关联成为网络监管领域亟待解决的问题。该文以微博、微信等用户文本数据为研究对象,通过对数据的抽样和人工标注,开展开放式社交平台中跨平台账号自然标注行为的量化分析,并由此提出基于用户自然... 随着大数据时代的到来,跨平台虚拟账号的关联成为网络监管领域亟待解决的问题。该文以微博、微信等用户文本数据为研究对象,通过对数据的抽样和人工标注,开展开放式社交平台中跨平台账号自然标注行为的量化分析,并由此提出基于用户自然标注的跨平台虚拟账号的关联方法。该方法针对自然标注特点,构建基于上下字词特征的虚拟账号识别的模型,并利用二分类的深度学习模型进行昵称和用户的同一认证,最终实现对跨平台虚拟账号的识别,识别准确率达到85%以上。 展开更多
关键词 虚拟账号 自然标注 账号关联
在线阅读 下载PDF
基于用户自然标注的微博文本的消费意图识别 被引量:8
2
作者 付博 陈毅恒 +1 位作者 邵艳秋 刘挺 《中文信息学报》 CSCD 北大核心 2017年第4期208-215,共8页
消费意图是指用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,如"想买一部手机"。该文针对微博上的消息文本,提出一种基于用户自然标注的微博消费意图识别方法。该方法将微博消费意图识别看作为领域自适应学习... 消费意图是指用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,如"想买一部手机"。该文针对微博上的消息文本,提出一种基于用户自然标注的微博消费意图识别方法。该方法将微博消费意图识别看作为领域自适应学习问题,通过自动获取的训练语料基于源域和目标域共同特征设计分类器,抽取置信度高的伪标注消费意图微博,再利用微博特征训练新的分类器对微博进行消费意图识别。实验结果表明该文所采用的方法是有效的,F值达到69%和77%,其中使用的各种特征对于提高消费意图识别的效果皆有帮助。 展开更多
关键词 消费意图 自然标注 社会媒体 领域自适应
在线阅读 下载PDF
基于自然标注信息和隐含主题模型的无监督文本特征抽取 被引量:4
3
作者 饶高琦 于东 荀恩东 《中文信息学报》 CSCD 北大核心 2015年第6期141-149,共9页
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现... 术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。 展开更多
关键词 自然标注信息 自然语块 隐含主题模型 领域特征 文体特征
在线阅读 下载PDF
基于自然标注的网页信息抽取研究 被引量:4
4
作者 李志义 沈之锐 《情报学报》 CSSCI 北大核心 2013年第8期853-859,共7页
随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难。本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法。依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,... 随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难。本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法。依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,然后采用SVM对抽取项进行训练,最后提取到需要抽取的数据。文章的主要贡献在于对网页中的自然标注进行分析和发现,给出了九大类自然标注的例子,并结合聚类和支持向量机,给出了训练方法。从实验结果上看,本方法优于其他方法。 展开更多
关键词 自然标注 信息抽取 聚类 支持向量机 语义
在线阅读 下载PDF
语料库自然标注信息与中文分词应用研究(英文) 被引量:2
5
作者 饶高琦 修驰 荀恩东 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期140-146,共7页
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。... 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。 展开更多
关键词 自然标注信息 中文分词 词语抽取 大规模语料库
在线阅读 下载PDF
基于互联网自然标注资源的自然语言处理 被引量:16
6
作者 孙茂松 《中文信息学报》 CSCD 北大核心 2011年第6期26-32,共7页
该文提出了"基于互联网自然标注资源的自然语言处理"的学术思想,并从自然标注资源的定义和基本类型、基于自然标注资源的计算、方法论层面上的初步思考等三个角度对这一学术思想进行了初步的阐发。最后指出了其中的一个基础问... 该文提出了"基于互联网自然标注资源的自然语言处理"的学术思想,并从自然标注资源的定义和基本类型、基于自然标注资源的计算、方法论层面上的初步思考等三个角度对这一学术思想进行了初步的阐发。最后指出了其中的一个基础问题:如果我们把全部自然标注资源所能提供的全部信息或知识都以一种系统的方式用到了极致,并且把它们最大限度地有机集成起来,机器能否如愿以偿地获得对自然语言一定深度的理解呢? 展开更多
关键词 自然标注资源 用户产生数据 互联网 自然语言处理
在线阅读 下载PDF
医学论文国家自然科学基金标注不端行为现状分析及对策 被引量:6
7
作者 苟莉 《医学与哲学》 北大核心 2021年第19期30-33,共4页
以某医学期刊出版社9本中文期刊2020年刊载的559项国家自然科学基金资助的426篇论文作为研究对象,对虚构标注、擅自标注、无关标注、不当标注4种基金标注不端行为进行分析。医学论文中最普遍和最严重的国家自然科学基金标注不端行为是... 以某医学期刊出版社9本中文期刊2020年刊载的559项国家自然科学基金资助的426篇论文作为研究对象,对虚构标注、擅自标注、无关标注、不当标注4种基金标注不端行为进行分析。医学论文中最普遍和最严重的国家自然科学基金标注不端行为是无关标注,占比为50.47%;擅自标注占比为9.62%,虚构标注占比为4.93%,不当标注的两种表现形式分别占比为7.04%和6.57%;仅152篇论文(35.68%)中的181项国家自然科学基金(32.38%)标注合理可信。医学期刊出版单位必须重视并主动作为,采取措施积极行使科研诚信监督之责,才能有效改变学术论文基金标注不端行为现状,助力学术出版伦理建设,促进学术出版生态净化。 展开更多
关键词 医学论文 国家自然科学基金标注 不端行为 科研诚信监督 学术出版伦理
在线阅读 下载PDF
马来语领域多词组无监督识别
8
作者 王琳 刘伍颖 《中国科学技术大学学报》 CAS CSCD 北大核心 2019年第7期517-523,共7页
多词组是一种优化的语言复用粒度.,由于一些非通用语言的多词组与词之间缺乏显式形态边界,导致多词组自动识别困难.针对马来语领域多词组识别问题,提出一种基于自然标注的无监督抽取与聚类算法.算法首先采用空格符二值分类实现变长马来... 多词组是一种优化的语言复用粒度.,由于一些非通用语言的多词组与词之间缺乏显式形态边界,导致多词组自动识别困难.针对马来语领域多词组识别问题,提出一种基于自然标注的无监督抽取与聚类算法.算法首先采用空格符二值分类实现变长马来语多词组抽取;然后将文档级的自然类别标注迁移到多词组级类别聚类;最后过滤掉通用多词组,萃取多个领域多词组数据集.在272 783马来语文本文档数据集上的实验结果表明,提出的算法不但能够精准地抽取多词组,而且能够高效地实现多词组领域词典聚类. 展开更多
关键词 无监督识别 多词组 领域词典 自然标注 马来语
在线阅读 下载PDF
Improved hidden Markov model for speech recognition and POS tagging 被引量:4
9
作者 袁里驰 《Journal of Central South University》 SCIE EI CAS 2012年第2期511-516,共6页
In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language proc... In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language processing. The speaker independently continuous speech recognition experiments and the part-of-speech tagging experiments show that Markov family model has higher performance than hidden Markov model. The precision is enhanced from 94.642% to 96.214% in the part-of-speech tagging experiments, and the work rate is reduced by 11.9% in the speech recognition experiments with respect to HMM baseline system. 展开更多
关键词 hidden Markov model Markov family model speech recognition part-of-speech tagging
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部