-
题名基于transformer的工单智能判责方法研究
- 1
-
-
作者
汪加婧
范维
-
机构
中国电信股份有限公司湖北分公司
华中农业大学工学院
-
出处
《高技术通讯》
CAS
2021年第6期660-665,共6页
-
基金
中国电信集团AI项目(ZDGG-2019-03)资助。
-
文摘
在图像、文本、视频、语音以及社交类网络数据爆炸增长的时代,企业如何从海量非结构化数据中提取出有效信息并将之转化为生产效率的提升和流程自动化的实现,是目前迫切需要关注和解决的问题。本文以运营商集团电子工单自动判责场景为切入点,提出使用基于transformer架构的双向编码器表示(BERT)作为文本分类模型,自动收集各省份的反馈信息并进行各省份的工单责任智能判定。通过将BERT模型与LightGBM和Bi-LSTM-Attention模型进行实验对比,结果表明BERT模型对各类别工单的预测准确率均达到了96%以上,具有较好的实际应用效果。
-
关键词
工单智能判责
文本分类
transformer
双向编码器表示(BERT)
-
Keywords
intelligent judgments of the work order responsibility
text categorization
transformer
bidirectional encoder representations from transformer(BERT)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于MacBERT与对抗训练的机器阅读理解模型
被引量:1
- 2
-
-
作者
周昭辰
方清茂
吴晓红
胡平
何小海
-
机构
四川大学电子信息学院
四川省中医药科学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第5期41-50,共10页
-
基金
成都市重大科技应用示范项目(2019-YF09-00120-SN)。
-
文摘
机器阅读理解旨在让机器像人类一样理解自然语言文本,并据此进行问答任务。近年来,随着深度学习和大规模数据集的发展,机器阅读理解引起了广泛关注,但是在实际应用中输入的问题通常包含各种噪声和干扰,这些噪声和干扰会影响模型的预测结果。为了提高模型的泛化能力和鲁棒性,提出一种基于掩码校正的来自Transformer的双向编码器表示(Mac BERT)与对抗训练(AT)的机器阅读理解模型。首先利用Mac BERT对输入的问题和文本进行词嵌入转化为向量表示;然后根据原始样本反向传播的梯度变化在原始词向量上添加微小扰动生成对抗样本;最后将原始样本和对抗样本输入双向长短期记忆(Bi LSTM)网络进一步提取文本的上下文特征,输出预测答案。实验结果表明,该模型在简体中文数据集CMRC2018上的F1值和精准匹配(EM)值分别较基线模型提高了1.39和3.85个百分点,在繁体中文数据集DRCD上的F1值和EM值分别较基线模型提高了1.22和1.71个百分点,在英文数据集SQu ADv1.1上的F1值和EM值分别较基线模型提高了2.86和1.85个百分点,优于已有的大部分机器阅读理解模型,并且在真实问答结果上与基线模型进行对比,结果验证了该模型具有更强的鲁棒性和泛化能力,在输入的问题存在噪声的情况下性能更好。
-
关键词
机器阅读理解
对抗训练
预训练模型
掩码校正的来自transformer的双向编码器表示
双向长短期记忆网络
-
Keywords
machine reading comprehension
Adversarial Training(AT)
pre-trained model
Masked language modeling as correction Bidirectional Encoder Representations from transformers(MacBERT)
Bidirectional Long Short-Term Memory(BiLSTM)network
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于层间融合滤波器与社交神经引文网络的推荐算法
被引量:1
- 3
-
-
作者
杨兴耀
李志林
张祖莲
于炯
陈嘉颖
王东晓
-
机构
新疆大学软件学院
新疆维吾尔自治区气象局新疆兴农网信息中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第11期98-106,共9页
-
基金
新疆维吾尔自治区自然科学基金面上项目(2023D01C17,2022D01C692)
国家自然科学基金(62262064,61862060)
+2 种基金
新疆维吾尔自治区自然科学基金资源共享平台建设项目(PT2323)
新疆气象局引导项目(YD202212)
劳务派遣管理信息化系统(202212140030)。
-
文摘
推荐算法是一种用于解决信息过载问题的方法,引文推荐通过引文上下文能够自动匹配候选论文列表。现有基于神经引文网络模型在引文上下文数据预处理的过程中,存在文本噪声和上下文学习不充分的问题。为此,提出一种基于层间融合滤波器和社交神经引文网络的推荐算法FS-Rec。首先,利用具有层间融合滤波器的BERT模型预处理引文上下文,在频域内从所有频率中提取有意义的特征,缓解引文上下文数据的噪声,同时在频域中对多层信息进行融合,增强上下文表示学习的能力;然后,在引文作者嵌入中引入社交关系,与其他引文信息嵌入通过编码器获得表示,将这些表示与经过BERT预训练的引文上下文表示进行融合,得到最终表示;最后,根据最终表示生成引文文本预测。实验结果表明,相较于现有的上下文引文推荐模型,FS-Rec在2个基准数据集arXivCS和PubMed取得了更高的召回率和平均倒数排名(MMR),证明了模型的有效性。
-
关键词
滤波器
自注意力机制
基于transformer的双向编码器表示
引文推荐
预训练语言模型
-
Keywords
filter
self-attention mechanism
bidirectional encoder representation from transformer
citation recommendation
pre-trained language model
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向行政执法案件文本的事件抽取研究
被引量:1
- 4
-
-
作者
屈潇雅
李兵
温立强
-
机构
对外经济贸易大学信息学院
北京大学软件与微电子学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第9期63-71,共9页
-
基金
科技部国家重点研发计划(2020YFC0833304)。
-
文摘
行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中快速高效地抽取案件职权类型、案发时间、案发地点等结构化信息,可推动行政机关对历史案件信息的利用和智能化执法办案研究。收集整理某城市的真实案例数据,并通过人工标注构建一个行政执法领域的数据集,根据行政执法案件文本的无触发词、文档级、格式不固定等文本特征,提出结合基于Transformer的双向编码器表示(BERT)和基于条件随机场的双向长短期记忆网络(BiLSTM-CRF)模型的两阶段事件抽取方法,通过文本多分类和序列标注依次完成事件类型检测和事件论元抽取任务。实验结果表明,事件类型检测任务的F1值达到99.54%,事件论元抽取任务的F1值达到97.36%,实现了对案件信息的有效抽取。
-
关键词
行政执法案件
事件抽取
两阶段方法
基于transformer的双向编码器表示模型
基于条件随机场的双向长短期记忆网络(BiLSTM-CRF)模型
-
Keywords
administrative law enforcement case
event extraction
two-stage method
Bidirectional Encoder Representations from transformers(BERT)model
Bi-directional Long Short-Term Memory network with Conditional Random Field(BiLSTM-CRF)model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于BERT模型的中文短文本分类算法
被引量:90
- 5
-
-
作者
段丹丹
唐加山
温勇
袁克海
-
机构
南京邮电大学理学院
圣母大学心理学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第1期79-86,共8页
-
基金
南京邮电大学横向科研项目(2018外095)。
-
文摘
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。
-
关键词
中文短文本分类
基于transformer的双向编码器表示
Softmax回归模型
TextCNN模型
word2vec模型
-
Keywords
Chinese short text classification
Bidirectional Encoder Representation from transformer(BERT)
Softmax regression model
TextCNN model
word2vec model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于跨度回归的中文事件触发词抽取
被引量:3
- 6
-
-
作者
赵宇豪
陈艳平
黄瑞章
秦永彬
-
机构
贵州大学公共大数据国家重点实验室
贵州大学计算机科学与技术学院
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2023年第1期95-106,共12页
-
基金
国家自然科学基金(No.62166007)资助。
-
文摘
在中文事件触发词抽取任务中,基于词的模型会受到分词带来的错误,而基于字符的模型则难以捕获触发词的结构信息和上下文语义信息,为此提出了一种基于跨度回归的触发词抽取方法。该方法考虑到句子中特定长度的字符子序列(跨度)可能构成一个事件触发词,用基于Transformer的双向编码器的预训练语言模型获取句子的特征表示,进而生成触发词候选跨度;然后用一个分类器过滤低置信度的候选跨度,通过回归调整候选跨度的边界来准确定位触发词;最后对调整后的候选跨度进行分类得到抽取结果。在ACE2005中文数据集上的实验结果表明:基于跨度回归的方法对触发词识别任务的F1值为73.20%,对触发词分类任务的F1值为71.60%,优于现有模型;并与仅基于跨度的方法进行对比,验证了对跨度边界进行回归调整可以提高事件触发词检测的准确性。
-
关键词
事件抽取
事件触发词
基于transformer的双向编码器
特征表示
跨度表示
回归调整
-
Keywords
event extraction
event trigger word
bidirectional encoder representation from transformer(BERT)
feature representation
span representation
regression adjustment
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名融合BERT语义加权与网络图的关键词抽取方法
被引量:16
- 7
-
-
作者
李俊
吕学强
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第9期89-94,共6页
-
基金
国家自然科学基金(61671070)
国家语委重点科研项目(ZDI135-53)。
-
文摘
结合文档本身的结构信息与外部词语的语义信息,提出一种融合BERT词向量与TextRank的关键词抽取方法。在基于网络图的TextRank方法基础上,引入语义差异性并利用BERT词向量加权方式优化TextRank转移概率矩阵计算过程,同时通过迭代运算对文档中的词语进行综合影响力得分排序,最终提取得分最高的Top N个词语作为关键词。实验结果表明,当选取Top3、Top5、Top7和Top10个关键词时,与基于词向量聚类质心与TextRank加权的关键词抽取方法相比,该方法的平均F值提升了2.5%,关键词抽取效率更高。
-
关键词
关键词抽取
语义关系
词向量
TextRank方法
基于transformer的双向编码器表示
-
Keywords
extraction
semantic relation
word vector
TextRank method
Bidirectional Encoder Representation from transformer(BERT)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-