The idea of positional inverted index is exploited for indexing of graph database. The main idea is the use of hashing tables in order to prune a considerable portion of graph database that cannot contain the answer s...The idea of positional inverted index is exploited for indexing of graph database. The main idea is the use of hashing tables in order to prune a considerable portion of graph database that cannot contain the answer set. These tables are implemented using column-based techniques and are used to store graphs of database, frequent sub-graphs and the neighborhood of nodes. In order to exact checking of remaining graphs, the vertex invariant is used for isomorphism test which can be parallel implemented. The results of evaluation indicate that proposed method outperforms existing methods.展开更多
中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi...中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。展开更多
钻井顶部驱动装置结构复杂、故障类型多样,现有的故障树分析法和专家系统难以有效应对复杂多变的现场情况。为此,利用知识图谱在结构化与非结构化信息融合、故障模式关联分析以及先验知识传递方面的优势,提出了一种基于知识图谱的钻井...钻井顶部驱动装置结构复杂、故障类型多样,现有的故障树分析法和专家系统难以有效应对复杂多变的现场情况。为此,利用知识图谱在结构化与非结构化信息融合、故障模式关联分析以及先验知识传递方面的优势,提出了一种基于知识图谱的钻井顶部驱动装置故障诊断方法,利用以Transformer为基础的双向编码器模型(Bidirectional Encoder Representations from Transformers,BERT)构建了混合神经网络模型BERT-BiLSTM-CRF与BERT-BiLSTM-Attention,分别实现了顶驱故障文本数据的命名实体识别和关系抽取,并通过相似度计算,实现了故障知识的有效融合和智能问答,最终构建了顶部驱动装置故障诊断方法。研究结果表明:①在故障实体识别任务上,BERT-BiLSTM-CRF模型的精确度达到95.49%,能够有效识别故障文本中的信息实体;②在故障关系抽取上,BERT-BiLSTM-Attention模型的精确度达到93.61%,实现了知识图谱关系边的正确建立;③开发的问答系统实现了知识图谱的智能应用,其在多个不同类型问题上的回答准确率超过了90%,能够满足现场使用需求。结论认为,基于知识图谱的故障诊断方法能够有效利用顶部驱动装置的先验知识,实现故障的快速定位与智能诊断,具备良好的应用前景。展开更多
自然语言处理是实现人机交互的关键步骤,而汉语自然语言处理(Chinese natural language processing,CNLP)是其中的重要组成部分。随着大模型技术的发展,CNLP进入了一个新的阶段,这些汉语大模型具备更强的泛化能力和更快的任务适应性。然...自然语言处理是实现人机交互的关键步骤,而汉语自然语言处理(Chinese natural language processing,CNLP)是其中的重要组成部分。随着大模型技术的发展,CNLP进入了一个新的阶段,这些汉语大模型具备更强的泛化能力和更快的任务适应性。然而,相较于英语大模型,汉语大模型在逻辑推理和文本理解能力方面仍存在不足。介绍了图神经网络在特定CNLP任务中的优势,进行了量子机器学习在CNLP发展潜力的调查。总结了大模型的基本原理和技术架构,详细整理了大模型评测任务的典型数据集和模型评价指标,评估比较了当前主流的大模型在CNLP任务中的效果。分析了当前CNLP存在的挑战,并对CNLP任务的未来研究方向进行了展望,希望能帮助解决当前CNLP存在的挑战,同时为新方法的提出提供了一定的参考。展开更多
针对紧急插单事件的动态作业车间调度问题,以最小化所有工件的提前与延迟完工时间为目标,创建了动态作业车间环境模型。将调度问题转换为马尔可夫过程,并采用结合图神经网络的DDQN(double deep Q-network,DDQN)深度强化学习算法进行求...针对紧急插单事件的动态作业车间调度问题,以最小化所有工件的提前与延迟完工时间为目标,创建了动态作业车间环境模型。将调度问题转换为马尔可夫过程,并采用结合图神经网络的DDQN(double deep Q-network,DDQN)深度强化学习算法进行求解。通过图神经网络对车间状态析取图做特征提取从而避免状态定义依赖人工经验设计的问题,引入了注意力机制能够增强强化学习智能体对状态信息的获取能力,并将六组规则调度作为智能体的决策空间,定义了全新的奖励方法,加强其对智能体学习的指导能力。通过多组对照实验说明了所构建的求解模型的有效性和可行性。展开更多
乙烯工业不同的裂解装置间存在着设备、技术上的差别,每一种原料在乙烯工厂不同炉型或工艺的裂解装置的乙烯产品收率、能耗也存在着差别。随着新的乙烯工厂的投产,需要同时运行台数众多的差异化裂解装置,从而为通过优化调度乙烯裂解原...乙烯工业不同的裂解装置间存在着设备、技术上的差别,每一种原料在乙烯工厂不同炉型或工艺的裂解装置的乙烯产品收率、能耗也存在着差别。随着新的乙烯工厂的投产,需要同时运行台数众多的差异化裂解装置,从而为通过优化调度乙烯裂解原料实现提高物效、降低能耗提供了空间。对于此类工厂间原料调度及能耗优化问题提出了一种基于P-graph的建模和优化方法 (scheduling generation based on P-graph, SGBP算法),该算法通过P-graph本身提取过程结构信息的能力,在加速求解的同时,保留了次优解集。之后以两个实际的乙烯厂为研究实例,采用提出的SGBP方法实现了原料调度的建模和优化,该方法与MINLP优化算法的对比分析验证了提出方法的优势:(1)可以同时提供较为丰富的最优解与次优解方案;(2)提出方法的最优结果与MINLP的优化效果相当;(3)优化后的整体能耗下降明显,为生产计划人员选择可采用灵活的原料调配方案提供了多种可选择的运行方案。展开更多
文摘The idea of positional inverted index is exploited for indexing of graph database. The main idea is the use of hashing tables in order to prune a considerable portion of graph database that cannot contain the answer set. These tables are implemented using column-based techniques and are used to store graphs of database, frequent sub-graphs and the neighborhood of nodes. In order to exact checking of remaining graphs, the vertex invariant is used for isomorphism test which can be parallel implemented. The results of evaluation indicate that proposed method outperforms existing methods.
文摘中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。
文摘钻井顶部驱动装置结构复杂、故障类型多样,现有的故障树分析法和专家系统难以有效应对复杂多变的现场情况。为此,利用知识图谱在结构化与非结构化信息融合、故障模式关联分析以及先验知识传递方面的优势,提出了一种基于知识图谱的钻井顶部驱动装置故障诊断方法,利用以Transformer为基础的双向编码器模型(Bidirectional Encoder Representations from Transformers,BERT)构建了混合神经网络模型BERT-BiLSTM-CRF与BERT-BiLSTM-Attention,分别实现了顶驱故障文本数据的命名实体识别和关系抽取,并通过相似度计算,实现了故障知识的有效融合和智能问答,最终构建了顶部驱动装置故障诊断方法。研究结果表明:①在故障实体识别任务上,BERT-BiLSTM-CRF模型的精确度达到95.49%,能够有效识别故障文本中的信息实体;②在故障关系抽取上,BERT-BiLSTM-Attention模型的精确度达到93.61%,实现了知识图谱关系边的正确建立;③开发的问答系统实现了知识图谱的智能应用,其在多个不同类型问题上的回答准确率超过了90%,能够满足现场使用需求。结论认为,基于知识图谱的故障诊断方法能够有效利用顶部驱动装置的先验知识,实现故障的快速定位与智能诊断,具备良好的应用前景。
文摘自然语言处理是实现人机交互的关键步骤,而汉语自然语言处理(Chinese natural language processing,CNLP)是其中的重要组成部分。随着大模型技术的发展,CNLP进入了一个新的阶段,这些汉语大模型具备更强的泛化能力和更快的任务适应性。然而,相较于英语大模型,汉语大模型在逻辑推理和文本理解能力方面仍存在不足。介绍了图神经网络在特定CNLP任务中的优势,进行了量子机器学习在CNLP发展潜力的调查。总结了大模型的基本原理和技术架构,详细整理了大模型评测任务的典型数据集和模型评价指标,评估比较了当前主流的大模型在CNLP任务中的效果。分析了当前CNLP存在的挑战,并对CNLP任务的未来研究方向进行了展望,希望能帮助解决当前CNLP存在的挑战,同时为新方法的提出提供了一定的参考。
文摘针对紧急插单事件的动态作业车间调度问题,以最小化所有工件的提前与延迟完工时间为目标,创建了动态作业车间环境模型。将调度问题转换为马尔可夫过程,并采用结合图神经网络的DDQN(double deep Q-network,DDQN)深度强化学习算法进行求解。通过图神经网络对车间状态析取图做特征提取从而避免状态定义依赖人工经验设计的问题,引入了注意力机制能够增强强化学习智能体对状态信息的获取能力,并将六组规则调度作为智能体的决策空间,定义了全新的奖励方法,加强其对智能体学习的指导能力。通过多组对照实验说明了所构建的求解模型的有效性和可行性。
文摘乙烯工业不同的裂解装置间存在着设备、技术上的差别,每一种原料在乙烯工厂不同炉型或工艺的裂解装置的乙烯产品收率、能耗也存在着差别。随着新的乙烯工厂的投产,需要同时运行台数众多的差异化裂解装置,从而为通过优化调度乙烯裂解原料实现提高物效、降低能耗提供了空间。对于此类工厂间原料调度及能耗优化问题提出了一种基于P-graph的建模和优化方法 (scheduling generation based on P-graph, SGBP算法),该算法通过P-graph本身提取过程结构信息的能力,在加速求解的同时,保留了次优解集。之后以两个实际的乙烯厂为研究实例,采用提出的SGBP方法实现了原料调度的建模和优化,该方法与MINLP优化算法的对比分析验证了提出方法的优势:(1)可以同时提供较为丰富的最优解与次优解方案;(2)提出方法的最优结果与MINLP的优化效果相当;(3)优化后的整体能耗下降明显,为生产计划人员选择可采用灵活的原料调配方案提供了多种可选择的运行方案。