针对开源情报分析中网页信息提取问答问题,提出一种融合生成式大语言模型(Large Language Model,LM)、XPath与检索增强生成(Retrieval-Augmented Generation,RAG)的方法,涉及动态模板化提示策略与多粒度语义检索。动态模板基于情报类型...针对开源情报分析中网页信息提取问答问题,提出一种融合生成式大语言模型(Large Language Model,LM)、XPath与检索增强生成(Retrieval-Augmented Generation,RAG)的方法,涉及动态模板化提示策略与多粒度语义检索。动态模板基于情报类型生成领域知识约束提示,提升实体提取精度;多粒度检索构建文档-段落-实体三级体系,结合BERT-Topk算法优化长文本信息定位。通过OpenKG知识库对齐实体构建属性-关系-事件三维网络,增强复杂事件逻辑分析。该方法在ClueWeb22与TAC-KBP2022数据集上的提取率为0.85,回答准确率为0.78,相比传统RAG,性能提升18%~31%。实际应用中,热点事件简报关键事实准确率达92%,综合成本仅为GPT-4的12%。展开更多
文摘针对开源情报分析中网页信息提取问答问题,提出一种融合生成式大语言模型(Large Language Model,LM)、XPath与检索增强生成(Retrieval-Augmented Generation,RAG)的方法,涉及动态模板化提示策略与多粒度语义检索。动态模板基于情报类型生成领域知识约束提示,提升实体提取精度;多粒度检索构建文档-段落-实体三级体系,结合BERT-Topk算法优化长文本信息定位。通过OpenKG知识库对齐实体构建属性-关系-事件三维网络,增强复杂事件逻辑分析。该方法在ClueWeb22与TAC-KBP2022数据集上的提取率为0.85,回答准确率为0.78,相比传统RAG,性能提升18%~31%。实际应用中,热点事件简报关键事实准确率达92%,综合成本仅为GPT-4的12%。
基金Supported by the National Natural Science Foundation of China under Grant Nos.60621062,60503064,60736044(国家自然科学基金)the National Basic Research Program of China under Grant No.2004CB318108(国家重点基础研究发展计划(973))the National High-Tech Research and Development Plan of China under Grant No.2006AA01Z141(国家高技术研究发展计划(863))