期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
面向招标文件的半结构化文本自动生成 被引量:1
1
作者 刘金硕 刘宁 《计算机工程》 CAS CSCD 北大核心 2023年第3期67-72,共6页
招标文件范本总结了历史招标文件的核心内容。针对现有文本摘要方法无法有效提取文本主题结构、忽略时间特征对文本重要性的影响等问题,提出一种基于多头图注意力网络的半结构化文本自动生成(SGMG)模型。在模型预处理层中,利用BERT预训... 招标文件范本总结了历史招标文件的核心内容。针对现有文本摘要方法无法有效提取文本主题结构、忽略时间特征对文本重要性的影响等问题,提出一种基于多头图注意力网络的半结构化文本自动生成(SGMG)模型。在模型预处理层中,利用BERT预训练模型进行文本嵌入,通过白化操作增强文本向量的表达能力。在主题抽取模块中,利用异质图建立主题、段落及文档之间的语义关系,应用多头图注意力网络加强图节点之间的交互,提高模型学习能力。在中心句抽取模块中,通过融合时间特征及语义相似关系的有向图计算文本中心性,防止重要时间信息的丢失。在句子选择模块中,结合三元词过滤法,提升生成内容的多样性。将国家能源集团2016年至2020年的招标文件作为语料进行实验,结果表明SGMG模型能够有效提取文本主题结构,生成文本内容与人工编制的范本接近,ROUGE-L评估指标相比于TextRank、LexRank等现有文本摘要方法提升了4.3个百分点以上。 展开更多
关键词 文本生成 半结构化文本 主题提取 图注意力网络 异质图
在线阅读 下载PDF
基于PATTree的半结构化文本信息抽取范式研究 被引量:2
2
作者 曹进军 《情报杂志》 CSSCI 北大核心 2007年第7期55-58,共4页
信息抽取器在信息抽取领域是一个很重要的部分,而抽取器的研制通常要依靠抽取规则来实现。以前是利用使用者的使用模式或记录,找出相关的抽取规则。而利用PAT Tree可以直接从半结构化的Web的资料中,找出抽取规则。
关键词 PAT Tree 半结构化文本 信息抽取 范式
在线阅读 下载PDF
基于Boosting的半结构化信息抽取
3
作者 刘椿年 宋霞 《北京工业大学学报》 CAS CSCD 北大核心 2005年第2期199-203,共5页
为了对半结构化文本实现自动抽取信息.介绍了一种基于Boosting算法的信息抽取方法,它能够自动对一个训练例生成规则,将该规则应用于正例集并改变正例集权重分布,找到权重最大的正例生成下一条规则.给出了一种能描述不符合英文词法的词... 为了对半结构化文本实现自动抽取信息.介绍了一种基于Boosting算法的信息抽取方法,它能够自动对一个训练例生成规则,将该规则应用于正例集并改变正例集权重分布,找到权重最大的正例生成下一条规则.给出了一种能描述不符合英文词法的词的模式匹配约束.试验表明:在特征简单的抽取规则学习中,该方法精确度与召回率可达100%.在特征比较复杂的抽取规则学习中,该方法F1评估值也能达到80%以上. 展开更多
关键词 BOOSTING算法 抽取规则 半结构化文本
在线阅读 下载PDF
面向领域的Web文本结构化分析 被引量:2
4
作者 杨春磊 刘念唐 +1 位作者 林雨 邵堃 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期309-314,共6页
为了充分利用领域特征进行Web文本的结构化分析,文章提出了一种面向领域的Web文本结构化分析方法。该方法以领域特征为基础,依据半结构化文本的结构特征和Html文本的层次特性构造Html树;利用本体论的相关思想和方法构建领域本体,从Html... 为了充分利用领域特征进行Web文本的结构化分析,文章提出了一种面向领域的Web文本结构化分析方法。该方法以领域特征为基础,依据半结构化文本的结构特征和Html文本的层次特性构造Html树;利用本体论的相关思想和方法构建领域本体,从Html树中提取有价值的信息;并结合通用词库和领域词库进行结构化分析。实验结果表明,该方法能够很好地实现Web文本的结构化分析。 展开更多
关键词 领域特征 WEB文本 结构化分析 半结构化文本 领域本体
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部