-
题名基于Word模板的复杂文档快速生成方法
被引量:8
- 1
-
-
作者
骆蓉
黄俊
黎茂锋
刘志勤
-
机构
西南科技大学计算机科学与技术学院
-
出处
《计算机应用与软件》
北大核心
2020年第10期57-63,共7页
-
基金
国家自然科学基金面上项目(61672438)
四川省教育厅研究项目(18TD0021)
四川省军民融合研究院开发基金项目(2017SCII0220)。
-
文摘
为了降低生成复杂Word文档的开发难度并减少工作量,提出一种基于Word模板的复杂文档快速生成方法。以Word文档为模板,基于OOXML规范实现Word文档的动态生成,并通过Enjoy模板引擎技术生成主文档部件document.xml,提高了文档生成效率;为解决引入模板引擎造成的模板制作问题,设计一组模板指令,并进行指令规范化以及指令解析处理,开发者可直接通过Word文档生成document.xml文件的Enjoy模板。实验表明,该方法模板制作简单,文档生成效率高,所占内存小,后期维护容易,适用于较大数据量的复杂文档生成,具有较高的实用价值。
-
关键词
文档生成
WORD模板
OOXML规范
Enjoy模板引擎
Enjoy模板自动生成
-
Keywords
Document generation
Word template
OOXML normalization specification
Enjoy template engine
Automatic generation of Enjoy template
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于视觉特征的网页信息抽取方法研究
被引量:6
- 2
-
-
作者
王宪发
郭岩
刘悦
俞晓明
程学旗
-
机构
中国科学院大学计算机与控制学院
中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2019年第5期103-112,共10页
-
基金
国家重点研发计划(2017YFB0803302
2016YFB1000902)
+2 种基金
国家重点基础研究发展计划(973)(2014CB340405)
国家重点基础研究发展计划(973)(2014CB340401)
国家自然科学基金(61433014)
-
文摘
面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显著提升了信息抽取的效率,实验结果验证了这一结论。
-
关键词
视觉特征
网络信息抽取
自动生成模板
-
Keywords
visual features
web extraction
automatic template generation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-