ReDE:一个基于正则表达式的生物数据抽取方法被引量：8

ReDE: A Regular Expression-Based Method for Extracting Biological Data

在线阅读下载PDF

导出

摘要从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量·基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系数据库模式生成算法和通用抽取与组装算法,其特点是:RE是惟一的元数据,易于管理和维护·该方法奠定了生物数据库辅助设计工具和高自动化抽取工具的基础,已用于构建国内第1个整合的生物信息在线数据仓库· Extracting data from heterogeneous biological data sources to build a query and analysis platform for biological scientists is currently a hot research topic. In general, data extraction process concerns many interdependent metadata. Making full use of dependencies among metadata to generate one metadata from another can reduce metadata maintenance overhead. However, many data extraction methods overlook these dependencies and require much effort to construct and maintain many metadata. In this paper, a regular expression （RE） based method named as ReDE is proposed to avoid this drawback： by building a parse tree for RE groups, an RE-based algorithm for generating relational database scheme and a general data extraction and assembling algorithm are designed. The novelty is that the RE is the only necessary metadata whose management and maintenance are relatively easy. This method can serve as the basis for building a biological database design-aiding tool and a high automatic tool for data extraction, and has been applied to extract data for the first online integrated biological data warehouse of China.

作者邓绪斌朱扬勇

机构地区浙江财经学院信息学院复旦大学计算机与信息技术系

出处《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2184-2191,共8页 Journal of Computer Research and Development

基金国家"八六三"高技术研究发展计划基金项目(2002AA231011) 上海市重大科技基金项目(02DJ14013)

关键词生物数据源数据抽取元数据正则表达式抽取算法 biological data source data extraction metadata regular expression extraction algorithm

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

作者简介 xbdeng@fudan．edu．cn。邓绪斌，1964年生，博士，讲师，主要研究方向为数据库、数据挖掘、生物信息学．朱扬勇，1963年生，教授，博士生导师，主要研究方向为数据库与知识库、数据挖掘、生物信息学．

引文网络
相关文献

参考文献10

1H. Do, E. Rahm. Flexible integration of molecular-biological annotation data: The GenMapper approach. In: Proc. 9th Int'l Conf. Extending Database Technology. Berlin: Springer-Verlag,2004. 811-822.
2S. K. Ng, L. Wong. Accomplishments and challenges in bioinformatics. IEEE IT Pro, 2004, 6(1): 12-18.
3A.H.F. Laender, A. S. da Silva, B. Ribeiro-Neto, et al. The Debye environment for Web data management. IEEE Internet Computing, 2002, 6(4): 60-69.
4A.H.F. Laender, B. Ribeiro-Neto, A. S. da Silva. DEByE:Data extraction by example. Data and Knowledge Engineering,2002, 40(2): 121-154.
5B. Adelberg. NoDoSE: A tool for semi-automatically extracting structured and semistructured data from text documents. In:Proc. ACM SIGMOD Conf. Management of Data. New York:ACM Press, 1998. 283-294.
6胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
7V. Crescenzi, G. Mecca, P. Merialdo. RoadRunner: Towards automatic data extraction from large Web sites. In: Proc. 27th Int'l Conf. Very Large Data Bases. San Francisco: Morgan Kaufmann, 2001. 109-118.
8C.Y. Chan, M. N. Garofalakis, R. Rastogi. RE-Tree: An efficient index structure for regular expressions. VLDB Journal,2003, 12(2): 102-119.
9J. Shanmugasundaram, K. Tufte, C. Zhang, et al. Relational databases for querying XML documents: Limitations and opportunities. In: Proc. 25th Int'l Conf. Very Large Data Bases.San Francisco: Morgan Kaufmann, 1999. 302-314.
10B. Ribeiro-Neto, A. H. F. Laender, A. S. da Silva. Top-down extraction of semi-structured data. In: Proc. 6th Symposium on String Processing and Information Retrieval. Los Alamitos, CA:IEEE Computer Society Press, 1999. 176- 183.

二级参考文献7

1Meng X F, Lu H J, Wang H Y, et al. SG-WRAP: A schemaguided wrapper generator demonstration. In: Proc of ICDE'2002. Los Alamitos, CA: IEEE Computer Society Press, 2002.331 ～332
2Meng X F, Hu D D, Li C. Schema guided wrapper maintenance for Web-data extraction. In: Proc of ACM WIDM' 2003. New York: ACM Press, 2003. 1～8
3Meng X F, Wang H Y, Hu D D, et al. Sg-wram: Schema guided wrapper maintenance. In: Proc of ICDE' 2003. Los Alamitos,CA: IEEE Computer Society Press, 2003. 750～752
4Meng X F, Lu H J, Wang H Y, et al. Schema-guided data extraction from the Web. Journal of Computer Science and Technology, 2002, 17(4): 377～388
5V Crescenzi, G Mecca, P Merialdo. ROADRUNNER: Towards automatic data extraction from large Web sites. In: Proc of VLDB'2001. San Francisco, CA: Morgan Kaufmann, 2001. 109～118
6A Arasu, H Garcia-Molina. Extracting structured data from Web pages. In: Proc of ACM SIGMOD'03. New York: ACM Press,2003. 337～348
7St(e)phane Grumbach, Giansalvatore Mecca. In search of the lost schema. In: Proc of ICDT'1999. Berlin: Springer, 1999. 314～331

共引文献20

1李石君,欧伟杰,简伟,黄河.基于有限状态自动机提取不规范表结构Web信息[J].武汉大学学报（工学版）,2005,38(6):128-132.
2陈海山,吴芸.广义表的二叉链式存储表示及其算法设计[J].计算机工程与应用,2005,41(35):38-41. 被引量：4
3李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
4张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
5贾长云,程永上.HTML表格向XML的智能转换[J].计算机工程,2009,35(14):32-34. 被引量：3
6陈远斌.一种基于扩展DOM树的Web数据自动抽取方法[J].应用科技,2009,36(8):52-55. 被引量：1
7袁鸿雁.基于本体的HTML表格识别技术的研究[J].长春工程学院学报（自然科学版）,2010,11(1):108-110.
8陈洪平,方巍,李林,崔志明.复杂Web页的Wrapper自动化生成技术研究[J].微电子学与计算机,2010,27(4):62-65.
9王宇,谭松波,廖祥文,曾依灵.基于扩展领域模型的有名属性抽取[J].计算机研究与发展,2010,47(9):1567-1573. 被引量：13
10田建伟,李石君.基于层次树模型的Deep Web数据提取方法[J].计算机研究与发展,2011,48(1):94-102. 被引量：14

同被引文献39

1葛汉强,陈和平.Java正则表达式优化[J].计算机系统应用,2008,17(9):102-104. 被引量：4
2钟京馗.JAVA中的正则表达式及其应用[J].电脑编程技巧与维护,2005(6):50-57. 被引量：4
3邓绪斌,朱扬勇.L-Tree Match： A New Data Extraction Model and Algorithm for Huge Text Stream with Noises[J].Journal of Computer Science & Technology,2005,20(6):763-773. 被引量：4
4李冬冬,王正志,倪青山.一种有效的重复序列识别算法[J].生物信息学,2005,3(4):163-166. 被引量：2
5杨树林.正则表达式在网络教学系统中的应用[J].北京印刷学院学报,2005,13(4):18-21. 被引量：3
6王国仁,葛健,徐恒宇,郑若石.基于二分频率变换的序列相似性查询处理技术[J].软件学报,2006,17(2):232-241. 被引量：8
7LI Rong,CAO Shunliang,LI Yuanyuan,TAN Hao,ZHU Yangyong,ZHONG Yang,LI Yixue.A measure of semantic similarity between gene ontology terms based on semantic pathway covering[J].Progress in Natural Science:Materials International,2006,16(7):721-726. 被引量：1
8项润华,段红勇,柳汉雄.正则表达式的使用以及在VC6.0的应用[J].洛阳工业高等专科学校学报,2006,16(5):22-23. 被引量：2
9李伟男,鄂跃鹏,葛敬国,钱华林.多模式匹配算法及硬件实现[J].软件学报,2006,17(12):2403-2415. 被引量：42
10蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5

引证文献8

1朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报,2007,18(11):2766-2781. 被引量：37
2邓绪斌.一种无改写的正则表达式分析树构造算法[J].计算机应用与软件,2007,24(12):65-66. 被引量：2
3宋友,梁士兴,黄璐.通用文本处理方法的研究与设计[J].计算机工程,2010,36(6):1-4. 被引量：3
4姚振军,黄德根,纪翔宇.正则表达式在汉英对照中国文化术语抽取中应用[J].大连理工大学学报,2010,50(2):291-295. 被引量：9
5许光,黄宏志,刘娜.正则表达式在Web数据验证中的优化机制研究[J].计算机与数字工程,2011,39(4):50-52. 被引量：1
6杨雨,胡亚娟,林萍.正则表达式在英语语调统计分析中的应用研究[J].平顶山学院学报,2013,28(5):75-83.
7杨雨,王文虎,胡亚娟,林萍.中原地区英语语调统计分析系统设计与实现[J].计算机与数字工程,2013,41(12):1928-1931.
8周兴旺.正则表达式中的与或非解析[J].计算机光盘软件与应用,2014,17(18):63-63.

二级引证文献52

1黄国贤,周喜.文本模式的结构化描述法[J].福建电脑,2008,24(11):88-89.
2岳晓宁,井元伟.基于DNA序列数据挖掘算法研究[J].生物数学学报,2009,24(2):363-368. 被引量：7
3孙高飞,王瑞平.面向对象的表达式解析算法框架研究与实现[J].现代计算机,2009,15(10):151-155. 被引量：1
4冯玉才,蒋涛,李国徽,朱虹.高效时序相似搜索技术[J].计算机学报,2009,32(11):2107-2122. 被引量：10
5何宏,谭永红.基于计算智能的基因表达数据聚类分析研究进展[J].信息与控制,2009,38(6):743-751. 被引量：2
6朱扬勇,戴东波,熊赟.序列数据相似性查询技术研究综述[J].计算机研究与发展,2010,47(2):264-276. 被引量：13
7戴东波,汤春蕾,熊赟.基于整体和局部相似性的序列聚类算法[J].软件学报,2010,21(4):702-717. 被引量：18
8戴东波,熊赟,朱扬勇.基于参考集索引的高效序列相似性查找算法[J].软件学报,2010,21(4):718-731. 被引量：7
9梁冰,陈德运.基于蚁群优化聚类算法的DNA序列分类方法[J].计算机工程与应用,2010,46(25):124-126. 被引量：2
10孙汉顺,马文丽,高静宇,孙立哲,郑文岭.HIV整合位点的生物信息学分析[J].生物信息学,2010,8(3):194-197. 被引量：1

1叶国权,宁洪.元仓库与源数据库的元数据同步策略的研究与设计[J].现代电子技术,2010,33(17):146-149. 被引量：1
2叶国权,杨淼淇,贾冬梅.蛋白质组学元数据仓库的管理与维护[J].软件,2012,33(5):17-19. 被引量：1
3陈森博,石振国,王春明.基于本体论的Web知识检索及其应用研究[J].电脑知识与技术,2009,5(6X):4990-4991. 被引量：4
4徐中华.Web信息抽取方法概述[J].经营管理者,2008(9X):169-170. 被引量：1
5段建勇,魏晓亮,张梅,徐骥超.基于网络日志的用户兴趣模型构建[J].情报科学,2013,31(9):78-82. 被引量：8
6赵敏.RMA采取措施阻止披露轮胎使用年限[J].轮胎工业,2009,29(9):564-564.
7曹顺良,张忠平,李荣,朱扬勇,李亦学.BioDW——一个生物信息学数据集成系统[J].微计算机应用,2005,26(1):59-62. 被引量：9
8丁建华,彭政,王飞.生物数据仓库研究及应用[J].计算机工程与应用,2005,41(12):192-194. 被引量：9
9戴慧敏,朱艳辉,唐杰.Web信息抽取技术研究[J].科技信息,2013(6):320-320. 被引量：1
10“锐华”嵌入式实时操作系统及开发环境[J].军民两用技术与产品,2012(4):45-45. 被引量：2

计算机研究与发展

2005年第12期

浏览历史

内容加载中请稍等...

ReDE:一个基于正则表达式的生物数据抽取方法被引量：8

参考文献10

二级参考文献7

共引文献20

同被引文献39

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

ReDE:一个基于正则表达式的生物数据抽取方法 被引量：8

参考文献10

二级参考文献7

共引文献20

同被引文献39

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

ReDE:一个基于正则表达式的生物数据抽取方法被引量：8