【Antlr】和【Calcite】解析sql对比
1.定位
首先我们需要理解两个工具的定位,他们俩不是同一类工具,只是在解析这一块有小部分交集。
- antlr是指可以根据输入自动生成语法树并可视化的显示出来的开源语法分析器,也就是不仅局限于解析sql,他可以分析任意定义好的语法。
- calciteApache Calcite 是一款开源SQL解析工具, 可以将各种SQL语句解析成抽象语法术AST(Abstract Syntax Tree), 之后通过操作AST就可以把SQL中所要表达的算法与关系体现在具体代码之中
2.扩展性
可以看出来,antlr定位主要在解析方面,只要有语法、词法g4文件,我就可以解析任意的语言,支持面广,扩展性强(但不意味着就易扩展)
而calcite仅服务于sql(部分sql:mysql、oracle等)
3.功能
antlr仅限于解析,就是提取出来字符串中的信息,其余的任何操作都是你需要自己去完善的。
而calcite功能做的全面,已经封装好了很多功能:SQL 解析,SQL 校验,RBO、CBO优化等
4.思路
有了以上的区别,下面就是在实际解析思路上的区别。
首先是关于AST抽象语法树这一块,我们拿到sql时它只是一个字符串,java识别也是一个字符串,除了做一些字符串的操作外我们做不了其他事情。
calcite在对这个字符串进行解析的时候将其封装到了自己的一个抽象语法树中,这个AST抽象语法树是由若干 Select、From、Where、Join等类递归构建的,其父类为SqlNode,即 calcite将
String ————> SqlNode
原本仅仅是一个字符串的sql,calcite将其转化成了SqlNode,那么就可以递归的去访问SqlNode拿到一些内容
但是在之前我写的antlr解析的文章中是在解析的过程中就直接获取血缘关系,calcite为什么还要先将其转化一层。
我的理解是calcite不光光是解析,还有后面的校验和优化,都需要前面的结果做铺垫,所以先把字符串sql转化成SqlNode之后方便后续的操作,也节约了再解析的时间,而且直接对AST抽象语法树访问提取血缘关系也要比解析过程中直接提取简单一些(影响关系和依赖关系)
所以,如果我们要使用antlr去解析血缘关系,推荐是自己封装一套AST语法树(包含Select、From等等语句,把他们的父类抽象出来作为“节点“),然后在解析的时候先把sql解析为自己定义的抽象语法树,之后在对其做一些分析工作。
5.效率
据非官网测试,calcite对sql的解析效率比antlr高