基于Calcite的SQL血缘解析思路

        <dependency>
            <groupId>org.apache.calcite</groupId>
            <artifactId>calcite-core</artifactId>
            <version>1.29.0</version>
        </dependency>

SqlNode

网上很多的写法例如ConfigBuilder这种已经废弃了，尽量参考calcite源码中SqlParseTest中的方法：

@Test
    public void testnormal() throws Exception{
        String sql = "select a from t1";

        SqlParser sqlParser = getSqlParser(sql, null);

        SqlNode sqlNode = sqlParser.parseStmt();

        System.out.println(sqlNode.toString());
    }

    public SqlParser getSqlParser(String sql, SqlDialect sqlDialect) {
        return getSqlParser(new SourceStringReader(sql), getTransform(sqlDialect));
    }

    protected SqlParser getSqlParser(Reader source,
                                     UnaryOperator<SqlParser.Config> transform) {
        final SqlParser.Config configBuilder =
                SqlParser.config()
                        .withParserFactory(parserImplFactory());
        final SqlParser.Config config = transform.apply(configBuilder);
        return SqlParser.create(source, config);
    }

    private static UnaryOperator<SqlParser.Config> getTransform(SqlDialect dialect) {
        return dialect == null ? UnaryOperator.identity() : dialect::configureParser;
    }

    protected SqlParserImplFactory parserImplFactory() {
        return SqlParserImpl.FACTORY;
    }

递归遍历SqlNode

这里只举个例子：

public static List<String> getDependencies(SqlNode sqlNode, List<String> result) throws SqlParseException {
        if (sqlNode.getKind() == JOIN) {
            SqlJoin sqlKind = (SqlJoin) sqlNode;
            System.out.println("-----join");
            getDependencies(sqlKind.getLeft(), result);
            getDependencies(sqlKind.getRight(), result);
        }


        if (sqlNode.getKind() == IDENTIFIER) {
            System.out.println("-----identifier");
            result.add(sqlNode.toString());
        }


        if (sqlNode.getKind() == INSERT) {
            SqlInsert sqlKind = (SqlInsert) sqlNode;
            System.out.println("-----insert");

            getDependencies(sqlKind.getSource(), result);
        }


        if (sqlNode.getKind() == SELECT) {
            SqlSelect sqlKind = (SqlSelect) sqlNode;
            System.out.println("-----select");
            getDependencies(sqlKind.getFrom(), result);
        }

        if (sqlNode.getKind() == AS) {
            SqlBasicCall sqlKind = (SqlBasicCall) sqlNode;
            System.out.println("----as");
            getDependencies(sqlKind.getOperandList().get(0), result);
        }

        if (sqlNode.getKind() == UNION) {
            SqlBasicCall sqlKind = (SqlBasicCall) sqlNode;
            System.out.println("----union");

            getDependencies(sqlKind.getOperandList().get(0), result);
            getDependencies(sqlKind.getOperandList().get(1), result);

        }

        if (sqlNode.getKind() == ORDER_BY) {
            SqlOrderBy sqlKind = (SqlOrderBy) sqlNode;
            System.out.println("----order_by");
            getDependencies(sqlKind.getOperandList().get(0), result);
        }

        return result;
    }

第一次传入的sqlNode就是很节点，这里的result集合是记录源表表名的，这里建议大家去打个断点debug一下sqlNode，往里面扒一扒，你就能搞明白calcite构建sqlNode的一个逻辑了

所以这里要强调的是，Calcite对SqlNode的构建是一个递归的构建，我们对sqlNode语法树的解析是一个从外到内、从左向右的一个先序深度遍历，这点和antlr不同，要额外注意。（这一块也确实比较费脑子）

校验

以上只是对一条sql一个基本解析，并没有校验，对于select *这种我们无法得知 里的内容，所以校验阶段就是根据已经有的元数据去校验该sql语句是否合法（表、字段名存不存在），最重要的一点是它会把 替换为该表的所有字段名，之后我们再重复上述解析即可：


public class TestOne {
    public static class TestSchema {
        public final Triple[] rdf = {new Triple("s", "p", "o")};
    }

    public static void main(String[] args) {
        SchemaPlus schemaPlus = Frameworks.createRootSchema(true);

        //给schema T中添加表
        schemaPlus.add("T", new ReflectiveSchema(new TestSchema()));
        Frameworks.ConfigBuilder configBuilder = Frameworks.newConfigBuilder();
        //设置默认schema
        configBuilder.defaultSchema(schemaPlus);

        FrameworkConfig frameworkConfig = configBuilder.build();

        SqlParser.ConfigBuilder paresrConfig = SqlParser.configBuilder(frameworkConfig.getParserConfig());

        //SQL 大小写不敏感
        paresrConfig.setCaseSensitive(false).setConfig(paresrConfig.build());

        Planner planner = Frameworks.getPlanner(frameworkConfig);

        SqlNode sqlNode;
        RelRoot relRoot = null;
        try {
            //parser阶段
            sqlNode = planner.parse("select \"a\".\"s\", count(\"a\".\"s\") from \"T\".\"rdf\" \"a\" group by \"a\".\"s\"");
            //validate阶段
            planner.validate(sqlNode);
            //获取RelNode树的根
            relRoot = planner.rel(sqlNode);
        } catch (Exception e) {
            e.printStackTrace();
        }

        RelNode relNode = relRoot.project();
        System.out.print(RelOptUtil.toString(relNode));
    }
}
public class Triple {
    public String s;
    public String p;
    public String o;

    public Triple(String s, String p, String o) {
        super();
        this.s = s;
        this.p = p;
        this.o = o;
    }

}

Meta接口

除了我们自己手动递归sqlNode以外，我们也可以通过Meta接口下的相关API来获取sql的血缘：
（待补充）

自定义sql解析

这个主要是针对原有parse.jj中可能并没有处理我们特殊sql语句的关键字，我们需要对其扩展补充，来实现自定义sql解析，具体可以看我们最上面放的连接，calcite-test里有现成的自定义解析sql代码，但是要注意最新的calcite-core有不少改动，不能完全按照它里面的思路写

最后修改：2024 年 08 月 19 日

2 条评论

xyl
June 19th, 2023 at 06:10 pm

求更新 ∠( ᐛ 」∠)＿

回复
snake_chen
February 15th, 2023 at 04:44 pm

meta接口怎么用

回复

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

RabZhu
我现在解析了血缘关系，再把血缘关系写入到哪种数据库中，我在想有...
llhqiqi520
该评论仅登录用户及评论双方可见
llhqiqi520
现在升到1.8.0了,谷歌邮箱一直失败过不了,我也用QQ邮箱了...
llhqiqi520
哈哈哈,我是顺序看下来的,你在22年就不用啦,此外,评论邮箱提...
llhqiqi520
github的萌卜兔美化插件已经断更很久啦,现在直接在GitH...

基于Calcite的SQL血缘解析思路

皆非 • 2022 年 01 月 23 日

本文内容已过期，请移步至<span class="external-link"><a class="no-external-link" href="https://www.makeyourchoice.cn/archives/568/" target="_blank"><i data-feather="external-link"></i>“从事SQL血缘解析一年后，谈谈我对它的理解”</a></span>
</div></p>
<blockquote>
<p>上一篇介绍完了基于Antlr的sql血缘解析，这一篇我来说一说基于Calcite的</p>
</blockquote>
<h1>简介</h1>
<p>Apache Calcite 是一款开源SQL解析工具, 可以将各种SQL语句解析成抽象语法语法树AST(Abstract Syntax Tree), 之后通过操作AST就可以把SQL中所要表达的算法与关系体现在具体代码之中。</p>
<p><span class="external-link"><a class="no-external-link" href="https://www.makeyourchoice.cn/archives/568/" target="_blank"><i data-feather="external-link"></i>calcite常用类介绍，和解析流程</a></span></p>
<p><span class="external-link"><a class="no-external-link" href="https://mp.weixin.qq.com/mp/homepage?__biz=MzI3MDU3OTc1Nw==&amp;hid=6&amp;sn=573b51439d7f9b0662c54462490df5c2" target="_blank"><i data-feather="external-link"></i>calcite自定义driver、sql、优化等详解</a></span></p>
<p>以下两个github有不少calcite的test，可以参考，但是由于calcite版本比较老，所以一些代码已经废弃：</p>
<p><span class="external-link"><a class="no-external-link" href="https://github.com/yuqi1129/calcite-test" target="_blank"><i data-feather="external-link"></i>calcite-test</a></span></p>
<p><span class="external-link"><a class="no-external-link" href="https://github.com/quxiucheng/apache-calcite-tutorial" target="_blank"><i data-feather="external-link"></i>Calcite中文学习文档</a></span></p>
<h1>基本使用</h1>
<p>我们直入正题：</p>
<h2>解析</h2>
<p>我们先将sql语句解析为语法树，根节点为SqlNode（你可以类比为antlr的RuleText）</p>
<p>SqlNode.getKind()可以获得当前节点是哪种节点，例如SELECT、INSERT、JOIN、AS等等</p>
<p>如果你会看antlr的解析树，其实你debug SqlNode的结构时其实差不多，都是一级一级往下找</p>
<p>先上代码：</p>
<h3>依赖</h3>
<pre><code class="language-xml">        &lt;dependency&gt;
            &lt;groupId&gt;org.apache.calcite&lt;/groupId&gt;
            &lt;artifactId&gt;calcite-core&lt;/artifactId&gt;
            &lt;version&gt;1.29.0&lt;/version&gt;
        &lt;/dependency&gt;</code></pre>
<h3>SqlNode</h3>
<p>网上很多的写法例如ConfigBuilder这种已经废弃了，尽量参考calcite源码中SqlParseTest中的方法：</p>
<pre><code class="language-java">@Test
    public void testnormal() throws Exception{
        String sql = "select a from t1";

SqlParser sqlParser = getSqlParser(sql, null);

SqlNode sqlNode = sqlParser.parseStmt();

System.out.println(sqlNode.toString());
    }

public SqlParser getSqlParser(String sql, SqlDialect sqlDialect) {
        return getSqlParser(new SourceStringReader(sql), getTransform(sqlDialect));
    }

protected SqlParser getSqlParser(Reader source,
                                     UnaryOperator&lt;SqlParser.Config&gt; transform) {
        final SqlParser.Config configBuilder =
                SqlParser.config()
                        .withParserFactory(parserImplFactory());
        final SqlParser.Config config = transform.apply(configBuilder);
        return SqlParser.create(source, config);
    }

private static UnaryOperator&lt;SqlParser.Config&gt; getTransform(SqlDialect dialect) {
        return dialect == null ? UnaryOperator.identity() : dialect::configureParser;
    }

protected SqlParserImplFactory parserImplFactory() {
        return SqlParserImpl.FACTORY;
    }</code></pre>
<h3>递归遍历SqlNode</h3>
<p>这里只举个例子：</p>
<pre><code class="language-java">public static List&lt;String&gt; getDependencies(SqlNode sqlNode, List&lt;String&gt; result) throws SqlParseException {
        if (sqlNode.getKind() == JOIN) {
            SqlJoin sqlKind = (SqlJoin) sqlNode;
            System.out.println("-----join");
            getDependencies(sqlKind.getLeft(), result);
            getDependencies(sqlKind.getRight(), result);
        }

if (sqlNode.getKind() == IDENTIFIER) {
            System.out.println("-----identifier");
            result.add(sqlNode.toString());
        }

if (sqlNode.getKind() == INSERT) {
            SqlInsert sqlKind = (SqlInsert) sqlNode;
            System.out.println("-----insert");

getDependencies(sqlKind.getSource(), result);
        }

if (sqlNode.getKind() == SELECT) {
            SqlSelect sqlKind = (SqlSelect) sqlNode;
            System.out.println("-----select");
            getDependencies(sqlKind.getFrom(), result);
        }

if (sqlNode.getKind() == AS) {
            SqlBasicCall sqlKind = (SqlBasicCall) sqlNode;
            System.out.println("----as");
            getDependencies(sqlKind.getOperandList().get(0), result);
        }

if (sqlNode.getKind() == UNION) {
            SqlBasicCall sqlKind = (SqlBasicCall) sqlNode;
            System.out.println("----union");

getDependencies(sqlKind.getOperandList().get(0), result);
            getDependencies(sqlKind.getOperandList().get(1), result);

}

if (sqlNode.getKind() == ORDER_BY) {
            SqlOrderBy sqlKind = (SqlOrderBy) sqlNode;
            System.out.println("----order_by");
            getDependencies(sqlKind.getOperandList().get(0), result);
        }

return result;
    }</code></pre>
<p>第一次传入的sqlNode就是很节点，这里的result集合是记录源表表名的，这里建议大家去打个断点debug一下sqlNode，往里面扒一扒，你就能搞明白calcite构建sqlNode的一个逻辑了</p>
<p>所以这里要强调的是，Calcite对SqlNode的构建是一个递归的构建，我们对sqlNode语法树的解析是一个从外到内、从左向右的一个先序深度遍历，这点和antlr不同，要额外注意。（这一块也确实比较费脑子）</p>
<h2>校验</h2>
<p>以上只是对一条sql一个基本解析，并没有校验，对于<code>select *</code>这种我们无法得知 <em> 里的内容，所以校验阶段就是根据已经有的元数据去校验该sql语句是否合法（表、字段名存不存在），最重要的一点是它会把 </em> 替换为该表的所有字段名，之后我们再重复上述解析即可：</p>
<pre><code class="language-java">
public class TestOne {
    public static class TestSchema {
        public final Triple[] rdf = {new Triple("s", "p", "o")};
    }

public static void main(String[] args) {
        SchemaPlus schemaPlus = Frameworks.createRootSchema(true);

//给schema T中添加表
        schemaPlus.add("T", new ReflectiveSchema(new TestSchema()));
        Frameworks.ConfigBuilder configBuilder = Frameworks.newConfigBuilder();
        //设置默认schema
        configBuilder.defaultSchema(schemaPlus);

FrameworkConfig frameworkConfig = configBuilder.build();

SqlParser.ConfigBuilder paresrConfig = SqlParser.configBuilder(frameworkConfig.getParserConfig());

//SQL 大小写不敏感
        paresrConfig.setCaseSensitive(false).setConfig(paresrConfig.build());

Planner planner = Frameworks.getPlanner(frameworkConfig);

SqlNode sqlNode;
        RelRoot relRoot = null;
        try {
            //parser阶段
            sqlNode = planner.parse("select \"a\".\"s\", count(\"a\".\"s\") from \"T\".\"rdf\" \"a\" group by \"a\".\"s\"");
            //validate阶段
            planner.validate(sqlNode);
            //获取RelNode树的根
            relRoot = planner.rel(sqlNode);
        } catch (Exception e) {
            e.printStackTrace();
        }

RelNode relNode = relRoot.project();
        System.out.print(RelOptUtil.toString(relNode));
    }
}
public class Triple {
    public String s;
    public String p;
    public String o;

public Triple(String s, String p, String o) {
        super();
        this.s = s;
        this.p = p;
        this.o = o;
    }

}</code></pre>
<h1>Meta接口</h1>
<p>除了我们自己手动递归sqlNode以外，我们也可以通过Meta接口下的相关API来获取sql的血缘：<br />
（待补充）</p>
<h1>自定义sql解析</h1>
<p>这个主要是针对原有parse.jj中可能并没有处理我们特殊sql语句的关键字，我们需要对其扩展补充，来实现自定义sql解析，具体可以看我们最上面放的连接，calcite-test里有现成的自定义解析sql代码，但是要注意最新的calcite-core有不少改动，不能完全按照它里面的思路写</p>

基于Calcite的SQL血缘解析思路

简介

基本使用

解析

依赖

SqlNode

递归遍历SqlNode

校验

Meta接口

自定义sql解析

2 条评论

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

美化优化个人网站历程

搭建【分布式新生电子报到系统】过程

从事SQL血缘解析一年后，谈谈我对它的理解

2021考研感想——考研失败不是遗憾，没有考研才是遗憾！

【2021数位板】高漫M7开箱+使用测评——新手入门的上乘之作

荣耀手环6表盘主题制作

今天，致敬最可爱的人！

【Antlr】简单实用总结

【阶段作品一】Java小游戏——《血战上海滩》

分布式系统认证方案

基于Calcite的SQL血缘解析思路

简介

基本使用

解析

依赖

SqlNode

递归遍历SqlNode

校验

Meta接口

自定义sql解析

2 条评论

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

基于Calcite的SQL血缘解析思路

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款