基于Antlr对PostgreSql血缘解析（表、列），并存入Atlas

皆非

2022 年 01 月 14 日

12429 次浏览

1 条评论

3777字数

SQL解析与数据血缘知识总结

本文内容已过期，请移步至“从事SQL血缘解析一年后，谈谈我对它的理解”

上一篇文章讲了antlr的一个简单上手使用，这篇主要说下他的一个重要作用，就是解析sql，并提取其中表、字段信息，同时记录血缘关系，最后将其存入atlas中。

首先我们需要有 postgreSql的g4文件，当然这个肯定不是让你写的，否则累死了，我能在网上找到的postgreSql.g4是在两个地方，首先是 antlr 的github官网有这个，但很可惜他解析出来的是csharp文件，我们java用不了，所以使用的是另一个民间大神的g4文件 antlr_psql

有了 g4 文件，我们便可以生成最重要的 Parser 文件：

其次我要说下antlr里一些比较重要的概念

RuleNode

我们g4文件里定义的一个个规则在 antlr 看来都是一个个的节点，比如 select、from、GROUP BY等，而正是这么多若干的RuleNode最后形成了我们一颗大的解析树：

类似这个解析树里的一个个节点：select_stmt、colum_list等，这些也都是一开始定义在g4文件里的

然后是访问解析树的两种模式：监听者模式和访问者visitor模式，我这里主要说visitor模式

Visitor模式

PostgreSQLParserVisitor.java是个访问器接口，定义了一些访问RuleNode的接口方法，可以通过实现它来完成自定义的功能。而PostgreSQLParserBaseVisitor.java是该接口的默认实现，它为每个接口方法提供了空实现。

我们可以自己写一个类继承 PostgreSQLParserBaseVisitor ，并重写自己想要处理节点的方法，即可做自己的处理：

例如上图，我们能从解析树中看到 select_stmt这个节点，我们可以通过访问这个节点拿到它下面的列，再而即可拿到字段名字，而重写方法名只用在前面加上visit即可：

public class PostgreSqlFieldLineageParser extends PostgreSQLParserBaseVisitor {
    @Override
    public Object visitSelect_stmt(PostgreSQLParser.Select_stmtContext ctx) {

        ctx.selector_clause().column_list().expr().forEach( exprContext -> {
            exprContext.identifier().forEach(identifierContext -> {
                System.out.println("visitSelect_stmt : " + identifierContext.getRuleContext().getText());
            });
        });
        return super.visitSelect_stmt(ctx);
    }
}

这样我们就可以在 antlr 访问解析树时拿到想要的字段，其中PostgreSQLParser.Select_stmtContext ctx 就是select_stmt节点的上下文，我们可以拿到它父子节点的值。

但是主要我们最后要 return 父级该方法，这是和监听器机制的不同：

注意：ANTLR的运行库提供了两种遍历树的机制：监听器机制与访问器机制。与访问器不同的是，监听器的方法会被ANTLR提供的遍历器对象（比如ParseTreeWalker）自动调用，而在访问器的方法中，必须显示调用visit方法来访问子节点。如果没有调用visit方法就会导致对应的子树不被访问。而且监听器方法是没有返回值的（即返回类型是void）。

我们调用visit方法即可访问节点信息：

    //调用该方法
    public void parseSqlFieldLineage(String sql) {
        PostgreSqlFieldLineageParser visitor = new PostgreSqlFieldLineageParser();
        visitor.visit(getParseTree(sql));
    }

    private ParseTree getParseTree(String sql) {
        CharStream input = CharStreams.fromString(sql);
        PostgreSQLLexer lexer = new PostgreSQLLexer(input);
        CommonTokenStream tokenStream = new CommonTokenStream(lexer);
        PostgreSQLParser parser = new PostgreSQLParser(tokenStream);
        return parser.root();
    }

如果我们要拿到 from 后的表名，同理：

    @Override
    public Object visitFrom_clause(PostgreSQLParser.From_clauseContext ctx) {
        PostgreSqlFieldModel postgreSqlFieldModel = map.get(lastHashcode);
        ctx.from_item().forEach(from_itemContext -> {
            //别名
            if (from_itemContext.alias() != null) {
                System.out.println("from : " + from_itemContext.alias().identifier().getRuleContext().getText());
            }
            //表名
            if (from_itemContext.table_name_() != null) {
                System.out.println("from : " + from_itemContext.table_name_().getRuleContext().getText());
            }
        });
        return super.visitFrom_clause(ctx);
    }

由此我们还可以得出结论，当有子查询的时候visitSelect_stmt方法会访问多次，因为select_stmt节点可能会有多个，每次只能得到当前节点子节点的一些值，但我们需要知道

visitor模式访问解析树是深度优先

（记录父子节点关系的具体代码后续更新，列血缘比较麻烦，有一些别名、计算类的情况没有完善到）

存入atlas

当我们有了表与表、列于列之间的关系的时候，便可以通过rest API存入atlas，我这里通过 AtlasClientV2

基于Antlr对PostgreSql血缘解析（表、列），并存入Atlas

皆非 • 2022 年 01 月 15 日

小有名气的匿名人士
February 2nd, 2023 at 03:12 pm

大佬有demo吗

回复

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

RabZhu
我现在解析了血缘关系，再把血缘关系写入到哪种数据库中，我在想有...
llhqiqi520
该评论仅登录用户及评论双方可见
llhqiqi520
现在升到1.8.0了,谷歌邮箱一直失败过不了,我也用QQ邮箱了...
llhqiqi520
哈哈哈,我是顺序看下来的,你在22年就不用啦,此外,评论邮箱提...
llhqiqi520
github的萌卜兔美化插件已经断更很久啦,现在直接在GitH...

基于Antlr对PostgreSql血缘解析（表、列），并存入Atlas

RuleNode

Visitor模式

存入atlas

1 条评论

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

美化优化个人网站历程

搭建【分布式新生电子报到系统】过程

从事SQL血缘解析一年后，谈谈我对它的理解

2021考研感想——考研失败不是遗憾，没有考研才是遗憾！

【CodeTop x LeetCode】Page 5 ： 81-100面试高频算法题题解

Java基础知识总结

我的作品

【考研记录一】数据结构一轮复习完毕

Aloudata BIG 全球首个实现算子级血缘解析的主动元数据平台

【刺客信条：英灵殿】在 GTX1050ti 和 i5 7300hq下的表现

基于Antlr对PostgreSql血缘解析（表、列），并存入Atlas

RuleNode

Visitor模式

存入atlas

1 条评论

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

基于Antlr对PostgreSql血缘解析（表、列），并存入Atlas

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款