ANTLR(Another Tool for Language Recogition)是一款强大的跨语言语法解析工具,它从语法上生成一个可以构建和遍历解析树的解析器,用于读取、处理、执行和翻译结构化的文本或者二进制文件。ANTLR根据语法,可以生成对应的语法分析器,并自动建立语法分析树(一种描述语法和输入文本匹配关系的数据结构)。当前ANTLR的主要应用场景如:
- 定制特定领域语言(DSL)。类似hibernate中的HQL,用DSL来定义要执行操作的高层语法,这种语法接近人可理解的语言,由DSL到计算机语言的翻译则通过ANTLR来做,可在ANTLR的结构语言中定义DSL命令具体要执行何种操作;
- 文本解析。可利用ANTLR解析JSON,HTML,XML,EDIFACT,或自定义的报文格式。解析出来的信息需要做什么处理也可以在结构文件中定义;
- 数学计算。加减乘除,线性方程,几何运算,微积分等等;
基本信息
当前主流的ANTLR工具主要是使用ANTLR4版本,所以之后的相关学习内容也是以该版本为基础,相关的具体资料以及学习资料可以从以下的链接中进行获取。
GitHub:https://github.com/antlr/antlr4
官网:https://www.antlr.org/
学习案例:
https://github.com/antlr/grammars-v4
环境搭建
ANTLR4可以有多种方式进行部署和调试,如命令行、软件客户端、chrome插件、Sublime Text插件等等,本次入门教程主要是以Mac版的IntelliJ IDEA的插件的形式来进行教学演示,如果有读者想要了解其他的部署方式,可以去官网或者查找相关的资料进行学习。
插件安装成功后,会看到IntelliJ IDEA底部新增加了两个带有ANTLR4图标的标签,则说明安装成功。
实战入门
首先先创建一个.g4文件,命名为Hello.g4。.g4文件是ANTLR4默认的一个文件格式。
然后编写一个简单的规则解析逻辑,本次以解析一段赋值的字符串"sp=xxx"为例,目的是为了从这个字符串中解析出'='右边的值,如"sp=100",则解析出的结果即为100。一个最基本的的规则结构如下所示
grammar Hello; // 定义语法的名字 //语法解析规则 expression:'sp' '=' value ; value: VALUE; //词法解析器 VALUE:[0-9]+; WS : [ \t\r\n]+ -> skip ; // 跳过空格、制表符、回车符和换行符
选中expression行,然后右击选择"Test Rule expression"即可对该行的规则进行有效性测试
测试没问题后,点击右键,选择"Generate ANTLR Recognizer"即可生成相应的Java代码
最后就是编写相应的代码,主要分为两步,首先是生成语法解析树,然后是通过visitor或者listener遍历来获得对应的规则中的数据
public static void main(String[] args) throws Exception { //输入一组字符串 String input = "sp=100"; //数据内容 ANTLRInputStream inputStream = new ANTLRInputStream(IOUtils.toInputStream(input)); HelloLexer lexer = new HelloLexer(inputStream); CommonTokenStream tokens = new CommonTokenStream(lexer); HelloParser parser = new HelloParser(tokens); //执行规则 HelloParser.ExpressionContext tree = parser.expression(); //遍历器模式 HelloBaseVisitor visitor = new HelloBaseVisitor(); visitor.visit(tree); //监听器模式 HelloBaseListener listener = new HelloBaseListener(); ParseTreeWalker walker = new ParseTreeWalker(); walker.walk(listener, tree); }
总结
以上便是ANTLR4的一个初步的入门实战体验教程,读者可以自己尝试按照教程来实现以上的逻辑,未来将通过更多的案例来进一步地感受ANTLR4的强大之处。