在Python中使用SimpleParse模块进行解析的教程

站长资源 2026/1/31 佚名

56 1538 56

相思资源网 Design By www.200059.com

与大多数程序员一样，我经常需要标识存在于文本文档中的部件和结构，这些文档包括：日志文件、配置文件、分隔的数据以及格式更自由的（但还是半结构化的）报表格式。所有这些文档都拥有它们自己的“小语言”，用于规定什么能够出现在文档内。

我编写处理这些非正式解析任务的程序的方法总是有点象大杂烩，其中包括定制状态机、正则表达式以及上下文驱动的字符串测试。这些程序中的模式大概总是这样：“读一些文本，弄清是否可以用它来做些什么，然后可能再多读一些文本，一直尝试下去。”

各种形式的解析器将文档中部件和结构的描述提炼成简明、清晰和说明性的规则，该规则规定了如何标识文档的组成部分。这里，说明性方面是最引人注目的。我所有的旧的特别的解析器都采用了这种风格：读一些字符、作决定、累加一些变量、清空、重复。正如本专栏关于函数型编程的部分文章中所评述的，程序流的方法风格相对来说容易出错并且难以维护。

正式解析器几乎总是使用扩展巴科斯范式（Extended Backus-Naur Form(EBNF)）上的变体来描述它们所描述语言的“语法”。我们在这里研究的工具是这样做的，流行的编译器开发工具 YACC（及其变体）也是这样做的。基本上，EBNF 语法对您可能在文档中找到的部件赋予名称；另外，经常将较小的部件组成较大的部件。由运算符 ― 通常和您在正则表达式中看到的符号相同 ― 来指定小部件在较大的部件中出现的频率和顺序。在解析器交谈（parser-talk）中，语法中每个命名的部件称为一个“产品（production）”。

可能读者甚至还不知道 EBNF，却已经看到过运行的 EBNF 描述了。例如，大家熟悉的 Python 语言参考大全（Python Language Reference）定义了浮点数在 Python 中是什么样子：
EBNF 样式的浮点数描述

或者您可能见过以 EBNF 样式定义的 XML DTD 元素。例如，developerWorks 教程的 <body> 类似于：
developerWorks DTD 中 EBNF 样式的描述

复制代码代码如下:<!ELEMENT body ((example-column | image-column)"htmlcode">

(1,
 [('plain',
  0,
  15,
  [('word', 0, 4, [('alphanums', 0, 4, [])]),
  ('whitespace', 4, 5, []),
  ('word', 5, 10, [('alphanums', 5, 10, [])]),
  ('whitespace', 10, 11, []),
  ('word', 11, 14, [('alphanums', 11, 14, [])]),
  ('whitespace', 14, 15, [])]),
 ('markup',
  15,
  27,
 ...
 289)

中间的省略号表示了一批更多的匹配。但是我们看到的部分叙述了下列内容。根产品（“para”）取得成功并结束于偏移量 289 处（源文本的长度）。子产品“plain”的偏移量为 0 到 15。“plain”子产品本身由更小的产品组成。在“plain”产品之后，“markup”产品的偏移量为 15 到 27。这里省略了详细信息，但是第一个“markup”由组件组成，并且源文本中稍后还有另外的产品取得成功。

“智能 ASCII”的 EBNF 样式的语法

我们已经浏览了 SimpleParse + mxTextTools 所能提供的标记列表。但是我们确实需要研究用来生成这个标记列表的语法。实际工作在语法中发生。EBNF 语法读起来几乎不需加以说明（尽管确实需要一点思考和测试来设计一个语法）：
typographify.def

para      := (plain / markup)+
plain     := (word / whitespace / punctuation)+
whitespace   := [ \t\r\n]+
alphanums   := [a-zA-Z0-9]+
word      := alphanums, (wordpunct, alphanums)*, contraction"'", ('am'/'clock'/'d'/'ll'/'m'/'re'/'s'/'t'/'ve')
markup     := emph / strong / module / code / title
emph      := '-', plain, '-'
strong     := '*', plain, '*'
module     := '[', plain, ']'
code      := "'", plain, "'"
title     := '_', plain, '_'
punctuation  := (safepunct / mdash)
mdash     := '--'
safepunct   := [!@#$%^&()+=|\{}:;<>,."]

这种语法和您口头描述“智能 ASCII”的方式几乎完全相同，非常清晰。段落由一些纯文本和一些标记文本组成。纯文本由某些字、空白和标点符号的集合组成。标记文本可能是强调文本、着重强调文本或模块名等等。着重强调文本由星号环绕。标记文本就是由诸如此类的部分组成的。需要考虑的是几个特性，类似于到底什么是“字”，或者可以用什么符号结束缩写，但是 EBNF 的句法不会成为障碍。

相比之下，使用正则表达式可以更精练地描述同类规则。“智能 ASCII”标记程序的第一个版本就是这样做的。但是编写这种精练难度大得多，并且以后调整也更为困难。下列代码表示了很大程度上（但不精确地）相同的规则集：
智能 ASCII 的 Python regexs

# [module] names
    
re_mods =  
    r""'([\(\s'/">]|^)\[(.*""""
# *strongly emphasize* words
    
re_strong = 
    r""'([\(\s'/"]|^)\*(.*""""
# -emphasize- words
    
re_emph =  
    r""'([\(\s'/"]|^)-(.*""""
# _Book Title_ citations
    
re_title = 
    r""'([\(\s'/"]|^)_(.*""""
# 'Function()" names
    
re_funcs = 
    r""'([\(\s/"]|^)'(.*""""

如果您发现或发明了该语言的某种经过微小更新的变体，将它和 EBNF 语法一起使用要比和那些正则表达式一起使用简单得多。此外，通常使用 mxTextTools 执行模式操作甚至更快些。

生成和使用标记列表

对于样本程序，我们将实际语法放置在一个单独的文件中。对于大多数用途而言，这种组织比较好，便于使用。通常，更改语法和更改应用程序逻辑是不同种类的任务；这些文件反映了这一点。但是我们对语法所做的全部处理就是将它作为一个字符串传递给 SimpleParse 函数，因此我们大体上可以将它包括到主应用程序中（或者甚至以某种方式动态生成它）。

让我们研究完整的（简化）标记应用程序：
typographify.py

import
     os
    from
     sys 
    import
     stdin, stdout, stderr
    from
     simpleparse 
    import
     generator
    from
     mx.TextTools 
    import
     TextTools
input = stdin.read()
decl = open(
    'typographify.def'
    ).read()
    from
     typo_html 
    import
     codes
parser = generator.buildParser(decl).parserbyname(
    'para'
    )
taglist = TextTools.tag(input, parser)
    for
     tag, beg, end, parts 
    in
     taglist[1]:
  
    if
     tag == 
    'plain'
    :
    stdout.write(input[beg:end])
  
    elif
     tag == 
    'markup'
    :
    markup = parts[0]
    mtag, mbeg, mend = markup[:3]
    start, stop = codes.get(mtag, (
    '<!-- unknown -->'
    ,
    '<!-- / -->'
    ))
    stdout.write(start + input[mbeg+1:mend-1] + stop)
stderr.write(
    'parsed %s chars of %s\n'
     % (taglist[-1], len(input)))

这就是它所做的。首先读入语法，然后根据语法创建一个 mxTextTools 解析器。接下来，我们将标记表／解析器应用于输入源来创建一个标记列表。最后，我们循环遍历标记列表，并且发出一些新的标记文本。当然，该循环可以对遇到的每个产品做我们所期望的任何其它事情。

由于智能 ASCII 所使用的特殊语法，源文本中的任何内容都可归类于“plain”产品或“markup”产品。因此，对于循环遍历标记列表中的单个级别，它已经足够了（除非我们正好寻找比特定标记产品级别低一级的级别，譬如“title”）。但是格式更自由的语法 ― 譬如出现在大多数编程语言中的语法 ― 可以轻松地在标记列表中向下递归，并在每个级别上寻找产品名称。例如，如果一种语法中允许嵌套标记代码，或许可以使用这种递归风格。您可能会喜欢弄清如何调整语法的练习（提示：请记住允许各产品彼此递归）。

转至输出的特殊标记代码还是存储到另一个文件中了，这是由于组织的原因而非本质原因。在这里我们使用了一个技巧，就是用一个字典作为一个 switch 语句（尽管示例中的 otherwise 情况还是太狭窄了）。这个想法就是：将来我们可能希望创建多种“输出格式”的文件，比如说 HTML、DocBook、LaTeX 或者其它格式。用于示例的特殊标记文件类似于：
typo_html.py

codes = { 
    'emph'
      : (
    '<em>'
    , 
    '</em>'
    ),
 
    'strong'
     : (
    '<strong>'
    , 
    '</strong>'
    ),
 
    'module'
     : (
    '<em><code>'
    , 
    '</code></em>'
    ),
 
    'code'
      : (
    '<code>'
    , 
    '</code>'
    ),
 
    'title'
      : (
    '<cite>'
    , 
    '</cite>'
    ),
}

把这种格式扩展到其它输出格式很简单。

结束语

SimpleParse 为含义模糊的 mxTextTools C 模块的基本功能和速度提供了一种简明的并且十分易读的 EBNF 样式的封装器。此外，即使只是顺便学会的，许多程序员也已经相当熟悉 EBNF 语法了。关于什么更容易理解，我不能提供证明 ― 这一点因各人的直觉而异 ― 但是我可以根据源代码长度给出量化评估。先前手工开发的 mxTypographify 模块的大小如下：
复制代码代码如下:wc mxTypographify.py

199 776 7041 mxTypographify.py

这 199 行中，相当数量的行是注释。这些行中有 18 行是标记函数所包含的正则表达式版本，包含该标记函数是用于计时比较。但是该程序的功能基本上和上面列出的 typographify.py 的功能相同。相比之下，我们的 SimpleParse 程序，包括其支持文件在内，大小如下：
复制代码代码如下:wc typo*.def typo*.py

19      79     645 typographify.def
20      79     721 typographify.py
6      25     205 typo_html.py
45     183    1571 total

换句话说，行数大约只有前者的四分之一。这个版本的注释较少，但是那主要是因为 EBNF 语法的自我描述能力很强。我不希望太过强调代码行数 ― 显然，您可以通过最小化或最大化代码长度做手脚。但是通常对程序员的工作进行研究，少数实际经验结论之一是：“千行代码／人月”相当接近于常数，和语言以及库关系不大。当然，依次地，正则表达式版本是 SimpleParse 版本长度的三分之一 ― 但是我认为其表达式的密度使得它极难维护并且更难编写。总而言之，我认为 SimpleParse 是所考虑的方法中最好的。

Python

标签：

Python

相思资源网 Design By www.200059.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

相思资源网 Design By www.200059.com

评论“在Python中使用SimpleParse模块进行解析的教程”

暂无在Python中使用SimpleParse模块进行解析的教程的评论...

www.200059.com 相思资源网

139,976影音资源

144,792福利资源

21,817软件资源

631,128技术资源

在Python中使用SimpleParse模块进行解析的教程

Python

将Python中的数据存储到系统本地的简单方法

Python中的进程分支fork和exec详解

评论“在Python中使用SimpleParse模块进行解析的教程”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

友情链接

在Python中使用SimpleParse模块进行解析的教程

Python

将Python中的数据存储到系统本地的简单方法

Python中的进程分支fork和exec详解

评论“在Python中使用SimpleParse模块进行解析的教程”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存