python語法樹

發布時間: 2023-06-04 04:47:54

A. 如何用python寫一個解釋器

大學里計算機科學最吸引我的地方就是編譯器。最神奇的是，編譯器是如何讀出我寫的那些爛代碼，並且還能生成那麼復雜的程序。當我終於選了一門編譯方面的課程時，我發現這個過程比我想的要簡單得多。
在本系列的文章中，我會試著通過為一種基本命令語言IMP寫一個解釋器，來展示這種簡易性。因為IMP是一個簡單廣為人知的語言，所以打算用 Python寫這個解釋器。Python代碼看起來很像偽代碼，所以即使你不認識 Python，你也能理解它。解析可以通過一套從頭開始實現的解析器組合完成（在本系列的下一篇文章中會有解釋）。除了sys（用於I/O）、re（用於解析正則表達式）以及unittest（用於確保一切工作正常）庫，沒有使用其他額外的庫。
IMP 語言
在開始寫之前，我們先來討論一下將要解釋的語言。IMP是擁有下面結構的最小命令語言：
賦值語句（所有變數都是全局的，而且只能存儲整數）：

Python

1

x := 1

條件語句：

Python

1
2
3
4
5

if x = 1 then
y := 2
else
y := 3
end

while循環：

Python

1
2
3

while x < 10 do
x := x + 1
end

復合語句（分號分隔）：

Python

1
2

x := 1;
y := 2

OK，所以它只是一門工具語言，但你可以很容易就把它擴展成比Lua或python更有用的語言。我希望能把這份教程能保持盡量簡單。
下面這個例子是計算階乘的程序：

Python

1
2
3
4
5
6

n := 5;
p := 1;
while n > 0 do
p := p * n;
n := n - 1
end

IMP沒有讀取輸入的方式，所以初始狀態必須是在程序最開始寫一系列的賦值語句。也沒有列印結果的方式，所以解釋器必須在程序的結尾列印所有變數的值。
解釋器的結構
解釋器的核心是「中間表示」（Intermediate representation，IR）。這就是如何在內存中表示IMP程序。因為IMP是一個很簡單的語言，中間表示將直接對應於語言的語法；每一種表達和語句都有對應的類。在一種更復雜的語言中，你不僅需要一個「語法表示」，還需要一個更容易分析或運行的「語義表示」。
解釋器將會執行三個階段：
將源碼中的字元分割成標記符（token）
將標記符組織成一棵抽象語法樹（AST）。抽象語法樹就是中間表示。
評估這棵抽象語法樹，並在最後列印這棵樹的狀態
將字元串分割成標記符的過程叫做「詞法分析」，通過一個詞法分析器完成。關鍵字是很短，易於理解的字元串，包含程序中最基本的部分，如數字、標識符、關鍵字和操作符。詞法分析器會除去空格和注釋，因為它們都會被解釋器忽略。

將標記符組織成抽象語法樹（AST）的過程稱為「解析過程」。解析器將程序的結構提取成一張我們可以評估的表格。

實際執行這個解析過的抽象語法樹的過程稱為評估。這實際上是這個解析器中最簡單的部分了。
本文會把重點放在詞法分析器上。我們將編寫一個通用的詞彙庫，然後用它來為IMP創建一個詞法分析器。下一篇文章將會重點打造一個語法分析器和評估計算器。
詞彙庫
詞法分析器的操作相當簡單。它是基於正則表達式的，所以如果你不熟悉它們，你可能需要讀一些資料。簡單來說，正則表達式就是一種能描述其他字元串的特殊的格式化的字元串。你可以使用它們去匹配電話號碼或是郵箱地址，或者是像我們遇到在這種情況，不同類型的標記符。
詞法分析器的輸入可能只是一個字元串。簡單起見，我們將整個輸入文件都讀到內存中。輸出是一個標記符列表。每個標記符包括一個值（它代表的字元串）和一個標記（表示它是一個什麼類型的標記符）。語法分析器會使用這兩個數據來決定如何構建一棵抽象語法樹。
由於不論何種語言的詞法分析器，其操作都大同小異，我們將創建一個通用的詞法分析器，包括一個正則表達式列表和對應的標簽（tag）。對每一個表達式，它都會檢查是否和當前位置的輸入文本匹配。如果匹配，匹配文本就會作為一個標記符被提取出來，並且被加上該正則表達式的標簽。如果該正則表達式沒有標簽，那麼這段文本將會被丟棄。這樣免得我們被諸如注釋和空格之類的垃圾字元干擾。如果沒有匹配的正則表達式，程序就要報錯並終止。這個過程會不斷循環直到沒有字元可匹配。
下面是一段來自詞彙庫的代碼：

Python

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

import sys
import re

def lex(characters, token_exprs):
pos = 0
tokens = []
while pos < len(characters):
match = None
for token_expr in token_exprs:
pattern, tag = token_expr
regex = re.compile(pattern)
match = regex.match(characters, pos)
if match:
text = match.group(0)
if tag:
token = (text, tag)
tokens.append(token)
break
if not match:
sys.stderr.write('Illegal character: %sn' % characters[pos])
sys.exit(1)
else:
pos = match.end(0)
return tokens

注意，我們遍歷正則表達式的順序很重要。lex會遍歷所有的表達式，然後接受第一個匹配成功的表達式。這也就意味著，當使用詞法分析器時，我們應當首先考慮最具體的表達式（像那些匹配運算元（matching operator）和關鍵詞），其次才是比較一般的表達式（像標識符和數字）。
詞法分析器
給定上面的lex函數，為IMP定義一個詞法分析器就非常簡單了。首先我們要做的就是為標記符定義一系列的標簽。IMP只需要三個標簽。RESERVED表示一個保留字或操作符。INT表示一個文字整數。ID代表標識符。

Python

1
2
3
4
5

import lexer

RESERVED = 'RESERVED'
INT = 'INT'
ID = 'ID'

接下來定義詞法分析器將會用到的標記符表達式。前兩個表達式匹配空格和注釋。它們沒有標簽，所以 lex 會丟棄它們匹配到的所有字元。

Python

1
2
3

token_exprs = [
(r'[ nt]+', None),
(r'#[^n]*', None),

然後，只剩下所有的操作符和保留字了。記住，每個正則表達式前面的「r」表示這個字元串是「raw」；Python不會處理任何轉義字元。這使我們可以在字元串中包含進反斜線，正則表達式正是利用這一點來轉義操作符比如「＋」和「＊」。

Python

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(r':=', RESERVED),
(r'(', RESERVED),
(r')', RESERVED),
(r';', RESERVED),
(r'+', RESERVED),
(r'-', RESERVED),
(r'*', RESERVED),
(r'/', RESERVED),
(r'<=', RESERVED),
(r'<', RESERVED),
(r'>=', RESERVED),
(r'>', RESERVED),
(r'=', RESERVED),
(r'!=', RESERVED),
(r'and', RESERVED),
(r'or', RESERVED),
(r'not', RESERVED),
(r'if', RESERVED),
(r'then', RESERVED),
(r'else', RESERVED),
(r'while', RESERVED),
(r'do', RESERVED),
(r'end', RESERVED),

最後，輪到整數和標識符的表達式。要注意的是，標識符的正則表達式會匹配上面的所有的保留字，所以它一定要留到最後。

Python

1
2
3

(r'[0-9]+', INT),
(r'[A-Za-z][A-Za-z0-9_]*', ID),
]

既然正則表達式已經定義好了，我們還需要創建一個實際的lexer函數。

Python

1
2

def imp_lex(characters):
return lexer.lex(characters, token_exprs)

如果你對這部分感興趣，這里有一些驅動代碼可以測試輸出：

Python

1
2
3
4
5
6
7
8
9
10
11

import sys
from imp_lexer import *

if __name__ == '__main__':
filename = sys.argv[1]
file = open(filename)
characters = file.read()
file.close()
tokens = imp_lex(characters)
for token in tokens:
print token

繼續……

B. Python主要內容學的是什麼

第一步：Python開發基礎

Python全棧開發與人工智慧之Python開發基礎知識學習內容包括：Python基礎語法、數據類型、字元編碼、文件操作、函數、裝飾器、迭代器、內置方法、常用模塊等。

第二步：Python高級編程和資料庫開發

Python全棧開發與人工智慧之Python高級編程和資料庫開發知識學習內容包括：面向對象開發、Socket網路編程、線程、進程、隊列、IO多路模型、Mysql資料庫開發等。

第三步：前端開發

Python全棧開發與人工智慧之前端開發知識學習內容包括：Html、CSS、JavaScript開發、Jquery&bootstrap開發、前端框架VUE開發等。

第十步：高並發語言GO開發

Python全棧開發與人工智慧之高並發語言GO開發學習內容包括：GO語言基礎、數據類型與文件IO操作、函數和面向對象、並發編程等。

C. 新手如何學習編程

熟悉以下關鍵東西，可以邊學邊做，定期訓練，經常思考，長期積累：

1、語法。

2、基礎理論（數學、數據結構、演算法等）。

3、設計方法（編程原則、設計模式、框架設計等）。

4、庫（核心、基礎、UI、擴展、游戲引擎等）。

5、計算機相關（操作系統、網路、圖形學等）。

6、領域知識（游戲設計、網站設計等）。

7、開發工具（編輯器、IDE、自動部署等）。

8、項目管理（進度管理、分工協作、Bug管理、版本控制等）。

最普遍也是最重要的能力：創造力。努力分析並理解好做什麼以及怎麼做。要知道上面那些東西一開始都是不存在的。

具體方法包括：

1、快速閱讀入門教程和書籍，適合學習語言和基礎庫。比如我學Java讀的《Java編程思想》，練習題做過一點，然後學ActionScript就沒讀過書，只讀過Adobe官方文檔《ActionScript 3.0編程》。

2、閱讀庫的文檔、實例、源碼。比如Flash、Flex開發，熟悉官方API很重要，很多細節要具體使用時才注意到，這時候最好做個筆記，雖然我從沒看過我的筆記。

3、做一個自己感興趣或熟悉的小項目，比如我就以黑白棋游戲作為多個語言的試水項目，一樣的邏輯，便於把關注點放在語言特點上。

4、自己動手豐衣足食。廚師有菜譜，程序員可沒菜譜。比如我做游戲，最關鍵的游戲編程知識全部是動手學出來的，很少有專門針對某個業務領域（如游戲）的編程書籍，要麼是入門書，要麼是模式書（如演算法）、理論書（圖形學），很少有書籍教你如何開發一個45度角地圖系統加編輯器的，全靠自己思考，以及看前人的代碼，需要時找些網路資料。關鍵是，可以培養最重要的創造力。

對於演算法和設計模式，可以研讀下，但是關鍵還是靠平時如何使用了。新手勉強不來的。

項目管理方面的，就得靠工作經驗了，多思考多提意見不要只走流程。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1089

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1367

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1051

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1228

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1095

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1447

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：655

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：549

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1225

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1250

python語法樹

與python語法樹相關的資訊