最近我在學(xué)習(xí) Python 的運行模型。我對 Python 的一些內(nèi)部機(jī)制很是好奇,比如 Python 是怎么實現(xiàn)類似 YIELDVALUE、YIELDFROM 這樣的操作碼的;對于 遞推式構(gòu)造列表(List Comprehensions)、生成器表達(dá)式(generator expressions)以及其他一些有趣的 Python 特性是怎么編譯的;從字節(jié)碼的層面來看,當(dāng)異常拋出的時候都發(fā)生了什么事情。翻閱 CPython 的代碼對于解答這些問題當(dāng)然是很有幫助的,但我仍然覺得以這樣的方式來做的話對于理解字節(jié)碼的執(zhí)行和堆棧的變化還是缺少點什么。GDB 是個好選擇,但是我懶,而且只想使用一些比較高階的接口寫點 Python 代碼來完成這件事。
所以呢,我的目標(biāo)就是創(chuàng)建一個字節(jié)碼級別的追蹤 API,類似 sys.setrace 所提供的那樣,但相對而言會有更好的粒度。這充分鍛煉了我編寫 Python 實現(xiàn)的 C 代碼的編碼能力。我們所需要的有如下幾項,在這篇文章中所用的 Python 版本為 3.5。
一個新的 Cpython 解釋器操作碼 一種將操作碼注入到 Python 字節(jié)碼的方法 一些用于處理操作碼的 Python 代碼一個新的 Cpython 操作碼
新操作碼:DEBUG_OP
這個新的操作碼 DEBUG_OP 是我第一次嘗試寫 CPython 實現(xiàn)的 C 代碼,我將盡可能的讓它保持簡單。 我們想要達(dá)成的目的是,當(dāng)我們的操作碼被執(zhí)行的時候我能有一種方式來調(diào)用一些 Python 代碼。同時,我們也想能夠追蹤一些與執(zhí)行上下文有關(guān)的數(shù)據(jù)。我們的操作碼會把這些信息當(dāng)作參數(shù)傳遞給我們的回調(diào)函數(shù)。通過操作碼能辨識出的有用信息如下:
堆棧的內(nèi)容 執(zhí)行 DEBUG_OP 的幀對象信息所以呢,我們的操作碼需要做的事情是:
找到回調(diào)函數(shù) 創(chuàng)建一個包含堆棧內(nèi)容的列表 調(diào)用回調(diào)函數(shù),并將包含堆棧內(nèi)容的列表和當(dāng)前幀作為參數(shù)傳遞給它聽起來挺簡單的,現(xiàn)在開始動手吧!聲明:下面所有的解釋說明和代碼是經(jīng)過了大量段錯誤調(diào)試之后總結(jié)得到的結(jié)論。首先要做的是給操作碼定義一個名字和相應(yīng)的值,因此我們需要在 Include/opcode.h中添加代碼。
/** My own comments begin by '**' **/ /** From: Includes/opcode.h **/ /* Instruction opcodes for compiled code */ /** We just have to define our opcode with a free value 0 was the first one I found **/ #define DEBUG_OP 0 #define POP_TOP 1 #define ROT_TWO 2 #define ROT_THREE 3 |
這部分工作就完成了,現(xiàn)在我們?nèi)ゾ帉懖僮鞔a真正干活的代碼。
實現(xiàn) DEBUG_OP
在考慮如何實現(xiàn)DEBUG_OP之前我們需要了解的是 DEBUG_OP 提供的接口將長什么樣。 擁有一個可以調(diào)用其他代碼的新操作碼是相當(dāng)酷眩的,但是究竟它將調(diào)用哪些代碼捏?這個操作碼如何找到回調(diào)函數(shù)的捏?我選擇了一種最簡單的方法:在幀的全局區(qū)域?qū)懰篮瘮?shù)名。那么問題就變成了,我該怎么從字典中找到一個固定的 C 字符串?為了回答這個問題我們來看看在 Python 的 main loop 中使用到的和上下文管理相關(guān)的標(biāo)識符 enter 和 exit。
新聞熱點
疑難解答
圖片精選