引子
之前一直盲目的認為 Python 不會存在內存泄露, 但是眼看著上線的項目隨著運行時間的增長 而越來越大的內存占用, 我意識到我寫的程序在發生內存泄露, 之前 debug 過 logging 模塊導致的內存泄露.
目前看來, 還有別的地方引起的內存泄露. 經過一天的奮戰, 終于找到了內存泄露的地方, 目前項目 跑了很長時間, 在業務量較小的時候內存還是能回到剛啟動的時候的內存占用.
什么情況下不用這么麻煩
如果你的程序只是跑一下就退出大可不必大費周章的去查找是否有內存泄露, 因為 Python 在退出時 會釋放它所分配的所有內存, 如果你的程序需要連續跑很長時間那么就要仔細的查找是否 產生了內存泄露.
場景
如何產生的內存泄露呢, 項目是一個 TCP server, 每當有連接過來時都會創建一個連接實例來進行 管理, 每次斷開時連接實例還被占用并沒有釋放. 沒有被釋放的原因肯定是因為有某個地方對連接 實例的引用沒有釋放, 所以隨著時間的推移, 連接創建分配內存, 連接斷開并沒有釋放掉內存, 所以 就會產生內存泄露.
調試方法
由于不知道具體是哪里引起的內存泄露, 所以要耐心的一點點調試.
由于知道了斷開連接時沒有釋放, 所以我就不停的模擬創建連接然后發送一些包后斷開連接, 然后通過下面一行 shell 來觀察內存占用情況:
PID=50662;while true; do; ps aux | grep $PID | grep -v grep | awk '{print $5" "$6}' >> t; sleep 1; done
如果在增長了一定的量后保持住就說明已經沒有產生泄露.
同時可以在對象該釋放的時候查看對象的引用計數, 通過 sys.getrefcount(obj). 如果引用計數變為了 2 則說明該對象在跳出命名空間后就會被正確回收.
產生原因
項目中兩種情況導致對象沒有被正確回收:
被退出才回收的對象引用 交叉引用被退出才回收的對象引用
為了追蹤連接所以把連接對象同時放在一個列表里, 而這個列表只有在程序退出時才會被回收, 如果不正確處理, 那么分配的對象將也會只在程序退出時才會被回收.
全局變量和類變量都只會在程序退出的時候才會被回收:
_CONNECTIONS = []# ...class Connection(object): def __init__(self, sock, address) passdef server_loop(): # ... sock, address = server_sock.accept() connection = Connection(sock, address) _CONNECTIONS.append(connection) # ... sock.close()
上面把所有建立的連接都放在全局變量 _CONNECTIONS 里, 如果在關閉的時候不從這個列表 里取出(減少引用)則 connection 對象就不會被回收, 則每建立一次連接就會有個連接對象和連接 對象引用的對象不會被回收.
如果把對象放在一個類屬性里也是一樣的, 因為類對象在程序一開始就分配, 并在程序退出時才被回收.
新聞熱點
疑難解答