多進程共享變量和獲得結果
由于工程需求,要使用多線程來跑一個程序。但是因為聽說python的多線程是假的,于是使用多進程,反正任務需要共享的參數少。
查閱資料,發現實現多進程主要使用Multiprocessing,有兩種方式,一種是Process,另一種是Pool。
p = Process(target=fun,args=(args))
再通過p.start()來啟動一個子進程,通過p.join()方法來使得子進程運行結束后再執行父進程。
但是這樣很煩,還要寫個for 循環來開n個線程和join。
于是推薦用Pool。它可以開一個固定大小的進程池,然后每個線程執行apply_async()函數調用要執行的函數,最后再close和join。
代碼如下:
pathm=Manager().Queue(len(pathlist))for d in pathlist: pathm.put(d)p=Pool(cp.threads)results=[]for i in range(cp.threads): temp=p.apply_async(ProcessWorker,args=(i,pathm,cp)) results.append(temp)print 'Waiting for all subprocesses done...'p.close()p.join()print 'All subprocesses finish Processing.'results=[r.get() for r in results]
上面的代碼演示了如何使用pool多進程,如何在Pool里的進程之間共享變量pathm,以及如何獲得進程函數執行的結果。需要注意的是,ProcessWorker必須是個無界的函數,否則報錯該函數無法被pickle從而不能分配到各個進程。
cPickle.PicklingError: Can't pickle <type 'instancemethod'>: attribute lookup __builtin__.instancemethod failed
有界函數和python的多進程機制
從上面引申到了一個概念,就是有界函數無界函數的概念。
查閱資料之后我總結如下:
有界函數是包在一個類中,并且只有當類被實例化之后才能使用的函數,它的界就是這個實例。我們常常把這些函數稱為類方法。例如以self為參數的類方法。
無界函數可以是沒有被包在類中的函數,也可以是類中的靜態方法,它們跟類是獨立的。如類中的靜態方法,它即使在某個類中被定義,但是不能訪問類中的參數和其他方法。
python多進程的機制應該是把每個進程要調用的方法和傳入的參數(如上面例子中的ProcessWorker)編譯然后打包,然后復制到每個進程中執行。如果輸入的是一個有界函數,那么它的參數應該是它所屬的類(包括參數和方法),但是這是無法獲得的,而且類屬性和方法可能會有坑,導致難以打包。所以python限定了多進程要調用的函數不能是類方法。
我們要把多進程調用的函數放到類外面,或者變成靜態函數。但是靜態函數的話不能被所屬的類的方法調用(self.ProcessWorker的形式),需要在外部調用,如mc=MyClass(),mc.ProcessWorker來調用,或者MyClass().ProcessWorker來調用。
以上這篇基于python的多進程共享變量正確打開方式就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。
新聞熱點
疑難解答