好久沒有寫博客了!昨天小牛在上海舉辦了牛友見面會,現(xiàn)場優(yōu)惠還是比較大,心儀已久加上一時腦熱就入手了。以為會有多么開心,其實目前最大的感受就是焦慮!擔(dān)心電動車被偷,擔(dān)心電池被偷,擔(dān)心路上突然被交警叔叔攔下!我想,直到我的小牛真的被偷的那天,這種焦慮才會隨之消失。唉,要說這樣的焦慮怎么來的,我只能呵呵了:)
下面步入正題:
今天在幫我們家王博處理專利數(shù)據(jù)的時候,需要對專利數(shù)據(jù)中的城市和專利主體的合作關(guān)系數(shù)量進行統(tǒng)計。一項專利其寫作主體可能由兩個或兩個以上主體參與,各個主體又分屬不同或者相同的城市,對其合作關(guān)系數(shù)量進行統(tǒng)計,其實就是對主體及城市進行排列組合。Python的itertools庫中提供了combinations方法可以輕松的實現(xiàn)排列組合。使用之前我先自己寫了個簡單的測試,代碼如下:
from itertools import combinationstest_data = {'a', 'a', 'a', 'b'}for i in combinations(test_data, 2): print i
上面的代碼執(zhí)行后輸出為:
('a', 'b')
這樣的輸出結(jié)果讓我覺得很困惑,我預(yù)期的結(jié)果是:
('a', 'a')('a', 'a')('a', 'b')('a', 'a')('a', 'b')('a', 'b')
同一個專利里面的主體不會有重復(fù)的情況,但是主體所在的城市就會出現(xiàn)重復(fù)的情況,如果使用combinations在進行排列組合時主動忽略掉了重復(fù)的值,那我就只能自己來實現(xiàn)城市的排列組合了!自己實現(xiàn)排列組合也不難,但是這似乎不符合Python的風(fēng)格。再次走讀測試代碼,突然想到自己構(gòu)造的輸入數(shù)據(jù)是不是有問題。
然后改成了下面這樣:
from itertools import combinationstest_data = ['a', 'a', 'a', 'b']for i in combinations(test_data, 2): print i
將大括號換成了中括號后輸出結(jié)果與預(yù)期完全一致!這讓我相當(dāng)困惑。首先是官方文檔對combinations方法的介紹說的是:Elements are treated as unique based on their position, not on their value.,意思是combinations處理傳入的可迭代參數(shù)時是根據(jù)迭代元素的位置來確定是否唯一的,和元素的值是否唯一沒有關(guān)系。那使用{}和[]構(gòu)建的輸入數(shù)據(jù)有什么不同呢?本來是想寫這篇博客記錄一下問題,等高手解答或者自己日后再來查證,結(jié)果一邊寫一邊整理思路,居然被我找到原因了!
其實很簡單:使用大括號{}創(chuàng)建的是集合或者字典,使用中括號[]創(chuàng)建的是數(shù)組,而集合具有互異性!
所以不管我在{}里面寫了多少個a,其實我傳入到combinations方法里面的參數(shù)值都只是:'a','b'。知道真相的我表示好尷尬,本來以為遇到一個多么深奧的問題,原來只是我Python的基礎(chǔ)知識太欠缺了!搞得我都不好意思把這篇博客發(fā)出來了(捂臉)
新聞熱點
疑難解答