国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發(fā)設計 > 正文

一次查詢性能提高40倍的經歷

2019-11-10 16:54:28
字體:
來源:轉載
供稿:網友

背景說明

數(shù)據(jù)庫:MongoDB數(shù)據(jù)集: A:字段數(shù)不定,這里主要用到的兩個UID和DateB:三個字段,UID、Date、Actions。其中Actions字段是包含260元素JSON數(shù)組,每個JSON對象有6個字段。共有數(shù)據(jù)800萬條左右。業(yè)務場景:求平均數(shù) 通過組合條件從A數(shù)據(jù)表查詢出(UID,Date)列表,最多可能包含數(shù)萬條記錄;然后用第1步的結果從B中查詢出對應的數(shù)據(jù)用第2步結果去Actions的某個固定位置的元素的進行計算

進化過程

在這里使用python演示

最直接想到的方法

根據(jù)上面的業(yè)務場景描述,最容易想到的解決方法就是

from pymongo import MongoClient# 連接數(shù)據(jù)庫db = MongoClient('mongodb://127.0.0.1:27017')['my_db']# 簡化的查詢數(shù)據(jù)集A的條件filter = {...}# 查詢Collection Aa_cursor = db.a.find(_filter)a_docs = [x for x in a_cursor]# 變量的初始定義count = 0total = 0# 加入需要用到的元素為第21個index = 20# 查詢Collection B,同時做累加for a_doc in a _docs: b_doc = db.b.find_one({'uid':a_doc['uid'], 'date': a_doc['date']}) # 只有能查到相應的結果時,才可以 if b_doc is not None: total += b_doc['actions'][20]['number'] count += 1 # 求平均數(shù) if count > 0 : avg = total/count

實現(xiàn)難度當然是最低的,可是整個任務在第一步只有1萬條左右的返回時,消耗的時間竟然達到了驚人38秒。當然這是已經加了索引的結果,否則可能都無法得到結果了。

減少查詢次數(shù)

瓶頸顯而易見,在循環(huán)中查詢Collection B,增加了網絡開銷,自然也就增加時間,如果一次查詢出所有結果,自然會大大提高效率。也就是說,我要把第一步的結果作為條件一次性傳遞,做一個$in操作。可是怎么才能做到呢?如果在uid和date上分別做$in操作,那么返回的結果就會是二者單獨做$操作的合集,很顯然這和要求是不符的。 經過上面的分析,似乎進入了死胡同。其實答案也基本顯現(xiàn)了,需要有一個字段可以滿足上面的要求,那么這個字段就是uid和date的合體,就命名為uid_date。uid_date是一個新字段,在B中并不存在,在使用之前需要將數(shù)據(jù)庫現(xiàn)有的數(shù)據(jù)做一下處理。處理完畢改造程序:

# 下面的只體現(xiàn)和本次修改相關的內容uid_date_list = []for a_doc in a_docs: uid_date_list.append(a_doc['uid'] + '_' + a_doc['date'])# 查詢Bb_cursor = db.b.find({'uid_date':{'$in':uid_date_list}})# 下面就是取出結果,求平均數(shù)...

這一番改造頗費時間,主要是前期的數(shù)據(jù)處理。代碼改造完畢,執(zhí)行下看看吧。 可是,可是…… 45秒 我做錯了什么?!

增加返回記錄數(shù)

我還是堅信上面的優(yōu)化思路是對的,現(xiàn)在看看數(shù)據(jù)庫能給一些什么線索吧。 登錄到數(shù)據(jù)庫服務器,找到MongoDB的日志/data/mongodb/logs/mongod.log。仔細查找,發(fā)現(xiàn)在查詢數(shù)據(jù)集B時有很多getMore命令。這就奇怪了,我是一次性查詢,為什么還有getMore。趕緊查下官方的文檔,然后發(fā)現(xiàn)了下面的內容: 這里寫圖片描述 batcSize參數(shù)指定了每次返回的個數(shù),默認的101個。那看來這個應該是問題所在。找下pymongo的文檔,也可以設置這個參數(shù),那就設個大的吧10000。再次改造程序如下:

# 增加batch_sizeb_cursor = db.b.find({'uid_date':{'$in': uid_date_list}}, batch_size=10000)

這次總該可以了。

嗯,好了一些,降到了20秒左右。可是,這離1秒只能還差距20倍呢。

返回值減負

當日不能放棄,繼續(xù)通過日志查找線索,發(fā)現(xiàn)還是有很多getMore。通過各方查找,發(fā)現(xiàn)mongodb每次最多返回16M的記錄,通過getMore日志的比對,發(fā)現(xiàn)的確如此。由于B中每條記錄的過去龐大,每次只能幾百條記錄,因此要一次多返回,那就必須要減少每次返回的記錄數(shù)。因為在計算時,只用了特定索引位置上的數(shù)據(jù),所以只返回該條記錄就可以了。

最后的代碼就不再寫了,具體可以參考官方文檔的實例。


上一篇:PCI驅動編程基本框架

下一篇:文章標題

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 淮阳县| 石嘴山市| 广安市| 郧西县| 鹿邑县| 和静县| 锦屏县| 忻城县| 溧水县| 嘉黎县| 白山市| 惠州市| 红原县| 普安县| 佛冈县| 扬中市| 葫芦岛市| 蒲城县| 弥渡县| 洱源县| 汝州市| 神池县| 大足县| 武邑县| 南雄市| 延安市| 周至县| 阳高县| 五寨县| 商南县| 凤翔县| 治县。| 鹤峰县| 那坡县| 镇康县| 湖北省| 方正县| 甘孜县| 灵石县| 崇仁县| 遂溪县|