国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 數據庫 > PostgreSQL > 正文

介紹PostgreSQL中的Lateral類型

2020-03-12 23:53:39
字體:
來源:轉載
供稿:網友

這篇文章主要介紹了介紹PostgreSQL中的Lateral類型,Lateral是PostgreSQL9.3版本以來加入的內置類型,需要的朋友可以參考下

PostgreSQL 9.3 用了一種新的聯合類型! Lateral聯合的推出比較低調,但它實現了之前需要使用編寫程序才能獲得的強大的新查詢. 在本文中, 我將會介紹一個在 PostgreSQL 9.2 不可能被實現的渠道轉換分析.

什么是 LATERAL 聯合?

對此的最佳描述在文檔中可選 FROM 語句清單的底部:

LATERAL 關鍵詞可以在前綴一個 SELECT FROM 子項. 這能讓 SELECT 子項在FROM項出現之前就引用到FROM項中的列. (沒有 LATERAL 的話, 每一個 SELECT 子項彼此都是獨立的,因此不能夠對其它的 FROM 項進行交叉引用.)

當一個 FROM 項包含 LATERAL 交叉引用的時候,查詢的計算過程如下: 對于FROM像提供給交叉引用列的每一行,或者多個FROM像提供給引用列的行的集合, LATERAL 項都會使用行或者行的集合的列值來進行計算. 計算出來的結果集像往常一樣被加入到聯合查詢之中. 這一過程會在列的來源表的行或者行的集合上重復進行.

這種計算有一點密集。你可以比較松散的將 LATERAL 聯合理解作一個 SQL 的foreach 選擇, 在這個循環中 PostgreSQL 將循環一個結果集中的每一行,并將那一行作為參數來執行一次子查詢的計算.

我們可以用這個來干些什么?

看看下面這個用來記錄點擊事件的表結構:

 

 
  1. CREATE TABLE event ( 
  2. user_id BIGINT
  3. event_id BIGINT
  4. time BIGINT NOT NULL
  5. data JSON NOT NULL
  6. PRIMARY KEY (user_id, event_id) 

每一個事件都關聯了一個用戶,擁有一個ID,一個時間戳,還有一個帶有事件屬性的JSON blob. 在堆中,這些屬性可能包含一次點擊的DOM層級, 窗口的標題,會話引用等等信息.

加入我們要優化我們的登錄頁面以增加注冊. 第一步就是要計算看看我們的哪個渠道轉換上正在丟失用戶.

介紹PostgreSQL中的Lateral類型

示例:一個注冊流程的個步驟之間的渠道轉換率.

假設我們已經在前端配備的裝置,來沿著這一流程來記錄事件日志,所有的數據都會保存到上述的事件數據表中.[1] 最開始的問題是,我們要計算有多少人查看了我們的主頁,而他們之中有百分之多少在那次查看了主頁之后的兩個星期之內輸入了驗證信息. 如果我們使用 PostgreSQL 較老的版本, 我們可能需要使用PL/pgSQL這一PostgreSQL內置的過程語言 來編寫一些定制的函數. 而在 9.3 中, 我們就可以使用一個 lateral 聯合,只用一個搞笑的查詢就能計算出結果,不需要任何擴展或者 PL/pgSQL.

 

 
  1. SELECT 
  2. user_id, 
  3. view_homepage, 
  4. view_homepage_time, 
  5. enter_credit_card, 
  6. enter_credit_card_time 
  7. FROM ( 
  8. -- Get the first time each user viewed the homepage. 
  9. SELECT 
  10. user_id, 
  11. AS view_homepage, 
  12. min(timeAS view_homepage_time 
  13. FROM event 
  14. WHERE 
  15. data->>'type' = 'view_homepage' 
  16. GROUP BY user_id 
  17. ) e1 LEFT JOIN LATERAL ( 
  18. -- For each row, get the first time the user_id did the enter_credit_card 
  19. -- event, if one exists within two weeks of view_homepage_time. 
  20. SELECT 
  21. AS enter_credit_card, 
  22. time AS enter_credit_card_time 
  23. FROM event 
  24. WHERE 
  25. user_id = e1.user_id AND 
  26. data->>'type' = 'enter_credit_card' AND 
  27. time BETWEEN view_homepage_time AND (view_homepage_time + 1000*60*60*24*14) 
  28. ORDER BY time 
  29. LIMIT 1 
  30. ) e2 ON true 

沒有人會喜歡30多行的SQL查詢,所以讓我們將這些SQL分成片段來分析。第一塊是一段普通的 SQL:

 

 
  1. SELECT 
  2. user_id, 
  3. AS view_homepage, 
  4. min(timeAS view_homepage_time 
  5. FROM event 
  6. WHERE 
  7. data->>'type' = 'view_homepage' 
  8. GROUP BY user_id 

也就是要獲取到每個用戶最開始觸發 view_homepage 事件的時間. 然后我們的 lateral 聯合就可以讓我們迭代結果集的每一行,并會在接下來執行一次參數化的子查詢. 這就等同于針對結果集的每一行都要執行一邊下面的這個查詢:

 

 
  1. SELECT 
  2. AS enter_credit_card, 
  3. time AS enter_credit_card_time 
  4. FROM event 
  5. WHERE 
  6. user_id = e1.user_id AND 
  7. data->>'type' = 'enter_credit_card' AND 
  8. time BETWEEN view_homepage_time AND (view_homepage_time + 1000*60*60*24*14) 
  9. ORDER BY time 
  10. LIMIT 1 

例如,對于每一個用戶,要獲取他們在觸發 view_homepage_time 事件后的兩星期內觸發 enter_credit_card 事件的時間. 因為這是一個lateral聯合,我們的子查詢就可以從之前的子查詢出引用到 view_homepage_time 結果集. 否則,子查詢就只能單獨執行,而沒辦法訪問到另外一個子查詢所計算出來的結果集.

之后哦我們整個封裝成一個select,它會返回像下面這樣的東西:

 

 
  1. user_id | view_homepage | view_homepage_time | enter_credit_card | enter_credit_card_time 
  2. ---------+---------------+--------------------+-------------------+------------------------ 
  3. 567 | 1 | 5234567890 | 1 | 5839367890 
  4. 234 | 1 | 2234567890 | | 
  5. 345 | 1 | 3234567890 | | 
  6. 456 | 1 | 4234567890 | | 
  7. 678 | 1 | 6234567890 | | 
  8. 123 | 1 | 1234567890 | | 
  9. ...  

因為這是一個左聯合,所以查詢結果集中會有不匹配 enter_credit_card 事件的行,只要有 view_homepage 事件就行. 如果我們匯總所有的數值列,就會得到渠道轉換的一個清晰匯總:

 

 
  1. SELECT 
  2. sum(view_homepage) AS viewed_homepage, 
  3. sum(enter_credit_card) AS entered_credit_card 
  4. FROM ( 
  5. -- Get the first time each user viewed the homepage. 
  6. SELECT 
  7. user_id, 
  8. AS view_homepage, 
  9. min(timeAS view_homepage_time 
  10. FROM event 
  11. WHERE 
  12. data->>'type' = 'view_homepage' 
  13. GROUP BY user_id 
  14. ) e1 LEFT JOIN LATERAL ( 
  15. -- For each (user_id, view_homepage_time) tuple, get the first time that 
  16. -- user did the enter_credit_card event, if one exists within two weeks. 
  17. SELECT 
  18. AS enter_credit_card, 
  19. time AS enter_credit_card_time 
  20. FROM event 
  21. WHERE 
  22. user_id = e1.user_id AND 
  23. data->>'type' = 'enter_credit_card' AND 
  24. time BETWEEN view_homepage_time AND (view_homepage_time + 1000*60*60*24*14) 
  25. ORDER BY time 
  26. LIMIT 1 
  27. ) e2 ON true 

… 它會輸出:

 

  
  1. viewed_homepage | entered_credit_card 
  2. -----------------+--------------------- 
  3. 827 | 10 

我們可以向這個渠道中填入帶有更多lateral聯合的中間步驟,來得到流程中我們需要重點改進的部分. 讓我們在查看主頁和輸入驗證信息之間加入對使用示例步驟的查詢.

 

 
  1. SELECT 
  2. sum(view_homepage) AS viewed_homepage, 
  3. sum(use_demo) AS use_demo, 
  4. sum(enter_credit_card) AS entered_credit_card 
  5. FROM ( 
  6. -- Get the first time each user viewed the homepage. 
  7. SELECT 
  8. user_id, 
  9. AS view_homepage, 
  10. min(timeAS view_homepage_time 
  11. FROM event 
  12. WHERE 
  13. data->>'type' = 'view_homepage' 
  14. GROUP BY user_id 
  15. ) e1 LEFT JOIN LATERAL ( 
  16. -- For each row, get the first time the user_id did the use_demo 
  17. -- event, if one exists within one week of view_homepage_time. 
  18. SELECT 
  19. user_id, 
  20. AS use_demo, 
  21. time AS use_demo_time 
  22. FROM event 
  23. WHERE 
  24. user_id = e1.user_id AND 
  25. data->>'type' = 'use_demo' AND 
  26. time BETWEEN view_homepage_time AND (view_homepage_time + 1000*60*60*24*7) 
  27. ORDER BY time 
  28. LIMIT 1 
  29. ) e2 ON true LEFT JOIN LATERAL ( 
  30. -- For each row, get the first time the user_id did the enter_credit_card 
  31. -- event, if one exists within one week of use_demo_time. 
  32. SELECT 
  33. AS enter_credit_card, 
  34. time AS enter_credit_card_time 
  35. FROM event 
  36. WHERE 
  37. user_id = e2.user_id AND 
  38. data->>'type' = 'enter_credit_card' AND 
  39. time BETWEEN use_demo_time AND (use_demo_time + 1000*60*60*24*7) 
  40. ORDER BY time 
  41. LIMIT 1 
  42. ) e3 ON true 

這樣就會輸出:

 

 
  1. viewed_homepage | use_demo | entered_credit_card 
  2. -----------------+----------+--------------------- 
  3. 827 | 220 | 86  

從查看主頁到一周之內使用demo,再到一周以內向其輸入信用卡信息,這就向我們提供了三個步驟的通道轉換. 從此,功能強大的 PostgreSQL 使得我們可以深入分析這些數據結果集,并對我們的網站性能進行整體的分析. 接著我們可能會有下面這些問題要解決:

使用demo是否能增加注冊的可能性?

通過廣告找到我們主頁的用戶是否同來自其他渠道的用戶擁有相同的轉換率?

轉換率會跟隨不同的 A/B 測試變量發生怎樣的變化?

這些問題的答案會直接影響到產品的改進,它們可以從 PostgreSQL 數據庫中找到答案,因為現在它支持 lateral 聯合.

沒有 lateral 聯合,我們就只能借助 PL/pgSQL 來做這些分析。或者,如果我們的數據集很小,我們可能就不會碰這些復雜、低效的查詢. 在一項探索性數據研究使用場景下,你可能只是將數據從 PostgreSQL 里面抽取出來,并使用你所選擇的腳本語言來對其進行分析。但是其實還存在更強大的理由來用SQL表述這些問題, 特別是如果你正想要把整個全封裝到一套易于理解的UI中,并向非技術型用戶發布功能 的時候.

注意這些查詢可以被優化,以變得更加高效. 在本例中,如果我們在 (user_id, (data->>'type'), time)上創建一個btree索引, 我們只用一次索引查找就能針對每一個用戶計算每一個渠道步驟. 如果你使用的是SSD,在上面做查找花費是很小的,那這就足夠了。而如果不是,你就可能需要用稍微不同的手段來圖示化你的數據,詳細的內容我會留到另外一篇文章之中進行介紹.

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 卢氏县| 三穗县| 册亨县| 双柏县| 巩义市| 渑池县| 大城县| 平原县| 静安区| 壶关县| 文山县| 郴州市| 海兴县| 古蔺县| 静乐县| 古丈县| 太原市| 莒南县| 彰化市| 宝山区| 乌审旗| 临颍县| 新沂市| 迁西县| 宝应县| 平度市| 江陵县| 浦江县| 阆中市| 唐河县| 巴彦淖尔市| 临桂县| 鄄城县| 饶阳县| 九江县| 丘北县| 兴文县| 张家界市| 绥阳县| 正安县| 武宁县|