“網易云音樂”里有一項類似于淘寶“我的喜好”的“日推”功能,根據你經常聽的歌曲類型,每日推送給你類似的音樂,幾乎次次驚艷,而且大多都沒聽過,或者好久以前聽過早就忘記了名字,或者之前不知道在哪聽過 只是知道其中一部分旋律,根本不知道名字,等等。
參考了在北京實習時一個同事的分享以及在“知乎”上大神們的介紹,本文暫不考慮算法實現,僅僅從算法本身來學習一番,對IT世界里一些腦洞大開的想法做以分享。
如圖,是日推算法的兩種實現思路:
這種算法是在NetFlix(沒錯,就是用大數據捧火《紙牌屋》的那家公司)的推薦算法競賽中獲獎的算法,具體用在日推上的套路是這樣:
1、思路
每個用戶(user)都有自己的偏好,比如A喜歡帶有小清新的、吉他伴奏的、李健等元素(其實就是標簽),如果一首歌(item)帶有這些元素,那么就將這首歌推薦給該用戶,也就是用元素去連接用戶和音樂。
2、實現: 每個人對不同的元素偏好不同,而每首歌包含的元素也不一樣。模擬這樣兩個矩陣: (1)用戶-潛在因子矩陣Q: 表示不同的用戶對于不用元素的偏好程度,1代表很喜歡,0代表不喜歡。比如下面這樣:
(2)潛在因子-音樂矩陣P 表示每種音樂含有各種元素的成分,比如下表中,音樂A是一個偏小清新的音樂,含有小清新這個Latent Factor的成分是0.9,重口味的成分是0.1,優雅的成分是0.2……
利用這兩個矩陣,我們能得出張三對音樂A的喜歡程度是:張三對小清新的偏好*音樂A含有小清新的成分+對重口味的偏好*音樂A含有重口味的成分+對優雅的偏好*音樂A含有優雅的成分+……
即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69 每個用戶對每首歌都這樣計算可以得到不同用戶對不同歌曲的評分矩陣/tilde{R} 。(注,這里的破浪線表示的是估計的評分,接下來我們還會用到不帶波浪線的R表示實際的評分):
因此我們隊張三推薦四首歌中得分最高的B,對李四推薦得分最高的C,王五推薦B。 如果用矩陣表示即為: {R} =QP^{T} 下面問題來了,這個潛在因子(latent factor)是怎么得到的呢? 由于面對海量的讓用戶自己給音樂分類并告訴我們自己的偏好系數顯然是不現實的,事實上我們能獲得的數據只有用戶行為數據。我們沿用 @邰原朗的量化標準:單曲循環=5, 分享=4, 收藏=3, 主動播放=2 , 聽完=1, 跳過=-2 , 拉黑=-5,在分析時能獲得的實際評分矩陣R,也就是輸入矩陣大概是這個樣子:
事實上這是個非常非常稀疏的矩陣,因為大部分用戶只聽過全部音樂中很少一部分。如何利用這個矩陣去找潛在因子呢?這里主要應用到的是矩陣的UV分解。也就是將上面的評分矩陣分解為兩個低維度的矩陣,用Q和P兩個矩陣的乘積去估計實際的評分矩陣,而且我們希望估計的評分矩陣{R}
和實際的評分矩陣不要相差太多,也就是求解下面的目標函數: min_{P,Q} /Sigma (r_{ui}-q_{i}p_{u}^{T})^2
這里涉及到最優化理論,在實際應用中,往往還要在后面加上2范數的罰項,然后利用梯度下降法就可以求得這P,Q兩個矩陣的估計值。這里我們就不展開說了。例如我們上面給出的那個例子可以分解成為這樣兩個矩陣:
這兩個矩陣相乘就可以得到估計的得分矩陣:
將用戶已經聽過的音樂剔除后,選擇分數最高音樂的推薦給用戶即可(紅體字)。
添加標簽的思想在我們寫CSDN博客的時候,其實就有了,通過分類,細化查詢。
1、發明 amazon發明的“喜歡這個商品的人,也喜歡某某”算法。其核心是數學中的“多維空間中兩個向量夾角的余弦公式”。 “商品推薦”系統的算法( Collaborative filtering )分兩大類,第一類,以人為本,先找到與你相似的人,然后看看他們買了什么你沒有買的東西。這類算法最經典的實現就是“多維空間中兩個向量夾角的余弦公式”;第二類, 以物為本直接建立各商品之間的相似度關系矩陣。這類算法中最經典是'斜率=1' (Slope One)。amazon發明了暴力簡化的第二類算法,‘買了這個商品的人,也買了xxx’。 我們先來看看第一類,最大的問題如何判斷并量化兩人的相似性,思路是這樣 -- 例子: 有3首歌放在那里,《最炫民族風》,《晴天》,《Hero》。 A君,收藏了《最炫民族風》,而遇到《晴天》,《Hero》則總是跳過; B君,經常單曲循環《最炫民族風》,《晴天》會播放完,《Hero》則拉黑了 C君,拉黑了《最炫民族風》,而《晴天》《Hero》都收藏了。 我們都看出來了,A,B二位品味接近,C和他們很不一樣。 那么問題來了,說A,B相似,到底有多相似,如何量化? 我們把三首歌想象成三維空間的三個維度,《最炫民族風》是x軸,《晴天》是y軸,《Hero》是z軸,對每首歌的喜歡程度即該維度上的坐標,并且對喜歡程度做量化(比如: 單曲循環=5, 分享=4, 收藏=3, 主動播放=2 , 聽完=1, 跳過=-1 , 拉黑=-5 )。那么每個人的總體口味就是一個向量,A君是 (3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。 我們可以用向量夾角的余弦值來表示兩個向量的相似程度, 0度角(表示兩人完全一致)的余弦是1, 180%角(表示兩人截然相反)的余弦是-1。 根據余弦公式, 夾角余弦 = 向量點積/ (向量長度的叉積) = ( x1x2 + y1y2 + z1z2) / ( 跟號(x1平方+y1平方+z1平方 ) x 跟號(x2平方+y2平方+z2平方 ) ) 可見A君B君夾角的余弦是0.81 ,A君C君夾角的余弦是 -0.97 ,公式誠不欺我也。 以上是三維(三首歌)的情況,如法炮制N維N首歌的情況都是一樣的。 假設我們選取一百首種子歌曲,算出了各君之間的相似值,那么當我們發現A君還喜歡聽的《小蘋果》B君居然沒聽過,相信大家都知道該怎么和B君推薦了吧。
第一類以人為本推薦算法的好處我想已經很清楚了,那就是精準!代價是運算量很大,而且對于新來的人(聽得少,動作少),也不太好使,所以人們又發明了第二類算法。假設我們對新來的D君,只知道她喜歡最炫民族風,那么問題來了,給她推薦啥好咯?
如圖,推薦《晴天》! 第二類算法的好處大家也看出來了,簡單粗暴好操作,可精度差了點。 所以,各家網站真正的推薦算法,是他們在綜合上述兩類算法的基礎上,各自研制并且不斷地改進調節的,外人不得而知!
由此可見,通過類似amazon以及紙牌屋中的算法分析,網友們預測了網易云音樂的日推算法,也讓小菜的我領略到了算法世界的神奇,只有想不到,一旦想到了就能做到。
附注:(知乎中的討論帖)。
新聞熱點
疑難解答