国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

TF-IDF與余弦相似性的應(yīng)用(二) 找出相似文章

2020-02-16 11:13:23
字體:
供稿:網(wǎng)友

上一次,我用TF-IDF算法自動(dòng)提取關(guān)鍵詞。

今天,我們?cè)賮硌芯苛硪粋€(gè)相關(guān)的問題。有些時(shí)候,除了找到關(guān)鍵詞,我們還希望找到與原文章相似的其他文章。比如,"Google新聞"在主新聞下方,還提供多條相似的新聞。

為了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我舉一個(gè)例子來說明,什么是"余弦相似性"。

為了簡單起見,我們先從句子著手。

  句子A:我喜歡看電視,不喜歡看電影。
  句子B:我不喜歡看電視,也不喜歡看電影。

請(qǐng)問怎樣才能計(jì)算上面兩句話的相似程度?

基本思路是:如果這兩句話的用詞越相似,它們的內(nèi)容就應(yīng)該越相似。因此,可以從詞頻入手,計(jì)算它們的相似程度。

第一步,分詞。
  句子A:我/喜歡/看/電視,不/喜歡/看/電影。
  句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。

第二步,列出所有的詞。
  我,喜歡,看,電視,電影,不,也。

第三步,計(jì)算詞頻。
  句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。
  句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。

第四步,寫出詞頻向量。
  句子A:[1, 2, 2, 1, 1, 1, 0]
  句子B:[1, 2, 2, 1, 1, 2, 1]

到這里,問題就變成了如何計(jì)算這兩個(gè)向量的相似程度。

我們可以把它們想象成空間中的兩條線段,都是從原點(diǎn)([0, 0, ...])出發(fā),指向不同的方向。兩條線段之間形成一個(gè)夾角,如果夾角為 0 度,意味著方向相同、線段重合;如果夾角為 90 度,意味著形成直角,方向完全不相似;如果夾角為 180 度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。

以二維空間為例,上圖的a和b是兩個(gè)向量,我們要計(jì)算它們的夾角θ。余弦定理告訴我們,可以用下面的公式求得:

假定a向量是[x1, y1],b向量是[x2, y2],那么可以將余弦定理改寫成下面的形式:

數(shù)學(xué)家已經(jīng)證明,余弦的這種計(jì)算方法對(duì)n維向量也成立。假定A和B是兩個(gè)n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的余弦等于:

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 桐乡市| 巢湖市| 石泉县| 公安县| 梧州市| 林口县| 台南市| 天全县| 浪卡子县| 平潭县| 昌乐县| 新田县| 栾川县| 乐平市| 柳河县| 土默特右旗| 墨竹工卡县| 社旗县| 岳池县| 扬中市| 静宁县| 瑞安市| 留坝县| 承德市| 修武县| 思茅市| 多伦县| 晋江市| 海南省| 泸州市| 贵州省| 繁峙县| 忻州市| 葵青区| 图木舒克市| 娄底市| 呼图壁县| 沙坪坝区| 仙桃市| 迭部县| 阜宁县|