国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網站 > 優化推廣 > 正文

數據分析III 維護詞庫

2024-04-26 13:58:45
字體:
來源:轉載
供稿:網友

前言
具體上一篇SEO數據分析文章已經隔了很久了,今天有個朋友網上問我,有了詞庫怎么維護。正好借這個機會談談這個問題。 在獲取到大量關鍵詞后,首先要對這些詞進行處理,在我實際工作中,總結以下幾個項目我做過或者覺得有必要做的事情。
提取實體(通俗點講就是找關鍵詞中的重點詞)
去重
受控詞表
分類
提取實體
提取實體的概念就是找關鍵詞中的重點詞。比如 “北京溫泉哪里好”,那這個詞中的”北京 “和”溫泉”這兩個詞是重點,”哪里好”只是一個疑問詞,對主題描述幫助相對比較小。于是我們就需要通過一些技術手段,對關鍵詞進行處理,把中間重要的關鍵詞(實體)取出來。
先看看下面的關鍵詞
處理前
北京博物館大全
北京懷北滑雪場
杭州到北京動車
北京金山嶺長城
北京旅行社排名
北京冬天去哪玩
西安到北京高鐵
廈門到北京機票
處理后
北京|博物館
北京|懷北|滑雪場
杭州|北京|動車
北京|金山嶺|長城
北京|溫泉
北京|旅行社|排名
北京|冬天|玩
西安|北京|高鐵
廈門|北京|機票
可以仔細觀察一下兩者的不同。這邊算法有很多種實現方法,鑒于從SEO的角度出發,我們對精確度和召回率的要求,一般都比較低。從0%到80%要花費的心思,可能還沒從80%——100%要花費的心思多。并且不同行業的,會有略微不同的做法。于是我采取以下兩個方法
1.根據詞性刪除停詞符號(多刪一些不要緊)
2.根據tf-idf過濾高頻詞(什么是tf-idf請自行腦補)
這邊說說分詞算法,很多學術派研究了一大堆中文分詞算法,但實際運用起來差別很小。這邊隨便推薦幾個,根據自己會的語言使用。
ICTCLAS
http://ictclas.nlpir.org/downloads 語言:Java,C#
CRF++
http://crfpp.sourceforge.net/ ; 語言: C#
SCWS
http://www.xunsearch.com/scws/ 語言: PHP
JIEBA
https://pypi.python.org/pypi/jieba/ 語言ython
分詞也是一門大學問,有興趣可以看看CRF,HMM等模型的邏輯。這邊就不展開講了。
分詞關鍵的問題是要速度快,并且可以自定義詞庫。由于我用的是JIEBA,這方面都能支持。

分詞后根據詞性,排除掉”停詞”,就獲取到了我們想要的結果集合。
過濾高頻詞。JIEBA可以對整個文本提取tf-idf值高的詞。這些詞是核心,肯定不可以去掉。
然后根據分詞結果獲取到tf值高的詞,進行人工審核一下,以我們旅游行業詞庫為例,地名是經常出現的詞,tf值可能會非常高,但是絕對不能把它去掉。所以我們需要先準備一份中國地名/景點名詞庫,這個可以在網上搜索下,懶人可以直接用搜狗輸入法的詞庫。
然后高頻詞中還有可能會出現的詞,可能為”7月”,”8月”,”大全”,”線路”等等。這些詞也可以考慮把它從實體詞中踢除。
經過這幾輪檢查,基本就差不多了,再要精度可以再自行研究。肯定有人問,你折騰了這么久,有什么用?這邊只能點到為止。
1.內容關聯
2.自動tagging
3.提高站內檢索精度
去年到今年搜房和安居客的SEO可以體會一下。
去重
提取實體后,就可以對關鍵詞進行去重。
例如
海南旅游多少錢
海南旅游要多少錢
處理后
海南|旅游
海南|旅游
就可以進行去重了。上面著兩個個詞,還可以通過實體相同的方法來解決。但是有一些關鍵詞,比如”馬爾代夫”和”馬代”,”長城”和”八達嶺”,用戶可以是指一個地方,我們應該怎么處理這些詞。我們就需要下面這么一個東西“受控詞表”
受控詞表
受控詞表,就是一種控制詞匯含義,并且跟蹤其相關詞的方法。回到上面的例子,如果你搜索”八達嶺”的時候,不能把長城的內容展現出來,相信用戶早就跑光了。
受控詞表主要有如下三大關系:等價,層級,關聯
等價很好理解,比如馬爾代夫和馬代,那是等價關系,這類詞可以說就是一個意思,權值是最高的。在內容推薦中一定要呈現出來。
層級有上下級之分,比如“夫子廟”是”南京景點大全”的下級詞。”大成殿”又是”夫子廟”的下級詞。在實際應用的時候,當用戶在尋找”大成殿”時,網站可以告訴用戶你位于”夫子廟”中間,并且推薦夫子廟周圍還有些什么好玩的東西,用戶一定會非常喜歡。層級關系也是大部分網站都有的信息架構體系,從首頁,到目錄,到欄目。
關聯,有點類似于等價,但是并不完全相同,例如”三亞跟團游”,”海口自助游”,”海南旅游 雙飛”。他們沒有說明確的上下級關系,但是又不能說完全一樣。這類詞,我們可以把其作為有關聯的東西。可以記錄下來。此外,一些內容的自帶的屬性,比如高,富,帥,可以作為一個相關聯的關鍵詞,在內容推薦上更加滿足用戶的口味。
這邊還要提一點,在工作中,我們發現了用戶有時候會有一些特殊的詞匯來表達自己的需求,比如”麻袋”(諧音馬代),或者”百撕不得騎姐”這樣該死的輸入法錯拼,這些關鍵詞都需要存放起來。
最后應該是這樣的效果:數據分析III <footer>
<div class=

感谢您访问我们的网站,您可能还对以下资源感兴趣:

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片
主站蜘蛛池模板: 财经| 屏东市| 云林县| 隆子县| 甘谷县| 临海市| 勃利县| 临桂县| 江永县| 张家界市| 基隆市| 孟津县| 漳浦县| 石家庄市| 建平县| 师宗县| 武穴市| 山阴县| 蛟河市| 新民市| 余江县| 兰坪| 辽阳县| 三门县| 海安县| 沾益县| 腾冲县| 通河县| 怀远县| 于田县| 伽师县| 辽宁省| 开江县| 泸溪县| 定远县| 上饶市| 邓州市| 峨眉山市| 府谷县| 平陆县| 达尔|