国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網站 > 優化推廣 > 正文

網站建設-怎樣建設對搜索引擎友好的站點

2024-04-26 13:56:45
字體:
來源:轉載
供稿:網友

我們可以借用郭小四的名言來形容現今的搜索引擎時代——這是一個最好的時代,也是最壞的時代。搜索引擎技術飛速發展,對網站的解析越來越充分,而各家網站也面臨著強勁的對手競品,如何讓自己的網站對搜索引擎對百度更加友好,是站長要充分考慮的問題。

本篇的主旨就告訴站長:怎樣建設對搜索引擎友好的站點。

目前分為五個章節:友好抓取鏈接建設網站安全網站變更其他

網站建設-怎樣建設對搜索引擎友好的站點_www.cuoXin.com

第一節-友好抓取

如何正確識別Baiduspider移動ua

新版移動ua:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

PC ua:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

之前通過“+http://www.baidu.com/search/spider.html”進行識別的網站請注意!您需要修改識別方式,新的正確的識別Baiduspider移動ua的方法如下:

1. 通過關鍵詞“Android”或者“Mobile”來進行識別,判斷為移動訪問或者抓取。

2. 通過關鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。

另外需要強調的是,對于robots封禁,如果封禁的agent是Baiduspider,會對PC和移動同時生效。即,無論是PC還是移動Baiduspider,都不會對封禁對象進行抓取。之所以要強調這一點,是發現有些代碼適配站點(同一個url,PC ua打開的時候是PC頁,移動ua打開的時候是移動頁),想通過設置robots的agent封禁達到只讓移動Baiduspider抓取的目的,但由于PC和移動Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。

如何識別百度蜘蛛

百度蜘蛛對于站長來說可謂上賓,可是我們曾經遇到站長這樣提問:我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?其實站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:

1、在linux平臺下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。

網站建設-怎樣建設對搜索引擎友好的站點_www.cuoXin.com

2、在windows平臺或者IBM OS/2平臺下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。

3、 在mac os平臺下,您可以使用dig 命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。

Baiduspider IP是多少

即便很多站長知道了如何判斷百度蜘蛛,仍然會不斷地問“百度蜘蛛IP是多少”。我們理解站長的意思,是想將百度蜘蛛所在IP加入白名單,只準白名單下IP對網站進行抓取,避免被采集等行為。

但我們不建議站長這樣做。雖然百度蜘蛛的確有一個IP池,真實IP在這個IP池內切換,但是我們無法保證這個IP池整體不會發生變化。所以,我們建議站長勤看日志,發現惡意蜘蛛后放入黑名單,以保證百度的正常抓取。

同時,我們再次強調,通過IP來分辨百度蜘蛛的屬性是非常可笑的事情,所謂的“沙盒蜘蛛”“降權蜘蛛”等等是從來都不存在的。

robots寫法

robots是站點與spider溝通的重要渠道,站點通過robots文件聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。

robots文件往往放置于根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:

"<field>:<optional space><value><optionalspace>"

在該文件中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細情況如下:

User-agent:該項的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多條User-agent記錄說明有多個robot會受到"robots.txt"的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名為"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow:該項的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被 robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"則允許robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。"Disallow:"說明允許robot訪問該網站的所有url,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件,則對于所有的搜索引擎robot,該網站都是開放的。

Allow:該項的值用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL 是允許robot訪問的。例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有URL的功能。

使用"*"and"$":Baiduspider支持使用通配符"*"和"$"來模糊匹配url。

"*" 匹配0或多個任意字符

"$" 匹配行結束符。

最后需要說明的是:百度會嚴格遵守robots的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,百度會對robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則robots協議無法生效。

robots需求用法對應表

上面說了那么多理論,有沒有簡單對照表格告訴我,怎樣的需求場景下應該怎樣撰寫robots文件?有的:

網站建設-怎樣建設對搜索引擎友好的站點_www.cuoXin.com

除robots外其它禁止百度收錄的方法
Meta robots標簽是頁面head部分標簽的一種,也是一種用于禁止搜索引擎索引頁面內容的指令。目前百度僅支持nofollow和noarchive

nofollow:禁止搜索引擎跟蹤本頁面上的鏈接

如果您不想搜索引擎追蹤此網頁上的鏈接,且不傳遞鏈接的權重,請將此元標記置入網頁的<HEAD> 部分:<meta name="robots" content="nofollow">

如果您不想百度追蹤某一條特定鏈接,百度還支持更精確的控制,請將此標記直接寫在某條鏈接上:<a href="signin.php" rel="nofollow">signin</a>

要允許其他搜索引擎跟蹤,但僅防止百度跟蹤您網頁的鏈接,請將此元標記置入網頁的<HEAD> 部分:<meta name="Baiduspider" content="nofollow">

noarchive:禁止搜索引擎在搜索結果中顯示網頁快照

要防止所有搜索引擎顯示您網站的快照,請將此元標記置入網頁的<HEAD>部分:<meta name="robots" content="noarchive">

要允許其他搜索引擎顯示快照,但僅防止百度顯示,請使用以下標記:<meta name="Baiduspider" content="noarchive">

注:此標記只是禁止百度顯示該網頁的快照,百度會繼續為網頁建索引,并在搜索結果中顯示網頁摘要。

使用robots巧妙避免蜘蛛黑洞

對于百度搜索引擎來說,蜘蛛黑洞特指網站通過極低的成本制造出大量參數過多、內容類同但url不同的動態URL ,就像一個無限循環的“黑洞“,將spider困住。spider浪費了大量資源抓取的卻是無效網頁。

如很多網站都有篩選功能,通過篩選功能產生的網頁經常會被搜索引擎大量抓取,而這其中很大一部分是檢索價值低質的頁面。如“500-1000之間價格的租房”,首先網站(包括現實中)上基本沒有相關資源,其次站內用戶和搜索引擎用戶都沒有這種檢索習慣。這種網頁被搜索引擎大量抓取,只能是占用網站寶貴的抓取配額,那么該如何避免這種情況呢?

1. 我們以北京美團網為例,看看美團網是如何利用robots巧妙避免這種蜘蛛黑洞的:

2. 對于普通的篩選結果頁,使用了靜態鏈接,如:

3. http://bj.meituan.com/category/zizhucan/weigongcun

4. 同樣是條件篩選結果頁,當用戶選擇不同排序條件后,會生成帶有不同參數的動態鏈接,而且即使是同一種排序條件(如:都是按銷量降序排列),生成的參數也都是不同的。如:http://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

對于美團網來說,只讓搜索引擎抓取篩選結果頁就可以了,而各種帶參數的結果排序頁面則通過robots規則拒絕提供給搜索引擎。在robots.txt的文件用法中有這樣一條規則:Disallow: /*?* ,即禁止搜索引擎訪問網站中所有的動態頁面。美團網恰是通過這種方式,對spider優先展示高質量頁面、屏蔽了低質量頁面,為spider提供了更友好的網站結構,避免了黑洞的形成。

禁止百度圖片搜索收錄某些圖片的方法
目前百度圖片搜索也使用了與百度網頁搜索相同的spider,如果想禁止Baiduspider抓取網站上所有圖片、禁止或允許Baiduspider抓取網站上的某種特定格式的圖片文件可以通過設置robots實現:

網站建設-怎樣建設對搜索引擎友好的站點_www.cuoXin.com

503狀態碼的使用場景及與404的區別

Html狀態碼也是網站與spider進行交流的渠道之一,會告訴spider網頁目前的狀態,spider再來決定下一步該怎么做——抓or不抓or下次再來看看。對于200狀態碼大家已經很熟了,那么我們來介紹幾種常見的失效網頁使用的狀態碼:

【404】404返回碼的含義是“NOT FOUND”,百度會認為網頁已經失效,那么通常會從搜索結果中刪除,并且短期內spider再次發現這條url也不會抓取。

【503】503返回碼的含義是“Service Unavailable”,百度會認為該網頁臨時不可訪問,通常網站臨時關閉,帶寬有限等會產生這種情況。對于網頁返回503,百度spider不會把這條url直接刪除,短期內會再訪問。屆時如果網頁已恢復,則正常抓取;如果繼續返回503,短期內還會反復訪問幾次。但是如果網頁長期返回503,那么這個url仍會被百度認為是失效鏈接,從搜索結果中刪除。

【301】301返回碼的含義是“Moved Permanently”,百度會認為網頁當前跳轉至新url。當遇到站點遷移,域名更換、站點改版的情況時,推薦使用301返回碼,盡量減少改版帶來的流量損失。雖然百度spider現在對301跳轉的響應周期較長,但我們還是推薦大家這么做。

一些網站把未建好的頁面放到線上,并且這些頁面在被百度抓取的時候返回碼是404,于是頁面被百度抓取后會被當成死鏈直接刪除。但是這個頁面在第二天或者過幾天就會建好,并上線到網站內展現出來,但是由于之前已經被百度當做死鏈刪除,所以要再次等這些鏈接被發現,然后抓取才能展現,這樣的操作最終會導致一些頁面在一段時間內不會在百度出現。比如某個大型門戶網站爆出大量新聞時效性很強的專題未被百度及時收錄的問題,經檢查驗證后發現就是因為頁面未建成就放置在線上,并返回404狀態碼,被百度當成死鏈刪除,造成收錄和流量損失。

對于這樣的問題,建議網站使用503返回碼,這樣百度的抓取器接到503返回碼后,會在隔一段時間再去訪問這個地址,在您的頁面建好上線后,就又能被重新抓取,保證頁面及時被抓取和索引,避免未建好的內容設為404后帶來不必要的收錄和流量損失。

其它建議和總結:

1、如果百度spider對您的站點抓取壓力過大,請盡量不要使用404,同樣建議返回503。這樣百度spider會過段時間再來嘗試抓取這個鏈接,如果那個時間站點空閑,那它就會被成功抓取了

2、如果站點臨時關閉或者頁面暫未建好上線,當網頁不能打開時以及沒有建好時,不要立即返回404,建議使用503狀態。503可以告知百度spider該頁面臨時不可訪問,請過段時間再重試。

連通率為0的前因后果及預防補救措施

https站點如何做才能對百度友好

2015年5月25日,百度站長平臺發布公告,宣布全面放開對https站點的收錄,https站點不再需要做任何額外工作即可被百度抓收。采用了本文之前建議的https站點可以關閉http版,或者將http頁面跳轉到對應的https頁面。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

百度搜索引擎目前不主動抓取https網頁,導致大部分https網頁無法收錄。但是如果網站一定要使用https加密協議的話該如何做到對百度搜索引擎友好呢。其實很簡單:

1,為需要被百度搜索引擎收錄的https頁面制作http可訪問版。

2,通過user-agent判斷來訪者,將Baiduspider定向到http頁面,普通用戶通過百度搜索引擎訪問該頁面時,通過301重定向至相應的https頁面。如圖所示,上圖為百度收錄的http版本,下圖為用戶點擊后會自動跳入https版本。

網站建設-怎樣建設對搜索引擎友好的站點_www.cuoXin.com

網站建設-怎樣建設對搜索引擎友好的站點_www.cuoXin.com

3,http版本不是只為首頁制作,其它重要頁面也需要制作http版本,且互相鏈接,切不要出現這種情況:首頁http頁面上的鏈接依然鏈向https頁面,導致Baiduspider無法繼續抓取——我們曾經遇到這種情況,導致整個網點我們只能收錄一個首頁。如下面這個做法就是錯誤的:http://www.abc.com/ 鏈向https://www.adc.com/bbs/

4,可以將部分不需要加密的內容,如資訊等使用二級域名承載。比如支付寶站點,核心加密內容放在https上,可以讓Baiduspider直接抓取的內容都放置在二級域名上。

網站建設-怎樣建設對搜索引擎友好的站點_www.cuoXin.com

第二節:鏈接建設

買賣鏈接對站點的危害

眾所周知,搜索引擎會對站點獲得鏈接的數量和質量進行分析,從而做出對網站的評價,最終影響站點在搜索結果中的表現。在搜索引擎看來,站點的鏈接質量比數量更為重要,然而愈演愈烈的鏈接買賣風潮,已經開始威脅到搜索引擎的公正性。為此百度質量團隊推出了綠蘿算法對買賣鏈接行為進行打擊。

搜索引擎認為站點每發出一個鏈接指向另一個站點,都是一次投票行為,請您珍惜每一次投票的權力,而不是將這個權力出售,更不應該打包賣給鏈接中介公司。如果搜索引索發現站點有出售鏈接的行為,則會影響到站點在搜索引擎系統中的整體表現。對于廣告類的鏈接,請您使用nofollow屬性進行設置。除不出售鏈接外,您還應該關注建站程序的安全更新,及時安裝補丁程序;經常對網站發出的鏈接進行檢查,看是否有多余的、非主觀意愿存在的鏈接,以免站點在不知情的情況下被黑帽SEO添加鏈接。

建議您不要企圖求助于黑帽SEO和鏈接中介公司,他們很有可能使用極不正當的手段令站點在短時間內獲得一定效果,但是搜索引擎有專門的程序去識別各種手段和行為,一旦被發現,站點會無法得到預期的效果,甚至被搜索引擎懲罰處理。最后,希望各位站長放眼于長遠的未來,不要為眼前的蠅頭小利所迷惑。將精力放在在自身內容和品牌建設上,拓展更多良性發展的盈利模式。

內鏈建設的大忌

在《百度搜索引擎工作原理》課程中我們提到過,Baiduspider需要知道站點里哪個頁面更重要,其中一個渠道就是內鏈。那么內鏈建設有哪些大忌呢:

死循環鏈接:死循環鏈接是搜索引擎蜘蛛最郁悶的事情了,往往會把搜索引擎蜘蛛卡在一個角落中,無限的循環而走不出來,不僅白白浪費蜘蛛體力,也會占用網站大量爬取頻率,造成有價值的網頁抓取不全。比如萬年歷等非常實用的工具網站,很多時候這些工具你都可以無限的點擊,每次點擊都產生一個新的url,如果你沒有屏蔽蜘蛛爬取這些內容,那么蜘蛛有可能會被帶入到一個無限循環的境地,這樣的做法對任何一個搜索引擎都是不友好的。

還有一種就是動態、帶“?”號的url。這是由于動態網站的一個動態文件(如.php)可以產生上萬個或者無數個鏈接,如果部分php文件內部又再次鏈向自己。蜘蛛進去就很難再爬出來。

鏈接404后不消除內鏈入口:頁面404后,除了需要向百度站長平臺提交外,應該盡量關閉其在網站內部的入口,一來死鏈對用戶的傷害是極大的,二來避免令蜘蛛產生錯覺,認為你網站死鏈嚴重。

只有入鏈沒有出鏈:有些人認為網頁上的出鏈太多會分散頁面本身的得分,所以在重要頁面上不設計出鏈,實際這與百度的認知是相悖的,百度認為一個優質的網站結構應該像一張網,所有頁面都會與其他頁面產生鏈接,蜘蛛會順著一個頁面遍歷所以頁面。只有入鏈而沒有出鏈的結構對蜘蛛來說是不友好的。當然,整個網站僅一兩個網頁只有入鏈沒有出鏈是無所謂的,但數量千萬不要多。

無返回上級目錄的鏈接:我們提倡盡量在每個頁面上使用面包屑導航,以告訴搜索引擎頁面內容與首頁的關系及距離;同時對于用戶來說,面包屑導航也是延長用戶平均訪問時長的重要工具。只有內容而沒有返回上級目錄的頁面就像一本永遠無法訪問目錄的書,聽起來是不是怪怪的?

錯誤的錨文本:內鏈的作用并不僅僅是頁面權值傳遞和內部投票,百度還會通過錨文本輔助判斷網頁的內容,錯誤的錨文本很可能會誤導百度對于相關性的計算,對搜索排序產生負面影響。同時對于只能通過錨文本來判斷是否要點擊打開新網頁的用戶來說,無疑也是一種傷害。

網站應該拒絕哪些外鏈

百度搜索引擎雖然降低了對超鏈的依賴,但依然沒有放棄對不同質量鏈接的識別,制定了一套針對優質外鏈、普通外鏈、垃圾外鏈、作弊外鏈的識別原則和方法。在繼續信任優質外鏈的同時,加大對作弊外鏈的打擊,同時對部分作弊外鏈的受益站點進行打擊。為了避免被百度搜索引擎懷疑為超鏈作弊,建議站長定期檢查站點的外鏈情況,發現異常及時通過百度站長平臺的拒絕外鏈工具進行自我保護。同時如果你之前有過購買鏈接、群發外鏈的行為,可以通過拒絕外鏈工具進行修正。

那么除了要拒絕被黑網頁發出的鏈接、買來的鏈接外,還有哪些鏈接應該被拒絕呢。

1, 來自垃圾站群的鏈接:有些黑帽會通過非法手段在你的站點產生大量頁面,再組織站群發送外鏈至這批頁面上。這樣的鏈接必須及時處理。

2, 來自不相關低質站點群的鏈接:百度認為相同主題網站之間的鏈接更友好,所以,如果你的網站被一批其它主題網站鏈接了,一定要及時查看這批網站的質量,如果質量不高,盡量拒絕。

使用拒絕外鏈工具還有一些注意事項:

1,您通過工具拒絕外鏈的需求將無法撤銷或刪除,所以需要謹慎使用

2,我們不能保證短時間內就能去掉垃圾作弊外鏈對網站的負面影響,清理過程可能長達數周,請站長耐心等待

第三節:網站安全

UGC站點如何進行防護工作

由于大多數UGC建站系統存在漏洞,攻克技術成本較低,且群發軟件價格低廉,容易被作弊者利用,近期我們發現大量UGC站點被群發的垃圾信息困擾。這些垃圾群發內容無孔不入,除論壇、博客等傳統的UGC站點受到困擾外,現已蔓延到微博、SNS、B2B商情頁、公司黃頁、分類信息、視頻站、網盤等更多領域內,甚至連新興的分享社區也受到了影響。從以前的論壇帖子、博客日志,擴展到供求信息頁、視頻頁、用戶資料頁,這些任何由用戶填寫和生成內容的地方,都會被作弊者發掘利用,形成大量的UGC性質的垃圾頁面。

搜索引擎在發現UGC性質的垃圾頁面后必將做出相應應對,但對真正操作群發的作弊者很難有效的打擊,所以作弊者容易利用UGC站點極低成本且自身安全這些特點,做出更多危害網站、危害用戶、危害搜索引擎的行為。若網站自身管理不嚴控制不力,很容易成為垃圾內容的溫床;有些網站為了短期流量而對垃圾內容置之不理,這無異于飲鴆止渴。網站不應僅僅是平臺的提供者,更應該是內容的管理者,積極維護網站自身質量非常重要。若網站任由垃圾內容滋長,不僅會影響網站的用戶體驗,同時也會破壞網站口碑和自身品牌建設,造成正常用戶流失,嚴重時,還會使搜索引擎降低對網站的評價。

對于作弊者來說,在UGC站點上發布垃圾內容的目的就是被搜索引擎收錄,如果不能讓垃圾頁面在網站和搜索引擎上消失,他們依然會持續不斷地產生更多垃圾內容。百度站長平臺希望和站長一起打擊垃圾頁面,幫助網站良性發展,共同維護互聯網生態環境。

一,UGC垃圾典型case

1、與網站或論壇版塊主題不符的內容

2、欺騙搜索引擎用戶的內容

1)使用夸大誘人的標題,或在內容中穿插堆積熱門關鍵詞

2)有些文章看標題以為在說A事,而主要內容卻在講B,且與A毫無關系

3)視頻或音頻文件標題所述不符

4)欺騙網站詐取分帳式廣告收益的內容

5)專門利用UGC網站為自己做推廣、謀福利

6)詐騙中獎、虛假聯系電話、不良信息

二,UGC管理員該怎么做

1,刪除垃圾內容,并將這些頁面設置為404頁面后,及時通過百度站長平臺的死鏈工具提交死鏈列表

2,提高注冊用戶門檻,限制機器注冊

群發軟件通常使用自動的程序探測論壇默認的注冊文件名、發帖文件名。管理員可以不定期的修改注冊用戶文件名、發帖文件名;注冊、發帖按鈕使用圖片;與程序默認的不同,可以防止被自動程序搜索到。

發帖機通常是機器注冊,行為模式單一。管理員可添加一些需要人工操作的步驟,有助于限制機器注冊。如使用驗證碼;限制同一郵箱注冊ID的數量,同時啟用郵箱驗證;使用更為復雜的驗證機制;經常更換注冊問答。

除了在注冊處設置門檻外,還可以控制新用戶權限。如要求完成上傳頭像、完善用戶信息等人工操作步驟后才開放發帖功能;在一定時間內限制新用戶發帖;限制新用戶發布帶鏈接的帖子,待達到一定級別后再放開。

3,嚴控機器發帖行為,如使用驗證碼、限制短時間內連續發帖等

4,建立黑名單機制,將群發常用詞、廣告電話和網址等加入黑名單,對含有黑名單內容的帖子進行限制或清除。黑名單應該不斷維護

5,對站內異常內容進行監控,發現爆增數據后及時查找原因

6,對站點內用戶的行為進行監控

部分異常用戶的ID結構有別于普通用戶,如使用無意義的字母數字、或幾個單個漢字的無序組合

如:gtu4gn6dy1、蝶淑琴;使用商業詞作為ID,如:軸承天地7、hangkongfuwu123

發布內容間隔過短

發布的內容絕大部分非常類似

發布的大部分內容里含有類似的特征,如某個網址、電話、QQ號碼等聯系方式

7,不允許發布帶有可執行代碼的內容,避免彈窗、跳轉等嚴重影響用戶體驗的情況發生。

8,對部分UGC位置提及的鏈接,使用“nofollow”進行標記,如:bbs簽名內的鏈接、BLOG回復ID自置的鏈接

9,論壇中的廣告、灌水版塊,建議加上權限限制,或者禁止搜索引擎收錄。

10,關注建站程序的安全更新,及時安裝補丁程序。保障用戶賬號安全,避免發生盜用正常用戶賬號或歷史沉寂用戶賬號發布垃圾內容的情況發生。

網站安全之防止被黑

這里所說的被黑,指黑客通過網站漏洞篡改網頁內容、為網站惡意添加許多垃圾頁面,內容往往與博彩、游戲等熱門關鍵詞有關,然后利于網站在搜索引擎中的天然優勢騙取更多流量。互聯網上所有網站其實都存在被黑的可能,尤其是已在搜索引擎中獲得較好表現的站點更要注意,千萬不要讓被黑令自己的心血付之東流。

一,如何判斷網站被黑

先通過外界對網站進行觀察,如果有如下現象,那您的網站可能被黑了

1、通過百度站長平臺的索引量工具,發現站點收錄量大增;再通過搜索關鍵詞工具發現,站點獲得流量的關鍵詞中有很多與本站點無關。

2、通過Site語法查詢站點,顯示搜索引擎收錄了大量非本站應有的頁面。

注:site查詢結合一些常見的色情、游戲、境外博彩類關鍵字,可幫助站長更快的找到異常頁面,例如“site:www.abcxyz.com 博彩”

3、從百度搜索結果中點擊站點頁面,跳轉到了其他站點。

4、站點內容在搜索結果中被提示存在風險。

5、從搜索引擎帶來的流量短時間內異常暴增。

二,進一步難證網站是否被黑

通過上述方法站長懷疑自己的網站被黑了,那么該如何對黑出來的內容進行排查呢?

1、分析系統和服務器日志,檢查自己站點的頁面數量、用戶訪問流量等是否有異常波動,是否存在異常訪問或操作日志;

2、檢查網站文件是否有不正常的修改,尤其是首頁等重點頁面;

3、網站頁面是否引用了未知站點的資源(圖片、JS等),是否被放置了異常鏈接;

4、檢查網站是否有不正常增加的文件或目錄;

5、檢查網站目錄中是否有非管理員打包的網站源碼、未知txt文件等;

6、使用百度站長平臺抓取診斷工具,診斷網頁是否被加了

主站蜘蛛池模板: 聂拉木县| 三门峡市| 镇康县| 延吉市| 东安县| 芮城县| 南岸区| 偏关县| 勃利县| 三台县| 罗城| 屯昌县| 沛县| 邢台县| 高阳县| 衢州市| 龙州县| 横峰县| 定陶县| 延庆县| 靖西县| 平乡县| 凤冈县| 平山县| 扶沟县| 门头沟区| 陈巴尔虎旗| 靖江市| 蒙山县| 会东县| 安泽县| 繁峙县| 双柏县| 定安县| 太和县| 台东市| 泌阳县| 宜春市| 洛扎县| 昌吉市| 江永县|