《廣州沙龍精華內(nèi)容大分享?。ㄓ鞋F(xiàn)場QA干貨!)》里僅體現(xiàn)了廣州沙龍現(xiàn)場,牛人們(百度站長平臺資深專家王淘、搜外創(chuàng)始人夫唯等)針對搜索引擎趨勢的對話,我們技術(shù)男們關(guān)注的實(shí)操問題由太平洋SEO負(fù)責(zé)人黃勇作為代表進(jìn)行發(fā)問,王淘和Baiduspider專家孫權(quán)給了非常專業(yè)的答復(fù)。由于現(xiàn)場交流以日常口語為主,不適合大家閱讀,后期小編進(jìn)行了書面語言加工,所以發(fā)布遲了些,看在小編連圣誕節(jié)都過不上辛苦加班碼字的份兒上,大家多多點(diǎn)贊哈。
黃勇:有一天我們有一個(gè)網(wǎng)站發(fā)現(xiàn)來了非常多的爬蟲,給服務(wù)器造成了極大的壓力。于是我們緊急屏蔽了所有爬蟲IP和UA。可是等一段時(shí)間后,我們解除解禁后,卻發(fā)現(xiàn)恢復(fù)起來非常緩慢,基本上兩個(gè)月后才回到了當(dāng)時(shí)的水平。大家的站越做越大,肯定會遇到龐大的訪問壓力、抓蟲抓取方面的問題,所以想借此機(jī)會咨詢一下,看在這方面有沒有一個(gè)好的解決辦法。
王淘:理論上講,站點(diǎn)屏蔽了Baiduspider后的恢復(fù)周期的確比較長,但是有沒有措施就請孫權(quán)講一下了。
孫權(quán):通過封禁UA或IP的方式來拒絕百度蜘蛛,一天以上后果都是非常嚴(yán)重的。就這個(gè)問題來說目前沒有快速的方法可以讓你在短時(shí)間內(nèi)恢復(fù)。這是站點(diǎn)自身運(yùn)行的一個(gè)故障,并不是百度策略上面有什么問題。還有就是,網(wǎng)站在無法訪問期間,很多因子都會受到影響,百度在給網(wǎng)站進(jìn)行綜合打分時(shí)會綜合計(jì)算多個(gè)因子,所以說,即使是網(wǎng)站訪問恢復(fù)了,但其它因子的負(fù)面影響還在,網(wǎng)站恢復(fù)起來也還是非常困難的。
(接上)
觀眾提問:用閉站保護(hù)能解決這個(gè)問題嗎?
孫權(quán):不能。閉站保護(hù)前提是把網(wǎng)站死掉,指的是爬蟲不能抓取,同時(shí)用戶也訪問不了。。
(接上)
王淘:其實(shí)我建議不管對什么樣的IP或者UA都不要直接封禁,設(shè)置502會好一點(diǎn)。
黃勇:當(dāng)時(shí)我們也有想過設(shè)置502,但考慮到這個(gè)問題不是短期內(nèi)能夠解決的,擔(dān)心使用502被搜索引擎視為欺騙,畢竟是服務(wù)器的問題嘛,應(yīng)該是403,干嘛告訴人家說是502。我們非常害怕因?yàn)槭褂萌∏傻淖龇ǘ鴰砀鼑?yán)重的后果
王淘:這個(gè)還好,如果你網(wǎng)頁明確不想讓搜索引擎訪問就403就好了,如果走屏蔽其實(shí)502也無所謂,僅僅是我們浪費(fèi)流量重新抓幾次,這是比較謹(jǐn)慎的情況。我們抓不到你們內(nèi)容對我們來說也是損失。
(接上)
孫權(quán):可能很多站長會問,為什么我的站持續(xù)一段時(shí)間訪問不了后排名會掉得那么厲害,就是因?yàn)榘俣日J(rèn)為網(wǎng)站可訪問性有問題,目前百度對可訪問性有問題的網(wǎng)站打壓是非常厲害的。所以,面對網(wǎng)站爬蟲訪問量突增的情況,我不建議站長立刻去封我們的爬蟲,你可以通過百度站長平臺抓取頻次工具,把這個(gè)爬蟲壓力調(diào)低,但是不可以封掉。比如本來一天來抓50萬,你調(diào)低到2萬,我們后臺的Spider策略都是認(rèn)這個(gè)值的。
黃勇:《301跳轉(zhuǎn)常見問題匯總》文章中提到站點(diǎn)設(shè)置301后,“百度不會刪除舊網(wǎng)頁,新舊網(wǎng)頁同時(shí)存在,百度在搜索結(jié)果中會優(yōu)先展現(xiàn)新網(wǎng)頁”,但實(shí)際情況是,會發(fā)生新舊頁面交替獲得排名的現(xiàn)象,這是什么原因?
王淘:這個(gè)問題主要是由我們的系統(tǒng)造成的。我們系統(tǒng)有非常多的模塊,每個(gè)模塊都要去單獨(dú)處理301更替,偶爾有一些模塊的處理邏輯可能有出現(xiàn)問題,可能出現(xiàn)一些波動(dòng)。我們在6月份左右時(shí)做過一次大規(guī)模的改進(jìn),基本上把所有的模塊都理了一遍,把所有歸一化都做了統(tǒng)一,現(xiàn)在這樣的問題比較少了。
黃勇:百度快照時(shí)間與頁面質(zhì)量、抓取更新頻率是否有什么關(guān)系?
王淘:快照時(shí)間沒有任何參考價(jià)值,在排序時(shí)我們使用單獨(dú)的抓取時(shí)間統(tǒng)計(jì)系統(tǒng),外部不可見,站點(diǎn)完全不用關(guān)注百度的快照時(shí)間。
黃勇:文章頁的邊欄、底部部署大量與當(dāng)前文章間接相關(guān)的鏈接,是否會認(rèn)被為噪聲?是否影響頁面本身內(nèi)容識別和收錄?
王淘:網(wǎng)頁在建庫時(shí)會判斷頁面的主體內(nèi)容,而邊框這部分的內(nèi)容基本不算在內(nèi),所以基本不會有影響,只有一些鏈接發(fā)現(xiàn)的作用。
黃勇:Canonical 的使用范圍,百度提到“高度相似”,這個(gè)“高度相似”到底是什么標(biāo)準(zhǔn)?例如這兩個(gè)頁面:
王淘:“高度相似”是指網(wǎng)站的標(biāo)題、主體內(nèi)容以及網(wǎng)站的結(jié)構(gòu)都相似,從這個(gè)案例來看網(wǎng)站結(jié)構(gòu)不同,對Baiduspider來說完全是兩個(gè)不同頁面,canonical標(biāo)簽不會生效。
黃勇:請問百度如何看待一個(gè)采集了優(yōu)質(zhì)內(nèi)容,但瀏覽體驗(yàn)和訪問性都好的網(wǎng)站?
王淘:對于百度來說,能夠提供滿足用戶需求的內(nèi)容、有良好用戶體驗(yàn)的網(wǎng)站就是好網(wǎng)站。有些站點(diǎn)從從外站轉(zhuǎn)載來內(nèi)容,經(jīng)過加工提供了內(nèi)容增益,更好的滿足了用戶需求,同樣可以得到好的展現(xiàn)。
來源:seo優(yōu)化網(wǎng) 轉(zhuǎn)載注明出處!
新聞熱點(diǎn)
疑難解答
圖片精選