技術(shù):robots、Canonical標(biāo)簽和Crawl-delay設(shè)置
合肥網(wǎng)站推廣-佳達(dá)網(wǎng)絡(luò)小編匯編
1、robots.txt文件
如果你以為網(wǎng)站index文件是搜索引擎訪問(wèn)網(wǎng)站時(shí)查看的第一個(gè)文件,那么你錯(cuò)了!robots.txt才是百度等搜索引擎訪問(wèn)網(wǎng)站時(shí)查看的第一個(gè)文件,這個(gè)文件用于指定spider在該網(wǎng)站上的抓取范圍。如果網(wǎng)站對(duì)百度spider設(shè)置了robots.txt文件,百度會(huì)遵循robots協(xié)議,不去抓取封禁的結(jié)果,但是考慮到用戶在搜索引擎中有搜索該網(wǎng)站地址的需求,搜索結(jié)果中會(huì)根據(jù)搜索需求展示網(wǎng)站的標(biāo)題及網(wǎng)址,但不會(huì)顯示網(wǎng)站的摘要。
這就是百度在今年1月上線的百度網(wǎng)頁(yè)搜索結(jié)果robots提示。
2、Canonical標(biāo)簽
為了避免重復(fù)內(nèi)容的收錄,百度會(huì)通過(guò)算法對(duì)網(wǎng)頁(yè)內(nèi)容及鏈接進(jìn)行識(shí)別,對(duì)內(nèi)容完全相同或者高度相似的網(wǎng)頁(yè),會(huì)計(jì)算出一個(gè)系統(tǒng)認(rèn)為規(guī)范的網(wǎng)頁(yè)結(jié)果建立索引并供用戶查詢。
支持Canonical標(biāo)簽以后,站長(zhǎng)可以通過(guò)將 <link> 元素和 rel=”canonical” 屬性添加到該網(wǎng)頁(yè)非規(guī)范版本的<head> 部分,為搜索引擎指定規(guī)范網(wǎng)頁(yè)。添加此鏈接和屬性可以告訴百度:“在內(nèi)容相同或高度相似的所有網(wǎng)頁(yè)中,該網(wǎng)頁(yè)為最規(guī)范最有價(jià)值的頁(yè)面,推薦將該網(wǎng)頁(yè)排在搜索結(jié)果中靠前的位置?!?/p>
可通過(guò)在每個(gè)非規(guī)范版本的 HTML 網(wǎng)頁(yè)的 <head> 部分中,添加一個(gè) rel=”canonical” 鏈接來(lái)進(jìn)行指定規(guī)范網(wǎng)址。
例如,要指定指向網(wǎng)頁(yè) http://www.example.com/product.php?id=15786 的規(guī)范鏈接,需要按以下形式創(chuàng)建 <link> 元素:
<link rel=”canonical” href=”http://www.example.com/product.php?id=15786″/>
然后將上述鏈接復(fù)制到某網(wǎng)頁(yè)所有非規(guī)范網(wǎng)頁(yè)版本的 <head> 部分中(例如 http://www.example.com/product.php?id=15786&active=1),即可完成設(shè)置。
3、Crawl-delay設(shè)置
前兩點(diǎn)是百度支持,最后講一點(diǎn)百度不支持的。Crawl-delay設(shè)置原意是希望配置網(wǎng)站針對(duì)百度spider的訪問(wèn)頻率,但百度已經(jīng)很明確不支持Crawl-delay配置,如果確有需要可以使用百度站長(zhǎng)平臺(tái)的抓取壓力反饋工具,先查詢網(wǎng)站在百度近一個(gè)月的天級(jí)抓取量趨勢(shì)圖,可調(diào)節(jié)百度spider每天訪問(wèn)您網(wǎng)站的抓取壓力上限,供百度參考,避免百度spider對(duì)站點(diǎn)抓取壓力過(guò)大,造成網(wǎng)站服務(wù)器負(fù)載及抓取異常。
今天給大家分享的幾個(gè)技術(shù)點(diǎn),還是有一點(diǎn)點(diǎn)專業(yè)的,愛(ài)好者不妨看看,或許有些收貨。
轉(zhuǎn)載請(qǐng)注明出處?合肥網(wǎng)絡(luò)公司佳達(dá)科技專注于網(wǎng)站推廣?3k98.com