技術(shù):robots、Canonical標(biāo)簽和Crawl-delay設(shè)置
合肥網(wǎng)站推廣-佳達(dá)網(wǎng)絡(luò)小編匯編
1、robots.txt文件
如果你以為網(wǎng)站index文件是搜索引擎訪問網(wǎng)站時查看的第一個文件,那么你錯了!robots.txt才是百度等搜索引擎訪問網(wǎng)站時查看的第一個文件,這個文件用于指定spider在該網(wǎng)站上的抓取范圍。如果網(wǎng)站對百度spider設(shè)置了robots.txt文件,百度會遵循robots協(xié)議,不去抓取封禁的結(jié)果,但是考慮到用戶在搜索引擎中有搜索該網(wǎng)站地址的需求,搜索結(jié)果中會根據(jù)搜索需求展示網(wǎng)站的標(biāo)題及網(wǎng)址,但不會顯示網(wǎng)站的摘要。
這就是百度在今年1月上線的百度網(wǎng)頁搜索結(jié)果robots提示。
2、Canonical標(biāo)簽
為了避免重復(fù)內(nèi)容的收錄,百度會通過算法對網(wǎng)頁內(nèi)容及鏈接進(jìn)行識別,對內(nèi)容完全相同或者高度相似的網(wǎng)頁,會計算出一個系統(tǒng)認(rèn)為規(guī)范的網(wǎng)頁結(jié)果建立索引并供用戶查詢。
支持Canonical標(biāo)簽以后,站長可以通過將 <link> 元素和 rel=”canonical” 屬性添加到該網(wǎng)頁非規(guī)范版本的<head> 部分,為搜索引擎指定規(guī)范網(wǎng)頁。添加此鏈接和屬性可以告訴百度:“在內(nèi)容相同或高度相似的所有網(wǎng)頁中,該網(wǎng)頁為最規(guī)范最有價值的頁面,推薦將該網(wǎng)頁排在搜索結(jié)果中靠前的位置?!?/p>
可通過在每個非規(guī)范版本的 HTML 網(wǎng)頁的 <head> 部分中,添加一個 rel=”canonical” 鏈接來進(jìn)行指定規(guī)范網(wǎng)址。
例如,要指定指向網(wǎng)頁 http://www.example.com/product.php?id=15786 的規(guī)范鏈接,需要按以下形式創(chuàng)建 <link> 元素:
<link rel=”canonical” href=”http://www.example.com/product.php?id=15786″/>
然后將上述鏈接復(fù)制到某網(wǎng)頁所有非規(guī)范網(wǎng)頁版本的 <head> 部分中(例如 http://www.example.com/product.php?id=15786&active=1),即可完成設(shè)置。
3、Crawl-delay設(shè)置
前兩點(diǎn)是百度支持,最后講一點(diǎn)百度不支持的。Crawl-delay設(shè)置原意是希望配置網(wǎng)站針對百度spider的訪問頻率,但百度已經(jīng)很明確不支持Crawl-delay配置,如果確有需要可以使用百度站長平臺的抓取壓力反饋工具,先查詢網(wǎng)站在百度近一個月的天級抓取量趨勢圖,可調(diào)節(jié)百度spider每天訪問您網(wǎng)站的抓取壓力上限,供百度參考,避免百度spider對站點(diǎn)抓取壓力過大,造成網(wǎng)站服務(wù)器負(fù)載及抓取異常。
今天給大家分享的幾個技術(shù)點(diǎn),還是有一點(diǎn)點(diǎn)專業(yè)的,愛好者不妨看看,或許有些收貨。
轉(zhuǎn)載請注明出處?合肥網(wǎng)絡(luò)公司佳達(dá)科技專注于網(wǎng)站推廣?3k98.com