HITS(Hyperlink - Induced Topic Search)鏈接分析算法誕生在1997年,該算法是由康奈爾大學(xué)中的一位博士提出,并且該算法相沿于全球多個搜索引擎當(dāng)中。當(dāng)然,不同的搜索引擎針對于該算法的側(cè)重點和內(nèi)部公式都有不一的算法結(jié)構(gòu)調(diào)整,并且HITS算法也是鏈接分析中最為緊張的基礎(chǔ)算法之一。
對于目前國內(nèi)的團(tuán)體搜索引擎而言,百度作為國內(nèi)的搜索引擎領(lǐng)頭羊,我會帶著HITS的公開文檔針對百度搜索引擎進(jìn)行多元化的角度和實驗來深度解析HITS在SEO中的實戰(zhàn)應(yīng)用。
首先,我們先來了解一下什么是HITS算法,包括他的計算公式和算法原理以及他優(yōu)瑕玷。深刻的理解了這些含義以后,然后我們借助一些特定的實驗來驗證HITS的結(jié)果和實用性。
在HITS鏈接分析算法當(dāng)中,闡述最多的兩個點就是Hub頁面與Authority頁面。
一、什么是Authority頁面(權(quán)威頁面)
簡單來說Authority頁面(權(quán)威頁面)是指在某一個領(lǐng)域范圍內(nèi)或者某一個相干主題范圍內(nèi)的高質(zhì)量網(wǎng)頁。比如雇用領(lǐng)域,前程無憂網(wǎng)站的首頁就是該領(lǐng)域的一個高質(zhì)量優(yōu)質(zhì)網(wǎng)頁。比如淘寶首頁就是電商領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁。
二、什么是Hub頁面(樞紐頁面)
而Hub頁面(樞紐頁面)通常就是它頁面自己包含了許多高質(zhì)量的Authority頁面的鏈接,比如360網(wǎng)址導(dǎo)航首頁就是一個特別很是好的Hub頁面(樞紐頁面)。由于在360網(wǎng)址導(dǎo)航的站點頁面里面聚合了浩繁的不同類型的權(quán)威站點薈萃,比如消息板塊聚集了新浪、騰訊等權(quán)威站點。視頻板塊聚集了搜狐視頻、優(yōu)酷視頻等權(quán)威站點。這個點和大家經(jīng)常發(fā)布的一些分類目錄網(wǎng)站外鏈有點類似(所以為何網(wǎng)站目錄外鏈還存在肯定的結(jié)果,正是由于搜索引擎自己有本身特有的算法才會影響到你的排名)。
三、HITS算法意義
之所以存在HITS算法,是由于搜索引擎必要在全球所抓取的網(wǎng)頁文檔薈萃當(dāng)中找到與用戶搜索請求查詢詞匹配度與之相干最高的頁面進(jìn)行吻合匹配,而這里的匹配度相干最高的則是一些高質(zhì)量的“Authority”頁面和“Hub”頁面,而不是大家常常理解的站內(nèi)文章優(yōu)質(zhì)原創(chuàng)等因素。尤其是一些權(quán)威頁面,搜索引擎更加親耐,由于這類站點頁面的內(nèi)容會更加知足用戶查詢的內(nèi)容。
有許多同伙可能會問到一個題目,如何成為權(quán)威頁面或者樞紐頁面呢?
其實樞紐頁面在前面從概念意義上詮釋來說已經(jīng)告訴了大家如何去成為樞紐頁面。比如360導(dǎo)航網(wǎng)站的某一個站點類型的聚合頁面,再比如網(wǎng)站分類目錄站點的某一個站點類型的聚合頁面,這些都屬于樞紐頁面,但是樞紐頁面也會分為高質(zhì)量樞紐頁面和一樣平常性樞紐頁面。比如360導(dǎo)航網(wǎng)站首頁不僅是樞紐頁面并且照舊導(dǎo)航站點的權(quán)威頁面。
那么又如何成為權(quán)威頁面呢?
這里就會提到大家想要理解的一個深條理的東西了,所謂的高權(quán)重外鏈其實可以理解為高權(quán)威外鏈,即權(quán)重=權(quán)威。搜索引擎針對每一個站點和該站點的每一個頁面都有一系列的網(wǎng)頁評分,而這類評分決定著頁面的鏈接是否為有用的信賴度。而權(quán)威頁面每每會有幾個特點:
1、品牌屬性
不管是某一種類型的站點,一旦要想成為行業(yè)的權(quán)威,品牌屬性必定粘稠,這點大家可以從百度搜索引擎的貼心算法可以得知。如當(dāng)用戶搜索網(wǎng)上商城會聯(lián)想到京東、天貓;再如當(dāng)用戶搜索空調(diào)會聯(lián)想到海爾、格力、美的等著名品牌。正是由于這類品牌屬性,可以讓這類品牌官網(wǎng)站點在某一個行業(yè)領(lǐng)域形成獨(dú)特的權(quán)威度。但是,對于搜索引擎而言,這類品牌屬性搜索引擎是感觀不到的,而用戶卻可以知曉。由于對于用戶而言,用戶可以通過報刊,電視等多媒體體例了解到這些品牌的循環(huán)曝光,從而積累品牌的印象程度。那么搜索引擎是如何計算出這些品牌屬性的權(quán)威程度呢?針對搜索引擎來說,搜索引擎會通過全網(wǎng)抓取技術(shù)檢索全球所有網(wǎng)頁薈萃,根據(jù)文檔檢索模型計算出詞頻,而詞頻計算出來的相干詞頻次結(jié)合度最高的一類詞就是一個主題的吻合度。通常情況下,是行業(yè)產(chǎn)品詞+品牌詞檢索。
2、歷史屬性
歷史屬性我們可以稱之為信賴度屬性,何為信賴度屬性,簡單的理解就是一個權(quán)威的站點必定是自己的頁面存在肯定的真實性、可靠性的價值信賴信息,就如百度百科的詞條會有對應(yīng)的參考資料來作為參考佐證,從而針對內(nèi)容進(jìn)行信賴度提拔。所以即使內(nèi)容不是原創(chuàng),假如頁面知足了信賴度屬性,你的內(nèi)容一樣特別很是有價值,也利于搜索引擎優(yōu)化。信賴度屬性除了信息價值信賴之外還有一點就是歷史數(shù)據(jù)積累,這點在老域名站點表現(xiàn)的特別很是顯明。越老的站點信賴度屬性就表現(xiàn)的越顯明,比如做一些灰色產(chǎn)業(yè)或者做醫(yī)療的SEO人員就特別很是喜好采用使用過的并且干凈底子的老域名進(jìn)行優(yōu)化結(jié)果最佳。
3、曝光屬性
權(quán)威頁面除了品牌屬性和歷史數(shù)據(jù)積累等屬性還有一點就是曝光屬性,這類曝光屬性會包含兩個大類,其中是站內(nèi)曝光屬性和站外曝光屬性。站內(nèi)曝光屬性可以理解為頁面收錄量,一樣平常情況下,當(dāng)一個域名使用了10多年,天天都在充實著一些主題特別很是同等的優(yōu)質(zhì)樞紐頁面的時候,那么天然而然他的曝光也會放的很大。而站外曝光屬性就是在整個互聯(lián)網(wǎng)站點文檔薈萃里面所表現(xiàn)出你品牌屬性的詞頻薈萃和關(guān)鍵詞主題同等的文檔數(shù)量,比如闡述淘寶的網(wǎng)頁相干效果數(shù)有X億個網(wǎng)頁。而X億張網(wǎng)頁薈萃里面和淘寶相干度最密切的是關(guān)于電商、商城、網(wǎng)購等主題行業(yè)詞匯。那么通過歷史屬性的數(shù)據(jù)積累,淘寶站點在電商領(lǐng)域歸屬于權(quán)威站點。
四、HITS算法缺陷
每個搜索引擎算法都有本身的上風(fēng)和缺陷,HITS也不例外,在HITS算法當(dāng)中,有4個最常見的缺陷,其中包含了計算服從低、主題漂移、容易作弊和結(jié)構(gòu)不穩(wěn)固。
因為HITS算法是與之查詢相干的算法,所以不能先計算,而必須是用戶請求了某一個搜索詞以后才能去計算該詞的一些站點文檔匹配度(鏈接評分板塊),加上HITS算法的計算屬性必要通過多次的計算迭代才能最終計算出檢索效果的文檔鏈接的保舉度投票,所以導(dǎo)致計算服從比較低下。
而主題漂移題目則是大家常常可以看到了一些征象,即使我交換的鏈接和我站點主題沒有一條相干,但是也會促進(jìn)我的頁面關(guān)鍵詞排名提拔。而這種征象正是由于HITS的特別算法結(jié)構(gòu)才出現(xiàn)了給與這些無關(guān)網(wǎng)頁很高的排名。最終導(dǎo)致了搜索效果發(fā)生了主題漂移,而這種征象也稱為“緊密鏈接社區(qū)征象”。
之所以容易用來作弊是由于HITS強(qiáng)調(diào)的比較多的照舊樞紐頁面和權(quán)威頁面之間的一種相互加強(qiáng)關(guān)系。作弊者可以通過建立新頁面的情勢,并且在新建立的網(wǎng)頁中加入了許多高質(zhì)量的權(quán)威頁面鏈接,自身頁面就會形成了一個很好的樞紐頁面,然后作弊者可以通過該頁面的一個權(quán)威樞紐性,再指向作弊網(wǎng)頁鏈接,從而給與作弊網(wǎng)頁增長權(quán)威頁面得分。如下圖所示:
上圖所示的頁面文檔薈萃里面包含了4個導(dǎo)出鏈接,假設(shè)該頁面是闡述視頻網(wǎng)站排行榜的相干內(nèi)容信息,而4個導(dǎo)出鏈接均包含了不同的4個自力的視頻站點,其中三個為已知的權(quán)威站點,第二個站點為我們作弊的站點。而此體例可以用來增長鏈接的投票保舉度。
最后一個HITS的缺陷在于它的結(jié)構(gòu)不穩(wěn)固,何為結(jié)構(gòu)不穩(wěn)固?簡單來說就是在原來的網(wǎng)頁文檔薈萃里面,假如新增或刪除網(wǎng)頁鏈接,那么就會對HITS算法排名有著特別很是大的改變。比如大家都知道交換的鏈接除了相干性還必要講究穩(wěn)固性,卻不知道穩(wěn)固性這個概念正是由于HITS的缺陷而導(dǎo)致的,假如鏈接一旦不穩(wěn)固,包括鏈接位置變動、鏈接被刪除等都會影響算法結(jié)構(gòu)的重新計算。從而影響了自身站點的關(guān)鍵詞排名。
五、HITS算法實戰(zhàn)應(yīng)用(實驗)
如今我們到了SEO實驗階段了,說千道萬不如實戰(zhàn)驗證。因為文章的特別性,所以本文只發(fā)布和分析一個案例。首先我們來了解下實驗步驟!
步驟:
第一步:實驗假設(shè)
假設(shè)一:樞紐頁面與權(quán)威頁面均成立(存在這種征象/說法);
假設(shè)二:假設(shè)一個網(wǎng)站在不操作任何外鏈、站內(nèi)更新、站內(nèi)布局調(diào)整的情況通過HITS算法的邏輯提拔排名;
第二步:預(yù)備實驗站點(記錄實驗時間和站點快照時間)
1、首先我們預(yù)備了一個地區(qū)SEO詞排名在23位的站點,該站點的該詞排名穩(wěn)固23位超過1一個月(由于不排除其他外鏈、內(nèi)容更新影響排名的降落或者提拔),所以該站排名23位空檔穩(wěn)固一個月+最好。
2、然后我們記錄好站點的快照時間以及最后更新文章的時間節(jié)點,保證頁面沒有被蜘蛛抓取更新過和頁面做過內(nèi)容變動(達(dá)到實驗的最佳結(jié)果),如下圖所示:
快照時間:2017年02月03日 11:42:34
第三步:HITS算法驗證(記錄實驗時間和站點快照時間)
1、驗證體例:Hub樞紐頁面驗證
2、驗證細(xì)致步驟:首先我們知道一個好的樞紐頁面里面一定會包含一些權(quán)威頁面或者包含了一些好的樞紐頁面,那么我們是不可能去加一些百度、新浪這種鏈接給本身做導(dǎo)出的,由于并不吻合相干性邏輯。那么我們添加的其實就是排名首頁的太原SEO站點,如下圖所示:
上圖是實驗站點添加的7個排名在首頁的太原SEO網(wǎng)站站點,并且為了防止頁面權(quán)重流失,均添加了Nofollow。那么一定就會有一個題目,為何我們要添加首頁的而不是排名第三頁或者第五頁的太原SEO的站點。其實假如大家往回去思考這個Hits算法就不難發(fā)現(xiàn)hits所強(qiáng)調(diào)的hub頁面在某一個點(領(lǐng)域)上一定是有權(quán)威性的,并且搜索引擎的目的是為了用戶需求而產(chǎn)生檢索效果。假如你把排名前10位的站點容納在一個站點上面,就已經(jīng)告訴了用戶,我的這個站可以找到你想要的內(nèi)容。并且我這個站的主題也是“太原SEO”,那么可以更加吻合用戶檢索效果。
第四步:排名統(tǒng)計(記錄實驗時間和站點快照時間)
我們在來看一下添加加了Nofollow以后的單向鏈接的快照,如下圖所示:
快照更新時間:2017年02月08日 21:45:06
雖然快照更新。但是排名記錄23位,這個時候必要有耐心,由于快照更新不代表排名會更新,必要時間等待,我們用工具天天記錄了該站點“太原SEO”的排名,如下圖所示:
我們可以通過5118大數(shù)據(jù)平臺看到從2月4日修改鏈接以后直到2月8日快照更新排名都沒有提拔過,直到快照更新后的5天時間,排名發(fā)生了轉(zhuǎn)變,并且中途出現(xiàn)過排名波動退檔到原來的位置。然后我們在來看一張排名截圖,如下圖所示:
從2月20日排名回檔在到恢復(fù)以后直到目前文章截稿位置排名一向穩(wěn)固第二頁。說明整個實驗操作過程排名提拔了10個位置左右。
第五步:結(jié)果評估與總結(jié)(記錄實驗時間)
通過整個的算法原理分析、實驗認(rèn)證,大家可以很清晰的看到行使一些搜索引擎算法去做到一些事情。當(dāng)然這里面可能有會有人提出質(zhì)疑,一個實驗會不會是巧合,因為類似實驗我操作過不下數(shù)十次,成功率基本上高達(dá)90%,所以幾乎不存在所謂的巧合。但是并不是每個同伙都可以去這么操作,由于里面有許多必要細(xì)致的細(xì)節(jié)。
1、為何我要選擇一個站點排名在23位去做實驗,而不是100后的站點?由于從Hits算法自己來說,假如你去采用一個100以后也就是沒有排名的站點去做實驗操作顯明是有題目的,由于并不知足Hub的要求。搜索引擎認(rèn)可一個站點必要肯定的時間和信賴度,在你網(wǎng)站沒有任何信賴度的情況下你去加一些很好的Hub鏈接放到本身的網(wǎng)站上面并不能產(chǎn)生很大的結(jié)果。
2、之所以在有排名的情況下去操作是由于這種微調(diào)結(jié)果特別很是好,并且記得加上Nofollow,利于防止權(quán)重流失。
3、假如你的域名是老域名(使用過的老域名站點),那么及時在沒有排名的情況也可以去進(jìn)行這類實驗操作,由于老域名站點自己就具備肯定的信賴度,無需讓搜索引擎長時間的去評定頁面的質(zhì)量(包含了信賴度評分、頁面價值評分等)。
總體來說,在搜索引擎里面,算法其實有特別很是多,包括公開的鏈接分析算法就有Hits算法、HillTop算法、SALSA算法、PageRank算法等等,在比如還有文檔檢索模型(包含向量空間模型、概率模型、布爾模型等),在比如還有倒排索引、TF-IDF等,其實這類算法在百度上都可以找到他們對應(yīng)的透明的計算公式(涉及到高等數(shù)學(xué)),假如你能夠前行研讀和深究的話不難發(fā)現(xiàn)一些SEO排名的奧秘所在。
下一篇::干貨 百度原生信息流廣告優(yōu)化
最新文章
- 1火兔助手

火兔助手......
- 2Access數(shù)據(jù)庫超過2G解決方案

Access數(shù)據(jù)庫操作、管理起來很方便,工作多年......
- 3火兔助手|快手點贊|快手評論

......
- 4微型B2C站點的建立

《微型B2C站點的建立》對于大多數(shù)企業(yè)來說,......
- 5百度優(yōu)化之判斷關(guān)鍵詞是否犯

??關(guān)鍵詞堆砌(keywordstuffing)在網(wǎng)頁中大......


