設萬維讀者為首頁 萬維讀者網 -- 全球華人的精神家園 廣告服務 聯繫我們 關於萬維
 
首  頁 新  聞 視  頻 博  客 論  壇 分類廣告 購  物
搜索>> 發表日誌 控制面板 個人相冊 給我留言
幫助 退出
我的網絡創業之路  
廣交有志於在電子商務,網絡營銷領域的朋友探討交流.  
https://blog.creaders.net/u/889/ > 複製 > 收藏本頁
我的名片
蔣兄
註冊日期: 2007-06-24
訪問總量: 56,451 次
點擊查看我的個人資料
Calendar
我的公告欄
最新發布
· 奧運回國探親感想
· 隱含語義索引LSI與搜索引擎的關
· 學習Simpleology的感受和收穫
· 網上創業成功的關鍵是什麼?
· 如何獲得客戶成功案例證詞的一個
· 中文網絡營銷存在的問題和現在網
· 如何利用web2.0網絡營銷網上賺到
友好鏈接
分類目錄
【其它】
· 由“薛乃印殺妻案”談如何追求幸
· 天下真的有免費的午餐嗎?
【回國發展】
· 奧運回國探親感想
· 中文網絡營銷存在的問題和現在網
· 為什麼說現在回國網絡創業是最好
· 談談我在香港的兩年工作經歷
· 回國發展,你想成功,還是你必須
· 談談我的2年海歸經歷
【網絡營銷】
· 隱含語義索引LSI與搜索引擎的關
· 網上創業成功的關鍵是什麼?
· 如何獲得客戶成功案例證詞的一個
· 如何利用web2.0網絡營銷網上賺到
· 開發中文網站必讀免費電子書SEO
· 利用Google免費做廣告的絕招
· 我開拓洋人市場的3個秘密武器
· 網站搜索引擎優化SEO的學習心得
· 一個很有趣的心理學測試結果
· 如何尋找eBay生意供貨渠道?
【立志創業】
· 學習Simpleology的感受和收穫
· 今天講一個八卦故事
· 網絡創業,我為什麼必須成功?
· 如何建立一種成功的心態?
· 談談我的海外創業經歷
存檔目錄
09/01/2008 - 09/30/2008
06/01/2008 - 06/30/2008
03/01/2008 - 03/31/2008
11/01/2007 - 11/30/2007
10/01/2007 - 10/31/2007
09/01/2007 - 09/30/2007
08/01/2007 - 08/31/2007
07/01/2007 - 07/31/2007
06/01/2007 - 06/30/2007
發表評論
作者:
用戶名: 密碼: 您還不是博客/論壇用戶?現在就註冊!
     
評論:
隱含語義索引LSI與搜索引擎的關係
   
上次寫了一篇文章介紹Google搜索引擎的工作原理。 大家可以看出Google搜索引擎成功的法寶是Google計算方向鏈接決定網頁的PageRank算法。如果你對SEO(搜索引擎優化)有一點了解,並且細心觀察的話,你會發現:現在google的搜索結果中,有一些PageRank很高的網頁排在PageRank很低的網頁之後。這是不是說PageRank不起作用了呢?

答案當然是否定的。PageRank在Google的搜索引擎算法中依然起着十分重要的地位。但Google更加看重那些從相關網站過來的鏈接,而對那些不相關的網站的鏈接在最後計算網頁排名不起作用(但這些不相關的網頁鏈接在計算PageRank是還是有用的), 所以就出現了大家看到的PageRank很高的網頁排在PageRank很低的網頁之後這種現象了。

那麼Google是如果判斷網站的相關性的呢?這就是我今天要介紹的隱含語義索引LSI (Latent Semantic Index)

隱含語義索引LSI除了計算一個網頁包含的關鍵字以外,還參考了其它網頁或者文檔所包含的關鍵字的組成。LSI認為具有很多相同關鍵字的網頁, 他們的文章內容也比較接近。儘管LSI算法並不理解單詞的意思,但它最後計算出來的結果卻是表現的非常高的智能。

LSI是如何工作的?

首先將網頁所有的單詞做一個列表,然後將那些沒有語義的單詞做過濾。將所有的文檔均作出單詞列表。利用這個列表可以就可以做一個以文檔為X軸, 單詞為Y軸的巨型矩陣。如果單詞出現在某個文檔,則在對應的位置表示為1,反之為0。 這樣檢查Y軸的某個單詞就可以發現所有包含着個單詞的文檔。

為了使計算更加正確,LSI引入關鍵字的權重。關鍵字的權重計算基於以下常識推理:
1)單詞在一篇文章中出現多次比只出現一次的單詞更有意義;
2)不經常出現的單詞比到處出現的單詞更有意義;

第一個推理適用於單個文件,叫做本地權重。那些在一個文檔中多次出現的單詞就比那些只出現一次的單詞有更高的本地權重。

第二個推理適用於單詞在所有文檔的權重計算,叫全局權重。有各種不同的全局權重計算方法,但其思路均體現為在少數文檔中出現的單詞比那些到處
出現的單詞有更深刻的含義。一個典型的關鍵字在矩陣中的權重計算方法是TF-IDF (term frequency–inverse document frequency)

利用這個巨型的單詞文檔矩陣,LSI還可以算出某個主題在其它文檔中所出現的相關的關鍵字以及出現頻率。這樣即使有的相關文檔不出現你所搜索的關鍵字,也可能將相關文檔搜索出來。這比以前只對照關鍵字的搜索方法更進一步。所以如果你還是採用傳統的關鍵詞匹配的方法作網頁優化的話,其優化效果將大大降低。

LSI還可以用來分析網頁的鏈接描述文本(Anchor Text)。如果你的網頁反向鏈接全部採用相同的鏈接描述文本, 而不採用其它相關的關鍵字,那麼你的反向鏈接的有效性也必將大大降低。

舉例來說:如果你是做“書”這個關鍵詞,那麼其相關的關鍵詞可以是“手冊”“指南”“報告”等等。
 
關於本站 | 廣告服務 | 聯繫我們 | 招聘信息 | 網站導航 | 隱私保護
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.