前記: 我是完整的看完了。內容有點亂啊,自己沒有時間整理,先放在自己的印象筆記里了。。。。
二,GOOGLE特色
GOOGLE支持多達132種語言,包括簡體中文和繁體中文; GOOGLE網站只提供搜索引擎功能,沒有花里胡哨的累贅; GOOGLE速度極快,據說有8000多台服務器,200多條T3級寬帶; GOOGLE的專利網頁級別技術PageRank能夠提供高命中率的搜索結果; GOOGLE的搜索結果摘錄查詢網頁的部分具體內容,而不僅僅是網站簡介; GOOGLE智能化的“手氣不錯”功能,提供可能最符合要求的網站;OOGLE的“網頁快照”功能,能從GOOGLE服務器里直接取出緩存的網頁。
三,基本搜索:+,-,OR
GOOGLE無需用明文的“+”來表示邏輯“與”操作,只要空格就可以了。
示例:搜索所有包含關鍵詞“易筋經”和“吸星**”的中文網頁
搜索:“易筋經 + 吸星**”
結果:已搜索有關易筋經 吸星**的中文(簡體)網頁。共約有726項查詢結果,這是第1-10項。搜索用時0.13秒。
注意:文章中搜索語法外面的引號僅起引用作用,不能帶入搜索欄內。
GOOGLE用減號“-”表示邏輯“非”操作。
示例:搜索所有包含“易筋經”而不含“吸星++”的中文網頁
搜索:“易筋經 -吸星**”
結果:已搜索有關易筋經 -吸星**的中文(簡體)網頁。共約有5,440項查詢結果,這是第1-10項。搜索用時0.13秒。
注意:這裡的“+”和“-”號,是英文字符,而不是中文字符的“+”和“-”。此外,操作符與作用的關鍵字之間,不能有空格。比如“易筋經 - 吸星+++”,搜索引擎將視為邏輯“與”操作,中間的“-”被忽略。
GOOGLE用大寫的“OR”表示邏輯“或”操作。但是,關鍵字為中文的或查詢似乎還有BUG,無法得到正確的查詢結果。
示例:搜索包含布蘭妮“Britney”或者披頭士“Beatles”、或者兩者均有的中文網頁。
搜索:“britney OR beatles”
結果:已搜索有關britney OR beatles的中文(簡體)網頁。共約有14,600項查詢結果,這是第1-10項。搜索用時0.08秒。
搜索:“布蘭妮 OR 披頭士”
結果:找不到和您的查詢-布蘭妮 OR 披頭士-相符的網頁。
注意:小寫的“or”,在查詢的時候將被忽略;這樣上述的操作實際上變成了一次“與”查詢。
“+”和“-”的作用有的時候是相同的,都是為了縮小搜索結果的範圍,提高查詢結果命中率。
例:查閱天龍八部具體是哪八部。
分析:如果光用“天龍八部”做關鍵字,搜索結果有26,500項,而且排前列的主要與金庸的小說《天龍八部》相關,很難找到所需要的資訊。可以用兩個方法減少無關結果。
1,如果你知道八部中的某一部,比如阿修羅,增加“阿修羅”關鍵字,搜索結果就只有995項,可以直接找到全部八部,“天龍八部 阿修羅”。
2,如果你不知道八部中的任何一部,但知道這與佛教相關,可以排除與金庸小說相關的記錄,查詢結果為1,010項,可以迅速找到需要的資料,“天龍八部 佛教 -金庸”。
四,輔助搜索:通配符、大小寫、句子、忽略字符以及強制搜索
GOOGLE不支持通配符,如“*”、“?”等,只能做精確查詢,關鍵字後面的“*”或者“?”會被忽略掉。
GOOGLE對英文字符大小寫不敏感,“GOD”和“god”搜索的結果是一樣的。
GOOGLE的關鍵字可以是詞組(中間沒有空格),也可以是句子(中間有空格),但是,用句子做關鍵字,必須加英文引號。
示例:搜索包含“long, long ago”字串的頁面。
搜索:“"long, long ago"”
結果:已向英特網搜索"long, long ago". 共約有28,300項查詢結果,這是第1-10項。搜索用時0.28秒。
注意:和搜索英文關鍵字串不同的是,GOOGLE對中文字串的處理並不十分完善。比如,搜索“"啊,我的太陽"”,我們希望結果中含有這個句子,事實並非如此。查詢的很多結果,“啊”、“我的”、“太陽”等詞語是完全分開的,但又不是“啊 我的 太陽”這樣的與查詢。顯然,GOOGLE對中文的支持尚有欠缺之處。
GOOGLE對一些網路上出現頻率極高的詞(主要是英文單詞),如“i”、“com”,以及一些符號如“*”、“.”等,作忽略處理,如果用戶必須要求關鍵字中包含這些常用詞,就要用強制語法“+”。
示例:搜索包含“Who am I ?”的網頁。如果用“"who am i ?"”,“Who”、“I”、“?”會被省略掉,搜索將只用“am”作關鍵字,所以應該用強制搜索。
搜索:“"+who +am +i"”
結果:已向英特網搜索"+who +am +i". 共約有362,000項查詢結果,這是第1-10項。搜索用時0.30秒。
注意:英文符號(如問號,句號,逗號等)無法成為搜索關鍵字,加強制也不行。
五,高級搜索:site,link,inurl,allinurl,intitle,allintitle
url:統一資源定位符,uniform/universal resource locater
超文本傳輸協議(HTTP)的統一資源定位符將從因特網獲取信息的五個基本元素包括在一個簡單的地址中:
-
傳送協議。
-
服務器。
-
端口號。(以數字方式表示,若為HTTP的默認值“:80”可省略)
-
路徑。(以“/”字符區別路徑中的每一個目錄名稱)
-
查詢。(GET模式的窗體參數,以“?”字符為起點,每個參數以“&”隔開,再以“=”分開參數名稱與數據,通常以UTF8的URL編碼,避開字符衝突的問題)
典型的統一資源定位符看上去是這樣的:
http://zh.wikipedia.org:80/w/index.php?title=Special:%E9%9A%8F%E6%9C%BA%E9%A1%B5%E9%9D%A2&printable=yes
其中:
-
http,是協議;
-
zh.wikipedia.org,是服務器;
-
80,是服務器上的網絡端口號;
-
/w/index.php,是路徑;
-
?title=Special:%E9%9A%8F%E6%9C%BA%E9%A1%B5%E9%9D%A2&printable=yes,是詢問。
大多數網頁瀏覽器不要求用戶輸入網頁中“http://”的部分,因為絕大多數網頁內容是超文本傳輸協議文件。同樣,“80”是超文本傳輸協議文件的常用端口號,因此一般也不必寫明。一般來說用戶只要鍵入統一資源定位符的一部分(zh.wikipedia.org/wiki/Special:%E9%9A%8F%E6%9C%BA%E9%A1%B5%E9%9D%A2)就可以了。
由於超文本傳輸協議允許服務器將瀏覽器重定向到另一個網頁地址,因此許多服務器允許用戶省略網頁地址中的部分,比如 www。從技術上來說這樣省略後的網頁地址實際上是一個不同的網頁地址,瀏覽器本身無法決定這個新地址是否通,服務器必須完成重定向的任務。
[編輯]其它使用
統一資源定位符不但被用作網頁地址,數據庫終端也使用統一資源定位符服務器連接其服務器。實際上任何終端-服務器程序都可以使用統一資源定位符來連接。
以下是一個數據庫的統一資源定位符:
jdbc:datadirect:oracle://myserver:1521;sid=testdb
“site”表示搜索結果局限於某個具體網站或者網站頻道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某個域名,如“com.cn”、“com”等等。如果是要排除某網站或者域名範圍內的頁面,只需用“-網站/域名”。
示例:搜索中文教育科研網站(edu.cn)上所有包含“金庸”的頁面。
搜索:“金庸 site:edu.cn”
結果:已搜索有關金庸 site:edu.cn的中文(簡體)網頁。共約有2,680項查詢結果,這是第1-10項 。搜索用時0.31秒。
示例:搜索包含“金庸”和“古龍”的中文新浪網站頁面,
搜索:“金庸 古龍 site:sina.com.cn”
結果:已在sina.com.cn搜索有關金庸 古龍的中文(簡體)網頁。共約有869項查詢結果,這是第1-10項。搜索用時0.34秒。
注意:site後的冒號為英文字符,而且,冒號後不能有空格,否則,“site:”將被作為一個搜索的關鍵字。此外,網站域名不能有“http”以及“www”前綴,也不能有任何“/”的目錄後綴;網站頻道則只局限於“頻道名.域名”方式,而不能是“域名/頻道名”方式。諸如“金庸 site:edu.sina.com.cn/1/”的語法是錯誤的。
“link”語法返回所有鏈接到某個URL地址的網頁。
示例:搜索所有含指向華軍軟件園“www.newhua.com”鏈接的網頁。
搜索:“link:www.newhua.com”
結果:搜索有鏈接 到www.newhua.com的網頁。共約有695項查詢結果,這是第1-10項。搜索用時0.23秒。
注意:“link”不能與其他語法相混合操作,所以“link:”後面即使有空格,也將被GOOGLE忽略。
inurl語法返回的網頁鏈接中包含第一個關鍵字,後面的關鍵字則出現在鏈接中或者網頁文檔中。有很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網頁名稱中,比如“MP3”、“GALLARY”等,於是,就可以用INURL語法找到這些相關資源鏈接,然後,用第二個關鍵詞確定是否有某項具體資料。INURL語法和基本搜索語法的最大區別在於,前者通常能提供非常精確的專題資料。
示例:查找MIDI曲“滄海一聲笑”。
搜索:“inurl:midi 滄海一聲笑”
結果:已搜索有關inurl:midi 滄海一聲笑的中文(簡體)網頁。共約有14項查詢結果,這是第1-10項。搜索用時0.01秒。
示例:查找微軟網站上關於windows2000的安全課題資料。
搜索:“inurl:security windows2000 site:microsoft.com”
結果:已在microsoft.com內搜索有關 inurl:security windows2000的網頁。共約有198項查詢結果,這是第1-10項。搜索用時0.37秒。
注意:“inurl:”後面不能有空格,GOOGLE也不對URL符號如“/”進行搜索。GOOGLE對“cgi-bin/phf”中的“/”當成空格處理。
allinurl語法返回的網頁的鏈接中包含所有查詢關鍵字。這個查詢的對象只集中於網頁的鏈接字符串。
示例:查找可能具有PHF安全漏洞的公司網站。通常這些網站的CGI-BIN目錄中含有PHF腳本程序(這個腳本是不安全的),表現在鏈接中就是“域名/cgi-bin/phf”。
語法:“allinurl:"cgi-bin" phf +com”
搜索:已向英特網搜索allinurl:"cgi-bin" phf +com. 共約有40項查詢結果,這是第1-10項。搜索用時0.06秒。
allintitle和intitle的用法類似於上面的allinurl和inurl,只是後者對URL進行查詢,而前者對網頁的標題欄進行查詢。網頁標題,就是HTML標記語言title中之間的部分。網頁設計的一個原則就是要把主頁的關鍵內容用簡潔的語言表示在網頁標題中。因此,只查詢標題欄,通常也可以找到高相關率的專題頁面。
示例:查找日本明星藤原紀香的照片集。
搜索:“intitle:藤原紀香 寫真”
結果:已搜索有關intitle:藤原紀香 寫真的中文(簡體)網頁。共約有284項查詢結果,這是第1-10項。搜索用時0.03秒。
GOOGLE的罕用高級搜索語法:related,cache,info
related用來搜索結構內容方面相似的網頁。例:搜索所有與中文新浪網主頁相似的頁面(如網易首頁,搜狐首頁,中華網首頁等),“related:www.sina.com.cn/index.shtml”。
cache用來搜索GOOGLE服務器上某頁面的緩存,這個功能同“網頁快照”,通常用於查找某些已經被刪除的死鏈接網頁,相當於使用普通搜索結果頁面中的“網頁快照”功能。
info用來顯示與某鏈接相關的一系列搜索,提供cache、link、related和完全包含該鏈接的網頁的功能。
示例:查找和新浪首頁相關的一些資訊。
搜索:“info:www.sina.com.cn”
結果:有關www.sina.com.cn的網頁信息。
新浪首頁
北京站 上海站 廣東站. ... 遊戲世界, |, 影音娛樂, |, Club緣, |, 男人女人, |, 論壇聊天, |, 時尚潮流, |, 文教育兒, |, 車行天下, |, 軟件下載. ... Google 提供這個網址的信息:
查看Google網頁快照里www.sina.com.cn的存檔
尋找和www.sina.com.cn類似的網頁
尋找網頁有鏈接到www.sina.com.cn
尋找網頁包含有'www.sina.com.cn'
六,其他重要功能
PDF文檔搜索
我對GOOGLE尤其欣賞的一點就是它提供對PDF文檔內文的檢索。目前GOOGLE檢索的PDF文檔大約有2500萬左右。這真是太美妙了。PDF是ADOBE公司開發的電子文檔格式,現在已經成為互聯網的電子化出版標準。PDF文檔通常是一些圖文並茂的綜合性文檔,提供的資訊一般比較集中全面。
示例:搜索關於電子商務(ECOMMERCE)的PDF文檔。
搜索:“inurl:pdf ecommerce”
結果:已向英特網搜索inurl:pdf ecommerce. 共約有19,200項查詢結果,這是第1-10項。搜索用時0.11秒。
下面是某項搜索結果:
[PDF] www.usi.net/pdf/outsoucing-ecommerce.pdf
Outsourcing Electronic Commerce Business Case White Paper By: John P. Sahlin,Product
Marketing Professonial (PMP) Implementation Manager, Web Engineering ... 一般文字檔 - 類似網頁
可以看到,GOOGLE在PDF檔前加上了[PDF]的標記,而且,GOOGLE把PDF文件轉換成了文字檔,點擊“一般文字檔”,可以粗略的查看該PDF文檔的大致內容。當然,PDF原有的圖片以及格式是沒有了。
七,搜索技巧雜談
關鍵詞的選擇在搜索中起到決定性的作用,所有搜索技巧中,關鍵詞選擇是最基本也是最有效的。
例一:查找《鏡花緣》一書中淑士國酒保的酸話原文。
分析:如果按照一般的思路,找某部小說中的具體段落,就需要用搜索引擎先找到這本書,然後再翻到該段落。這樣做當然可以,但是效率很低。如果了解目標信息的構成,用一些目標信息所特有的字詞,可以非常迅速的查到所需要的資料。也就是說,高效率的搜索關鍵字不一定就是目標信息的主題。在上面的例子中,酒保談到酒的濃淡與貴賤的關係時,之乎者也橫飛。因此,可以用特定的詞語一下子找到目標資料。
搜索:“酒 貴 賤 之”,OK,找到的第一條信息就是鏡花緣的這一段落:“先生聽者:今以酒醋論之,酒價賤之,醋價貴之。因何賤之?為甚貴之?真所分之,在其味之。酒昧淡之,故而賤之;醋味厚之,所以貴之。...”
以上的關鍵字選擇技巧可以謂之“特定詞法”。
例二:“黃花閨女”一詞中“黃花”是什麼意思。
分析:“黃花閨女”是一個約定的俗語,如果只用“黃花閨女 黃花”做關鍵詞,搜索結果將浩如煙海,沒什麼價值,因此必須要加更多的關鍵詞,約束搜索結果。選擇什麼關鍵詞好呢?備選的有“意思”、“含義”、“來歷”、“由來”、“典故”、“出典”、“淵源”等,可以猜到的是,類似的資料,應該包含在一些民俗介紹性的文字裡,所以用諸如“來歷”、“由來”、“出典”等詞彙的概率更高一些。
搜索:“黃花閨女 黃花 由來”,查到“黃花”原來出典於《太平御覽》,與南朝的壽陽公主相關。如果想獲得第一手資料,那就可以用“太平御覽 壽陽公主”做搜索了。
以上的關鍵字選擇技巧可以謂之“近義詞法”。
例三:劉德華同志的胸圍是多少。
分析:首先聲明,這是某個MM要我做的搜索,我把它作為搜索案例而已,沒其他的意思。非常直接的搜索是,“劉德華 胸圍”,但事實上,這麼搜索出來的結果,儘是一些諸如“劉德華取笑莫文蔚胸圍太小”之類的八卦新聞,無法快速得到所需要的資料。可以想到的是,需要的資料應該包含在劉德華的全面介紹性文字中,除了胸圍,應該還包括他的身高,體重,生日等一系列相關信息。OK,這樣就可以進一步的增加其他約束性關鍵詞以縮小搜索範圍。
搜索:“劉德華 胸圍 身高”,沒有料到的情況發生了,網上炙手可熱的痞子蔡《第一次親密接觸》裡居然含有這樣關鍵字,阿泰“改編自劉德華《忘情水》的變態歪歌”、“用身高體重三圍和生日來加以編號”。好辦,把這部小說去掉,“劉德華 胸圍 身高 -阿泰”,OK,結果出來了,華仔胸圍84cm。說明一下,為什麼用“阿泰”而不用“第一次親密接觸”呢?這是因為小說的名字被轉載的時候可能有變動,但裡面角色的名字是不會變的。
以上的關鍵字選擇技巧可以謂之“相關詞法”。
八.其他常用搜索個案
例一:找人
分析:一個人在網上揭示的資料通常有:姓名,網名,性別,年齡,畢業學校,工作單位,外號,住址,電話,信箱,BP,手機號碼,ICQ號,OICQ號等等。所以,如果你要了解一下你多年沒見過的同學,那不妨用上述信息做關鍵字進行查詢,也許會有大的收穫。
例二:找軟件
分析一:最簡單的搜索當然就是直接以軟件名稱以及版本號為關鍵字查詢。但是,僅僅有軟件名稱和目標網站,顯然還不行,因為搜索到的可能是軟件的相關新聞。應該再增加一個關鍵字。考慮到下載頁面上常有“點擊此處下載”或者“download”的提示語,因此,可以增加“下載”或者“download”為關鍵字。
搜索:“winzip 8.0 下載”
結果:已搜索有關winzip 8.0 下載的中文(簡體)網頁。共約有6,670項查詢結果,這是第1-10項。搜索用時0.22秒。
分析二:很多網站設有專門的下載目錄,而且就命名為“download”,因此,可以用INURL語法直接搜索這些下載目錄。
搜索:“winzip 8.0 inurl:download”
結果:已搜索有關winzip 8.0 inurl:download的中文(簡體)網頁。共約有358項查詢結果,這是第1-10項。搜索用時0.44秒。
在互聯網上隨意的下載軟件是不安全的,因為供下載的軟件有可能帶有病毒或者捆綁了木馬,所以,對下載網站作一個限定,是一個穩妥的思路。可以用SITE語法達到這個目的。
共享軟件下載完之後,使用的時候,軟件總跳出警示框,或者軟件的功能受到一定限制。由於中國的網民多是窮棒子,所以應該再找一個註冊碼。找註冊碼,除了軟件的名稱和版本號外,還需要有諸如“serial number”、“sn”、“序列號”等關鍵字。現在,來搜索一下winzip8.0的註冊碼。
搜索:“winzip 8.0 sn”
結果:已向英特網搜索winzip 8.0 sn. 共約有777項查詢結果,這是第1-10項。搜索用時0.30秒。
例三:找圖片
除了GOOGLE提供的專門圖片搜索功能,還可以組合使用一些搜索語法,達到圖片搜索之目的。
分析一:專門的圖片集合,提供圖片的網站通常會把圖片放在某個專門目錄下,如“gallary”、“album”、“photo”、“image”等。這樣就可以使用INURL語法迅速找到這類目錄。現在,試着找找小甜甜布蘭妮的照片集。
搜索:“"britney spears" inurl:photo”
結果:已向英特網搜索"britney spears" inurl:photo. 共約有2,720項查詢結果,這是第1-10項。搜索用時0.23秒。
分析二:提供圖片集合的網頁,在標題欄內通常會註明,這是誰誰的圖片集合。於是就可以用INTITLE語法找到這類網頁。
搜索:“intitle:"britney spears" picture”
結果:已向英特網搜索intitle:"britney spears" picture. 共約有317項查詢結果,這是第1-10項。搜索用時0.40秒。
分析三:明星的FANS通常會申請免費個人主頁來存放他們偶像的靚照。於是用SITE語法指定某免費主頁提供站點,是個迅速找到圖片的好辦法。
搜索:“"britney spears" site:geocities.com”
結果:已在geocities.com內搜索有關"britney spears"的網頁。共約有5,020項查詢結果,這是第1-10項。搜索用時0.47秒。
例四:找MP3
分析一:提供MP3的網站,通常會建立一個叫做MP3的目錄,目錄底下分門別類的存放各種MP3樂曲。所以,可以用INURL語法迅速找到這類目錄。現在用這個辦法找找老歌“say you say me”。
搜索:“"say you say me" inurl:mp3”
結果:已向英特網搜索inurl:mp3 "say you say me". 共約有155項查詢結果,這是第1-10項。搜索用時0.17秒。
分析二:也可以通過網頁標題,找到這類提供MP3的網頁。
搜索:“"say you say me" intitle:mp3”
結果:已向英特網搜索"say you say me" intitle:mp3. 共約有178項查詢結果,這是第1-10項。搜索用時0.73秒。
當然,如果你知道某個網站的下載速度快,而且樂曲全,就可以用SITE語法先到該網站上看看有沒有目標樂曲。
例五:找書
分析一:對我而言,常訪問的電子圖書館類網站就那麼幾個,比如文藝類的“www.shuku.net”。於是可以用SITE語法很簡單的找到某本書(如果該網站上有的話)。比如,“舊唐書 site:shuku.net”,就可以馬上找到該書。如果沒有,通常別的網站上也很難找到。因此,找書的關鍵,是你了解一大批著名的圖書館網站。
分析二:我上面介紹的第一項關鍵字選擇技巧特定詞法,對於迅速找到某書或者文章也是極其有用的,當然,這得建立在你已經讀過該書,對書的內容有印象的基礎上。比如如果了解堂吉訶德一書戰風車的大致內容,就可以用“吉訶德 風車 桑喬”迅速找到該書。
九,GOOGLE搜索FAQ
Q:如何設定每頁搜索結果顯示數量?
A:同上,進入使用偏好,在該頁的“查看結果”(Number of Results)選擇顯示結果數,數目越大,顯示結果需要的時間越長,默認是10項。
Q:搜索到的鏈接無法打開怎麼辦?
A:鏈接無法打開的原因很多,比如網站當機,或者ISP過濾等,可以點擊GOOGLE的“網頁快照”查看在GOOGLE服務器上的網頁緩存。
Q:打開搜索結果的鏈接,可是該頁面太大,很難找到一下子找到目的資料怎麼辦?
A:直接打開“網頁快照”,GOOGLE會把關鍵詞用不同顏色標記出來,很容易找到。