一、什么是搜索引擎
搜索引擎是(shi)(shi)指根據一(yi)定的策略、運用(yong)(yong)特定的計算(suan)機程序從(cong)互聯網上(shang)采集信(xin)息(xi)(xi),在對信(xin)息(xi)(xi)進行組織(zhi)和(he)處理后,為(wei)用(yong)(yong)戶提供(gong)檢(jian)索(suo)(suo)(suo)服務,將(jiang)檢(jian)索(suo)(suo)(suo)的相(xiang)關信(xin)息(xi)(xi)展示(shi)給用(yong)(yong)戶的系統。搜索(suo)(suo)(suo)引(yin)(yin)擎是(shi)(shi)工(gong)作于互聯網上(shang)的一(yi)門檢(jian)索(suo)(suo)(suo)技術,它指在提高人們(men)獲取搜集信(xin)息(xi)(xi)的速(su)度(du),為(wei)人們(men)提供(gong)更好的網絡使用(yong)(yong)環境。從(cong)功能和(he)原理上(shang)搜索(suo)(suo)(suo)引(yin)(yin)擎大致被(bei)分為(wei)全文搜索(suo)(suo)(suo)引(yin)(yin)擎、元搜索(suo)(suo)(suo)引(yin)(yin)擎、垂直搜索(suo)(suo)(suo)引(yin)(yin)擎和(he)目錄(lu)搜索(suo)(suo)(suo)引(yin)(yin)擎等四大類(lei)。
二、搜索引擎的工作原理
搜(sou)索(suo)引(yin)(yin)(yin)(yin)擎的(de)(de)(de)工(gong)作(zuo)原理是從(cong)互聯網(wang)上抓(zhua)取網(wang)頁,建(jian)立(li)(li)索(suo)引(yin)(yin)(yin)(yin)數(shu)據(ju)(ju)庫,在(zai)索(suo)引(yin)(yin)(yin)(yin)數(shu)據(ju)(ju)庫中搜(sou)索(suo)排序(xu)(xu)。它(ta)的(de)(de)(de)整(zheng)個工(gong)作(zuo)過(guo)程大體分(fen)(fen)為(wei)信(xin)息(xi)(xi)(xi)(xi)(xi)采(cai)集(ji)(ji)、信(xin)息(xi)(xi)(xi)(xi)(xi)分(fen)(fen)析、信(xin)息(xi)(xi)(xi)(xi)(xi)查(cha)詢(xun)(xun)和用戶接(jie)口四部分(fen)(fen)。信(xin)息(xi)(xi)(xi)(xi)(xi)采(cai)集(ji)(ji)是網(wang)絡機器人掃描(miao)一定IP地址范圍(wei)內的(de)(de)(de)網(wang)站(zhan),通過(guo)鏈接(jie)遍(bian)歷Web空(kong)間,來(lai)進行采(cai)集(ji)(ji)網(wang)頁資料,為(wei)保(bao)證(zheng)采(cai)集(ji)(ji)的(de)(de)(de)資料最新,網(wang)絡機器人還(huan)會回訪(fang)已抓(zhua)取過(guo)的(de)(de)(de)網(wang)頁;信(xin)息(xi)(xi)(xi)(xi)(xi)分(fen)(fen)析是通過(guo)分(fen)(fen)析程序(xu)(xu),從(cong)采(cai)集(ji)(ji)的(de)(de)(de)信(xin)息(xi)(xi)(xi)(xi)(xi)中提取索(suo)引(yin)(yin)(yin)(yin)項,用索(suo)引(yin)(yin)(yin)(yin)項表示文檔(dang)(dang)并(bing)生成文檔(dang)(dang)庫的(de)(de)(de)索(suo)引(yin)(yin)(yin)(yin)表,從(cong)而建(jian)立(li)(li)索(suo)引(yin)(yin)(yin)(yin)數(shu)據(ju)(ju)庫;信(xin)息(xi)(xi)(xi)(xi)(xi)查(cha)詢(xun)(xun)是指用戶以關鍵(jian)詞(ci)查(cha)找(zhao)信(xin)息(xi)(xi)(xi)(xi)(xi)時,搜(sou)索(suo)引(yin)(yin)(yin)(yin)擎會根(gen)據(ju)(ju)用戶的(de)(de)(de)查(cha)詢(xun)(xun)條(tiao)件在(zai)索(suo)引(yin)(yin)(yin)(yin)庫中快速檢索(suo)文檔(dang)(dang),然后對檢出的(de)(de)(de)文檔(dang)(dang)與查(cha)詢(xun)(xun)條(tiao)件的(de)(de)(de)相關度進行評價,最后根(gen)據(ju)(ju)相關度對檢索(suo)結果進行排序(xu)(xu)并(bing)輸出。
三、搜索引擎的工作流程
1、爬行和抓取
搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)派出一(yi)(yi)(yi)個能(neng)夠在網(wang)上(shang)發(fa)現(xian)新網(wang)頁并(bing)抓(zhua)(zhua)文件(jian)(jian)的(de)(de)(de)(de)(de)程(cheng)序,這(zhe)(zhe)(zhe)個程(cheng)序通(tong)常(chang)稱之為蜘(zhi)蛛(Spider)。搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)從(cong)已知的(de)(de)(de)(de)(de)數據庫出發(fa),就像正常(chang)用戶(hu)的(de)(de)(de)(de)(de)瀏覽器一(yi)(yi)(yi)樣(yang)訪問這(zhe)(zhe)(zhe)些(xie)網(wang)頁并(bing)抓(zhua)(zhua)取文件(jian)(jian)。搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)通(tong)過這(zhe)(zhe)(zhe)些(xie)爬(pa)蟲去爬(pa)互聯網(wang)上(shang)的(de)(de)(de)(de)(de)外鏈,從(cong)這(zhe)(zhe)(zhe)個網(wang)站(zhan)爬(pa)到另一(yi)(yi)(yi)個網(wang)站(zhan),去跟蹤(zong)網(wang)頁中的(de)(de)(de)(de)(de)鏈接(jie)(jie),訪問更(geng)多的(de)(de)(de)(de)(de)網(wang)頁,這(zhe)(zhe)(zhe)個過程(cheng)就叫爬(pa)行(xing)。這(zhe)(zhe)(zhe)些(xie)新的(de)(de)(de)(de)(de)網(wang)址會被存(cun)入數據庫等(deng)待搜(sou)(sou)索(suo)。所以跟蹤(zong)網(wang)頁鏈接(jie)(jie)是搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)蜘(zhi)蛛(Spider)發(fa)現(xian)新網(wang)址的(de)(de)(de)(de)(de)最基(ji)本(ben)的(de)(de)(de)(de)(de)方法,所以反向鏈接(jie)(jie)成為搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)優(you)化的(de)(de)(de)(de)(de)最基(ji)本(ben)因素之一(yi)(yi)(yi)。搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)抓(zhua)(zhua)取的(de)(de)(de)(de)(de)頁面文件(jian)(jian)與(yu)用戶(hu)瀏覽器得(de)到的(de)(de)(de)(de)(de)完全(quan)一(yi)(yi)(yi)樣(yang),抓(zhua)(zhua)取的(de)(de)(de)(de)(de)文件(jian)(jian)存(cun)入數據庫。
2、建立索引
蜘蛛抓取的(de)頁(ye)面文件分(fen)解、分(fen)析(xi),并以巨大(da)表格(ge)的(de)形式存(cun)入數(shu)據(ju)庫,這(zhe)個過程即是(shi)索(suo)引(yin)(index)。在索(suo)引(yin)數(shu)據(ju)庫中,網(wang)頁(ye)文字內容,關(guan)鍵詞出現的(de)位置(zhi)、字體、顏(yan)色、加粗、斜體等相關(guan)信息(xi)都有相應記錄。
3、搜索詞處理
用戶在(zai)搜(sou)(sou)索引擎(qing)界面輸入(ru)關(guan)鍵詞(ci)(ci),單擊(ji)“搜(sou)(sou)索”按(an)鈕(niu)后,搜(sou)(sou)索引擎(qing)程序即對搜(sou)(sou)索詞(ci)(ci)進(jin)行(xing)處(chu)理,如(ru)中文特(te)有(you)的分詞(ci)(ci)處(chu)理,去除停止(zhi)詞(ci)(ci),判(pan)斷是(shi)否(fou)需要啟動(dong)整合搜(sou)(sou)索,判(pan)斷是(shi)否(fou)有(you)拼寫(xie)錯(cuo)(cuo)誤或錯(cuo)(cuo)別(bie)字等情況。搜(sou)(sou)索詞(ci)(ci)的處(chu)理必(bi)須十分快速。
4、排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法(fa)與(yu)人相比,這就是為什么(me)網(wang)站要進(jin)行搜(sou)索引擎優化(SEO)。沒有SEO的幫助(zhu),搜(sou)索引擎常常并不能正確的返回最相關、最權威、最有用的信息。