一、什么是搜索引擎
搜索引擎是指根據一定的(de)策略、運(yun)用(yong)(yong)特(te)定的(de)計算機程序從互聯網(wang)(wang)上采集信(xin)(xin)息(xi)(xi)(xi),在對信(xin)(xin)息(xi)(xi)(xi)進行組織和處(chu)理后,為用(yong)(yong)戶提供(gong)檢(jian)索(suo)(suo)服務,將檢(jian)索(suo)(suo)的(de)相關信(xin)(xin)息(xi)(xi)(xi)展(zhan)示(shi)給(gei)用(yong)(yong)戶的(de)系統。搜索(suo)(suo)引擎(qing)是工作于(yu)互聯網(wang)(wang)上的(de)一門(men)檢(jian)索(suo)(suo)技(ji)術,它指在提高人們獲取(qu)搜集信(xin)(xin)息(xi)(xi)(xi)的(de)速度,為人們提供(gong)更好的(de)網(wang)(wang)絡使用(yong)(yong)環境(jing)。從功能和原(yuan)理上搜索(suo)(suo)引擎(qing)大(da)(da)致被分(fen)為全(quan)文搜索(suo)(suo)引擎(qing)、元搜索(suo)(suo)引擎(qing)、垂直搜索(suo)(suo)引擎(qing)和目錄搜索(suo)(suo)引擎(qing)等四大(da)(da)類(lei)。
二、搜索引擎的工作原理
搜(sou)索引(yin)(yin)(yin)擎(qing)的(de)工作(zuo)原理是從互聯網(wang)上(shang)抓取網(wang)頁,建立(li)索引(yin)(yin)(yin)數據(ju)庫(ku)(ku)(ku),在索引(yin)(yin)(yin)數據(ju)庫(ku)(ku)(ku)中(zhong)搜(sou)索排序。它的(de)整個工作(zuo)過程大體分為信息(xi)采(cai)(cai)集、信息(xi)分析、信息(xi)查(cha)(cha)詢(xun)和用戶(hu)接(jie)口四部分。信息(xi)采(cai)(cai)集是網(wang)絡(luo)機器人掃描一定IP地址(zhi)范圍內的(de)網(wang)站,通過鏈接(jie)遍歷Web空間,來進行采(cai)(cai)集網(wang)頁資(zi)料,為保證采(cai)(cai)集的(de)資(zi)料最(zui)新,網(wang)絡(luo)機器人還會(hui)回訪已(yi)抓取過的(de)網(wang)頁;信息(xi)分析是通過分析程序,從采(cai)(cai)集的(de)信息(xi)中(zhong)提取索引(yin)(yin)(yin)項,用索引(yin)(yin)(yin)項表示文(wen)檔并生成(cheng)文(wen)檔庫(ku)(ku)(ku)的(de)索引(yin)(yin)(yin)表,從而建立(li)索引(yin)(yin)(yin)數據(ju)庫(ku)(ku)(ku);信息(xi)查(cha)(cha)詢(xun)是指(zhi)用戶(hu)以關鍵詞查(cha)(cha)找信息(xi)時,搜(sou)索引(yin)(yin)(yin)擎(qing)會(hui)根據(ju)用戶(hu)的(de)查(cha)(cha)詢(xun)條(tiao)件在索引(yin)(yin)(yin)庫(ku)(ku)(ku)中(zhong)快速檢索文(wen)檔,然后(hou)對(dui)檢出的(de)文(wen)檔與查(cha)(cha)詢(xun)條(tiao)件的(de)相關度進行評價,最(zui)后(hou)根據(ju)相關度對(dui)檢索結果進行排序并輸出。
三、搜索引擎的工作流程
1、爬行和抓取
搜(sou)(sou)索(suo)引(yin)擎(qing)派出(chu)(chu)一(yi)個能夠在(zai)網(wang)(wang)上(shang)發現(xian)新(xin)網(wang)(wang)頁(ye)并抓文件(jian)的程(cheng)序,這(zhe)(zhe)個程(cheng)序通常稱之(zhi)為蜘(zhi)蛛(zhu)(Spider)。搜(sou)(sou)索(suo)引(yin)擎(qing)從(cong)已知的數(shu)據(ju)(ju)庫(ku)出(chu)(chu)發,就像正常用戶的瀏覽器一(yi)樣訪問這(zhe)(zhe)些網(wang)(wang)頁(ye)并抓取(qu)文件(jian)。搜(sou)(sou)索(suo)引(yin)擎(qing)通過(guo)這(zhe)(zhe)些爬蟲去(qu)爬互聯網(wang)(wang)上(shang)的外(wai)鏈,從(cong)這(zhe)(zhe)個網(wang)(wang)站爬到(dao)另(ling)一(yi)個網(wang)(wang)站,去(qu)跟蹤網(wang)(wang)頁(ye)中的鏈接,訪問更多的網(wang)(wang)頁(ye),這(zhe)(zhe)個過(guo)程(cheng)就叫爬行。這(zhe)(zhe)些新(xin)的網(wang)(wang)址會被(bei)存入數(shu)據(ju)(ju)庫(ku)等(deng)待搜(sou)(sou)索(suo)。所以跟蹤網(wang)(wang)頁(ye)鏈接是搜(sou)(sou)索(suo)引(yin)擎(qing)蜘(zhi)蛛(zhu)(Spider)發現(xian)新(xin)網(wang)(wang)址的最基本(ben)的方法(fa),所以反向鏈接成為搜(sou)(sou)索(suo)引(yin)擎(qing)優化的最基本(ben)因(yin)素之(zhi)一(yi)。搜(sou)(sou)索(suo)引(yin)擎(qing)抓取(qu)的頁(ye)面文件(jian)與用戶瀏覽器得(de)到(dao)的完全一(yi)樣,抓取(qu)的文件(jian)存入數(shu)據(ju)(ju)庫(ku)。
2、建立索引
蜘蛛抓(zhua)取的頁(ye)面文件分解、分析(xi),并以巨大表格的形式存入數(shu)據(ju)庫,這個過程即是索(suo)(suo)引(yin)(yin)(index)。在索(suo)(suo)引(yin)(yin)數(shu)據(ju)庫中,網(wang)頁(ye)文字內(nei)容,關(guan)鍵詞出現(xian)的位置、字體、顏色、加粗(cu)、斜體等相(xiang)關(guan)信息都有相(xiang)應記錄(lu)。
3、搜索詞處理
用(yong)戶在搜(sou)索引(yin)擎界面輸入(ru)關鍵詞(ci),單擊“搜(sou)索”按(an)鈕后,搜(sou)索引(yin)擎程序即對(dui)搜(sou)索詞(ci)進行(xing)處理,如中(zhong)文特有(you)的分詞(ci)處理,去除停止詞(ci),判斷是否(fou)需(xu)要啟(qi)動整(zheng)合搜(sou)索,判斷是否(fou)有(you)拼寫錯誤(wu)或錯別字(zi)等情況(kuang)。搜(sou)索詞(ci)的處理必(bi)須(xu)十分快速。
4、排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法與人相比,這就是為什么網(wang)站要進行(xing)搜索(suo)引擎優(you)化(SEO)。沒(mei)有SEO的(de)幫助,搜索(suo)引擎常(chang)常(chang)并不能正確的(de)返回最相關(guan)、最權威、最有用(yong)的(de)信息。