什么是搜索引擎搜索引擎的工作原理

本文章由注冊用戶天空之城上傳提供 2022-12-24 ★ 評論發布糾錯/刪除 0

摘要：在互聯網時代，我們應該都用過搜索引擎查詢過一些信息。說到搜索引擎，我們腦海里想到的無非就是百度、谷歌、搜狗等等。搜索引擎這個名字也許我們并不陌生，但至于什么是搜索引擎也許大家并不怎么了解。下面小編就來介紹搜索引擎的含義及搜索引擎的工作原理。

一、什么是搜索引擎

搜索引擎是(shi)(shi)指根據一(yi)定的策略、運用(yong)(yong)特定的計算(suan)機程序從(cong)互聯網上(shang)采集信(xin)息(xi)(xi)，在對信(xin)息(xi)(xi)進行組織(zhi)和(he)處理后，為(wei)用(yong)(yong)戶提供(gong)檢(jian)索(suo)(suo)(suo)服務，將(jiang)檢(jian)索(suo)(suo)(suo)的相(xiang)關信(xin)息(xi)(xi)展示(shi)給用(yong)(yong)戶的系統。搜索(suo)(suo)(suo)引(yin)(yin)擎是(shi)(shi)工(gong)作于互聯網上(shang)的一(yi)門檢(jian)索(suo)(suo)(suo)技術，它指在提高人們(men)獲取搜集信(xin)息(xi)(xi)的速(su)度(du)，為(wei)人們(men)提供(gong)更好的網絡使用(yong)(yong)環境。從(cong)功能和(he)原理上(shang)搜索(suo)(suo)(suo)引(yin)(yin)擎大致被(bei)分為(wei)全文搜索(suo)(suo)(suo)引(yin)(yin)擎、元搜索(suo)(suo)(suo)引(yin)(yin)擎、垂直搜索(suo)(suo)(suo)引(yin)(yin)擎和(he)目錄(lu)搜索(suo)(suo)(suo)引(yin)(yin)擎等四大類(lei)。

二、搜索引擎的工作原理

搜(sou)索(suo)引(yin)(yin)(yin)(yin)擎的(de)(de)(de)工(gong)作(zuo)原理是從(cong)互聯網(wang)上抓(zhua)取網(wang)頁，建(jian)立(li)(li)索(suo)引(yin)(yin)(yin)(yin)數(shu)據(ju)(ju)庫，在(zai)索(suo)引(yin)(yin)(yin)(yin)數(shu)據(ju)(ju)庫中搜(sou)索(suo)排序(xu)(xu)。它(ta)的(de)(de)(de)整(zheng)個工(gong)作(zuo)過(guo)程大體分(fen)(fen)為(wei)信(xin)息(xi)(xi)(xi)(xi)(xi)采(cai)集(ji)(ji)、信(xin)息(xi)(xi)(xi)(xi)(xi)分(fen)(fen)析、信(xin)息(xi)(xi)(xi)(xi)(xi)查(cha)詢(xun)(xun)和用戶接(jie)口四部分(fen)(fen)。信(xin)息(xi)(xi)(xi)(xi)(xi)采(cai)集(ji)(ji)是網(wang)絡機器人掃描(miao)一定IP地址范圍(wei)內的(de)(de)(de)網(wang)站(zhan)，通過(guo)鏈接(jie)遍(bian)歷Web空(kong)間，來(lai)進行采(cai)集(ji)(ji)網(wang)頁資料，為(wei)保(bao)證(zheng)采(cai)集(ji)(ji)的(de)(de)(de)資料最新，網(wang)絡機器人還(huan)會回訪(fang)已抓(zhua)取過(guo)的(de)(de)(de)網(wang)頁；信(xin)息(xi)(xi)(xi)(xi)(xi)分(fen)(fen)析是通過(guo)分(fen)(fen)析程序(xu)(xu)，從(cong)采(cai)集(ji)(ji)的(de)(de)(de)信(xin)息(xi)(xi)(xi)(xi)(xi)中提取索(suo)引(yin)(yin)(yin)(yin)項，用索(suo)引(yin)(yin)(yin)(yin)項表示文檔(dang)(dang)并(bing)生成文檔(dang)(dang)庫的(de)(de)(de)索(suo)引(yin)(yin)(yin)(yin)表，從(cong)而建(jian)立(li)(li)索(suo)引(yin)(yin)(yin)(yin)數(shu)據(ju)(ju)庫；信(xin)息(xi)(xi)(xi)(xi)(xi)查(cha)詢(xun)(xun)是指用戶以關鍵(jian)詞(ci)查(cha)找(zhao)信(xin)息(xi)(xi)(xi)(xi)(xi)時，搜(sou)索(suo)引(yin)(yin)(yin)(yin)擎會根(gen)據(ju)(ju)用戶的(de)(de)(de)查(cha)詢(xun)(xun)條(tiao)件在(zai)索(suo)引(yin)(yin)(yin)(yin)庫中快速檢索(suo)文檔(dang)(dang)，然后對檢出的(de)(de)(de)文檔(dang)(dang)與查(cha)詢(xun)(xun)條(tiao)件的(de)(de)(de)相關度進行評價，最后根(gen)據(ju)(ju)相關度對檢索(suo)結果進行排序(xu)(xu)并(bing)輸出。

三、搜索引擎的工作流程

1、爬行和抓取

搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)派出一(yi)(yi)(yi)個能(neng)夠在網(wang)上(shang)發(fa)現(xian)新網(wang)頁并(bing)抓(zhua)(zhua)文件(jian)(jian)的(de)(de)(de)(de)(de)程(cheng)序，這(zhe)(zhe)(zhe)個程(cheng)序通(tong)常(chang)稱之為蜘(zhi)蛛（Spider）。搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)從(cong)已知的(de)(de)(de)(de)(de)數據庫出發(fa)，就像正常(chang)用戶(hu)的(de)(de)(de)(de)(de)瀏覽器一(yi)(yi)(yi)樣(yang)訪問這(zhe)(zhe)(zhe)些(xie)網(wang)頁并(bing)抓(zhua)(zhua)取文件(jian)(jian)。搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)通(tong)過這(zhe)(zhe)(zhe)些(xie)爬(pa)蟲去爬(pa)互聯網(wang)上(shang)的(de)(de)(de)(de)(de)外鏈，從(cong)這(zhe)(zhe)(zhe)個網(wang)站(zhan)爬(pa)到另一(yi)(yi)(yi)個網(wang)站(zhan)，去跟蹤(zong)網(wang)頁中的(de)(de)(de)(de)(de)鏈接(jie)(jie)，訪問更(geng)多的(de)(de)(de)(de)(de)網(wang)頁，這(zhe)(zhe)(zhe)個過程(cheng)就叫爬(pa)行(xing)。這(zhe)(zhe)(zhe)些(xie)新的(de)(de)(de)(de)(de)網(wang)址會被存(cun)入數據庫等(deng)待搜(sou)(sou)索(suo)。所以跟蹤(zong)網(wang)頁鏈接(jie)(jie)是搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)蜘(zhi)蛛（Spider）發(fa)現(xian)新網(wang)址的(de)(de)(de)(de)(de)最基(ji)本(ben)的(de)(de)(de)(de)(de)方法，所以反向鏈接(jie)(jie)成為搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)優(you)化的(de)(de)(de)(de)(de)最基(ji)本(ben)因素之一(yi)(yi)(yi)。搜(sou)(sou)索(suo)引(yin)擎(qing)(qing)抓(zhua)(zhua)取的(de)(de)(de)(de)(de)頁面文件(jian)(jian)與(yu)用戶(hu)瀏覽器得(de)到的(de)(de)(de)(de)(de)完全(quan)一(yi)(yi)(yi)樣(yang)，抓(zhua)(zhua)取的(de)(de)(de)(de)(de)文件(jian)(jian)存(cun)入數據庫。

2、建立索引

蜘蛛抓取的(de)頁(ye)面文件分(fen)解、分(fen)析(xi)，并以巨大(da)表格(ge)的(de)形式存(cun)入數(shu)據(ju)庫，這(zhe)個過程即是(shi)索(suo)引(yin)（index)。在索(suo)引(yin)數(shu)據(ju)庫中，網(wang)頁(ye)文字內容，關(guan)鍵詞出現的(de)位置(zhi)、字體、顏(yan)色、加粗、斜體等相關(guan)信息(xi)都有相應記錄。

3、搜索詞處理

用戶在(zai)搜(sou)(sou)索引擎(qing)界面輸入(ru)關(guan)鍵詞(ci)(ci)，單擊(ji)“搜(sou)(sou)索”按(an)鈕(niu)后，搜(sou)(sou)索引擎(qing)程序即對搜(sou)(sou)索詞(ci)(ci)進(jin)行(xing)處(chu)理，如(ru)中文特(te)有(you)的分詞(ci)(ci)處(chu)理，去除停止(zhi)詞(ci)(ci)，判(pan)斷是(shi)否(fou)需要啟動(dong)整合搜(sou)(sou)索，判(pan)斷是(shi)否(fou)有(you)拼寫(xie)錯(cuo)(cuo)誤或錯(cuo)(cuo)別(bie)字等情況。搜(sou)(sou)索詞(ci)(ci)的處(chu)理必(bi)須十分快速。

4、排序

對搜索詞處理后，搜索引擎程序便開始工作，從索引數據庫中找出所有包含搜索詞的網頁，并且根據排名算法計算出哪些網頁應該排在前面，然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法(fa)與(yu)人相比，這就是為什么(me)網(wang)站要進(jin)行搜(sou)索引擎優化（SEO）。沒有SEO的幫助(zhu)，搜(sou)索引擎常常并不能正確的返回最相關、最權威、最有用的信息。

標簽： 搜索引擎網絡互聯網網絡/軟件

網站提醒和聲明

本站為(wei)注(zhu)冊用戶(hu)提(ti)供(gong)信息(xi)(xi)存儲空間服(fu)務，非“MAIGOO編輯上傳提(ti)供(gong)”的文(wen)(wen)章(zhang)/文(wen)(wen)字(zi)均(jun)是(shi)注(zhu)冊用戶(hu)自主發(fa)布上傳，不代表本站觀點，版權歸原作者所有，如有侵權、虛假信息(xi)(xi)、錯誤(wu)信息(xi)(xi)或(huo)任何問題，請及時(shi)聯系我們，我們將在(zai)第一時(shi)間刪(shan)除或(huo)更正(zheng)。申請刪除>> 糾錯>> 投訴侵權>> 網(wang)頁(ye)上相關信(xin)息的(de)知識產權歸網(wang)站方所有(包括但不限于文字、圖(tu)片、圖(tu)表(biao)、著作權、商標權、為(wei)用(yong)戶提供的(de)商業信(xin)息等(deng))，非(fei)經許可不得抄襲或使(shi)用(yong)。

提交(jiao)說明：快速提交發布>> 查看提交幫助>> 注冊登錄>>