1、爬(pa)蟲:從(cong)互聯網爬(pa)取(qu)原始網頁數據,存儲(chu)于(yu)文檔(dang)知(zhi)識庫服務器(qi)。
2、文檔知識庫(ku)服務器(qi):存儲(chu)原始網(wang)頁數(shu)據(ju),通常是(shi)分布式Key-Value數(shu)據(ju)庫(ku),能根(gen)據(ju)URL/UID快速獲取網(wang)頁內容。
3、索(suo)(suo)(suo)引(yin)(yin)(yin):讀取(qu)原(yuan)始網(wang)頁數(shu)據,解析網(wang)頁,抽取(qu)有(you)效字段,生(sheng)成(cheng)索(suo)(suo)(suo)引(yin)(yin)(yin)數(shu)據。索(suo)(suo)(suo)引(yin)(yin)(yin)數(shu)據的(de)生(sheng)成(cheng)方(fang)式通(tong)常(chang)(chang)是增量的(de),分塊/分片的(de),并(bing)會(hui)進行索(suo)(suo)(suo)引(yin)(yin)(yin)合并(bing)、優化和刪(shan)除(chu)。生(sheng)成(cheng)的(de)索(suo)(suo)(suo)引(yin)(yin)(yin)數(shu)據通(tong)常(chang)(chang)包括(kuo):字典數(shu)據、倒排表(biao)、正排表(biao)、文檔(dang)屬性等。生(sheng)成(cheng)的(de)索(suo)(suo)(suo)引(yin)(yin)(yin)存儲(chu)于(yu)索(suo)(suo)(suo)引(yin)(yin)(yin)服務器(qi)。
4、索(suo)引服務(wu)器:存儲(chu)索(suo)引數據(ju)(ju)(ju),主要是倒(dao)排(pai)表,通常是分(fen)塊、分(fen)片存儲(chu),并支持增量(liang)(liang)更(geng)新和刪除。數據(ju)(ju)(ju)內容量(liang)(liang)非常大時,還根(gen)據(ju)(ju)(ju)類(lei)別(bie)、主題、時間(jian)、網頁質量(liang)(liang)劃分(fen)數據(ju)(ju)(ju)分(fen)區和分(fen)布,更(geng)好地服務(wu)在(zai)線查詢。
5、檢索:讀取倒(dao)排表索引,響應(ying)前端查詢請求(qiu),返回相關文檔列表數據。
6、排序:對(dui)檢索(suo)器返(fan)回(hui)的文檔(dang)(dang)列(lie)表(biao)進行排序,基(ji)于文檔(dang)(dang)和查詢(xun)的相關(guan)性(xing)(xing)、文檔(dang)(dang)的鏈接權重等屬性(xing)(xing)。
7、鏈(lian)接(jie)分析:收集各網(wang)頁的鏈(lian)接(jie)數(shu)據和錨文本(Anchor Text),以此(ci)計算各網(wang)頁鏈(lian)接(jie)評分,最(zui)終會(hui)作為網(wang)頁屬性參與返(fan)回(hui)結果(guo)排序。
8、網頁(ye)去重(zhong):提取(qu)各網頁(ye)的(de)相關特征(zheng)屬性,計算相似網頁(ye)組,提供離線索引(yin)和在線查詢的(de)去重(zhong)服務。
9、網頁(ye)反垃(la)(la)圾:收(shou)集各網頁(ye)和網站歷史信息,提取(qu)垃(la)(la)圾網頁(ye)特(te)征,從而對(dui)在線(xian)索引中的網頁(ye)進行判定,去(qu)除垃(la)(la)圾網頁(ye)。
10、查(cha)詢分(fen)析:分(fen)析用戶(hu)查(cha)詢,生成結構化查(cha)詢請求,指(zhi)派到(dao)相應的類別、主題數據(ju)服務器(qi)進行查(cha)詢。
11、頁面(mian)描述/摘(zhai)要:為(wei)檢(jian)索和排序完成的(de)網(wang)頁列表提供(gong)相應的(de)描述和摘(zhai)要。
12、前端:接受用戶請求,分(fen)發至(zhi)相應服務器,返回查詢(xun)結果。