1、爬(pa)蟲:從互聯網爬(pa)取(qu)原始網頁數據,存儲于(yu)文檔(dang)知識庫服務器(qi)。
2、文檔知識庫(ku)服(fu)務(wu)器:存儲原始網(wang)頁數(shu)據(ju),通常是分布式Key-Value數(shu)據(ju)庫(ku),能根據(ju)URL/UID快速獲取(qu)網(wang)頁內容。
3、索(suo)引:讀取原始網頁數(shu)據(ju),解析(xi)網頁,抽取有效(xiao)字段,生(sheng)成(cheng)索(suo)引數(shu)據(ju)。索(suo)引數(shu)據(ju)的生(sheng)成(cheng)方式通常是增(zeng)量的,分塊/分片(pian)的,并(bing)會進(jin)行索(suo)引合(he)并(bing)、優化和刪除。生(sheng)成(cheng)的索(suo)引數(shu)據(ju)通常包括:字典數(shu)據(ju)、倒(dao)排(pai)表、正(zheng)排(pai)表、文(wen)檔(dang)屬性等。生(sheng)成(cheng)的索(suo)引存儲于索(suo)引服務器(qi)。
4、索引服務器:存儲索引數(shu)據(ju),主(zhu)要是倒排表,通常是分(fen)(fen)塊、分(fen)(fen)片存儲,并支持(chi)增量更新(xin)和刪(shan)除。數(shu)據(ju)內容量非常大時,還(huan)根據(ju)類別、主(zhu)題、時間、網頁(ye)質(zhi)量劃分(fen)(fen)數(shu)據(ju)分(fen)(fen)區和分(fen)(fen)布,更好地服務在線查詢。
5、檢索(suo):讀取倒排表索(suo)引(yin),響應前端(duan)查詢(xun)請求,返回(hui)相關(guan)文檔(dang)列表數據。
6、排(pai)序:對檢索器返回的(de)(de)文檔(dang)列表進行排(pai)序,基于(yu)文檔(dang)和查詢的(de)(de)相關性(xing)、文檔(dang)的(de)(de)鏈(lian)接(jie)權重等屬性(xing)。
7、鏈(lian)(lian)接分析(xi):收(shou)集各網(wang)頁的鏈(lian)(lian)接數據和錨(mao)文本(Anchor Text),以此計算各網(wang)頁鏈(lian)(lian)接評(ping)分,最(zui)終會作為網(wang)頁屬(shu)性參與(yu)返回結(jie)果排序。
8、網(wang)頁去重:提取各網(wang)頁的相關(guan)特征(zheng)屬性,計算(suan)相似網(wang)頁組,提供(gong)離(li)線(xian)(xian)索引和(he)在線(xian)(xian)查詢的去重服務。
9、網(wang)(wang)頁(ye)反垃圾(ji)(ji)(ji):收集各網(wang)(wang)頁(ye)和網(wang)(wang)站(zhan)歷史(shi)信息,提(ti)取垃圾(ji)(ji)(ji)網(wang)(wang)頁(ye)特(te)征,從而對在線索引(yin)中的(de)網(wang)(wang)頁(ye)進行判(pan)定,去(qu)除垃圾(ji)(ji)(ji)網(wang)(wang)頁(ye)。
10、查(cha)詢(xun)(xun)分(fen)析:分(fen)析用戶查(cha)詢(xun)(xun),生成結構化查(cha)詢(xun)(xun)請求,指派到相應的(de)類別、主題數據服務器進行(xing)查(cha)詢(xun)(xun)。
11、頁面描述(shu)(shu)/摘要:為檢索和排序(xu)完成(cheng)的網(wang)頁列表提供相應(ying)的描述(shu)(shu)和摘要。
12、前端:接受用(yong)戶(hu)請求(qiu),分發至相應服(fu)務器,返回查(cha)詢結果。