1、爬蟲:從互聯網爬取原始網頁(ye)數據,存儲于(yu)文檔知識庫服(fu)務器。
2、文(wen)檔知識庫服務器(qi):存儲原始網(wang)頁數據(ju),通常是分(fen)布式(shi)Key-Value數據(ju)庫,能根(gen)據(ju)URL/UID快速(su)獲取網(wang)頁內容(rong)。
3、索(suo)(suo)引(yin)(yin):讀取原(yuan)始網頁(ye)數(shu)據(ju),解析網頁(ye),抽取有效字段(duan),生成索(suo)(suo)引(yin)(yin)數(shu)據(ju)。索(suo)(suo)引(yin)(yin)數(shu)據(ju)的生成方式通常是(shi)增(zeng)量的,分塊(kuai)/分片的,并(bing)會(hui)進行索(suo)(suo)引(yin)(yin)合并(bing)、優化和(he)刪除。生成的索(suo)(suo)引(yin)(yin)數(shu)據(ju)通常包括(kuo):字典數(shu)據(ju)、倒排表、正排表、文檔屬(shu)性等。生成的索(suo)(suo)引(yin)(yin)存儲于索(suo)(suo)引(yin)(yin)服(fu)務器。
4、索引(yin)(yin)服(fu)務器:存(cun)儲索引(yin)(yin)數據(ju)(ju),主要是(shi)倒(dao)排(pai)表,通(tong)常是(shi)分(fen)塊、分(fen)片(pian)存(cun)儲,并支持增量(liang)更(geng)新和刪(shan)除(chu)。數據(ju)(ju)內容量(liang)非常大時,還根據(ju)(ju)類別、主題、時間、網頁質量(liang)劃分(fen)數據(ju)(ju)分(fen)區和分(fen)布,更(geng)好(hao)地服(fu)務在(zai)線查(cha)詢。
5、檢索(suo)(suo):讀取倒排表索(suo)(suo)引,響(xiang)應前(qian)端(duan)查詢請(qing)求,返(fan)回相關文檔列表數據。
6、排序:對(dui)檢(jian)索器返(fan)回的(de)文檔列表進行排序,基(ji)于文檔和查詢的(de)相關性(xing)、文檔的(de)鏈接權重等屬性(xing)。
7、鏈(lian)(lian)接分(fen)析:收集各網(wang)頁(ye)(ye)的鏈(lian)(lian)接數據和錨文本(Anchor Text),以此(ci)計算各網(wang)頁(ye)(ye)鏈(lian)(lian)接評分(fen),最終會作為(wei)網(wang)頁(ye)(ye)屬(shu)性(xing)參與(yu)返回結果排序。
8、網頁去重:提取(qu)各網頁的相(xiang)關(guan)特征(zheng)屬性(xing),計算相(xiang)似網頁組,提供(gong)離線索引和在線查詢的去重服(fu)務。
9、網頁反垃(la)圾(ji)(ji):收(shou)集(ji)各網頁和(he)網站歷史信息,提取(qu)垃(la)圾(ji)(ji)網頁特征(zheng),從而對在線索引中的網頁進行判定,去除垃(la)圾(ji)(ji)網頁。
10、查詢分(fen)析(xi):分(fen)析(xi)用戶查詢,生(sheng)成結構化查詢請(qing)求,指派(pai)到(dao)相應(ying)的(de)類(lei)別、主題數據服(fu)務器進行查詢。
11、頁面描述(shu)/摘要:為檢索和排序完成的(de)網(wang)頁列表提供相應的(de)描述(shu)和摘要。
12、前端:接受(shou)用戶請求,分(fen)發至相應服務器,返(fan)回查詢結果(guo)。