seo工作者都知道搜索引擎原理,通常是指在萬維網上收集數千萬到數十億個網頁,并對頁面中每個關鍵詞進行索引,從而建立一個索引數據庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。再經過復雜的算法進行排序,最終按順序展示出來。搜索引擎工作原理有四個步驟即:爬行,抓取,索引和收錄。那么,它們具體是什么呢?下面小編詳細和大家介紹下。
1.爬行
爬行是指搜索引擎蜘蛛從已知頁面解析出指向URL的鏈接,然后沿著鏈接找到新頁面的過程。當然,蜘蛛并不是在找到新URL時立即取去爬行抓取新頁面。相反,它們將找到的URL存儲在待抓取的地址庫中。蜘蛛會按照順序從地址庫中提取要抓取的URL。
2.抓取
抓取是搜索引擎蜘蛛從地址庫中提取要爬行的URL,訪問這個URL,將讀取的HTML代碼存入數據庫。蜘蛛抓取和用戶訪問瀏覽器相同,也會在服務器的原始日志中留下記錄。
3.索引
索引是指將URL的信息整理并存入數據庫,即索引庫。當用戶搜索時,搜索引擎從索引庫中提取URL信息并按順序顯示。索引的英文是index。索引庫用于搜索,因此用戶可以搜索被索引的URL,而未被索引的URL在用戶的搜索結果中不可見。
4.收錄
收錄和索引之間幾乎沒有差異,只是收錄是從用戶的角度來看,搜索時可以找到這個URL,就說明這個URL被收錄了,從搜索引擎的角度來看,URL包被收錄了,即在索引庫中存在的URL的信息。