搜索引擎工作的原理

原创 深圳胜达SEO  2016-06-11 23:03  阅读 79 次

作为一个合格的SEO人员我们必须要了解搜索引擎的工作原理,因为很多seo问题从搜索引擎原理去考虑就能找到答案,在优化网站的时候我们解决了用户的问题,我们也需要考虑搜索引擎的问题,这样才能在排名上面取得好成绩。

搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

搜索引擎的基本工作原理

1、抓取网页

每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

2、处理网页

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

3、提供检索服务

用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

很多seo每天抄袭伪原创,以为更换段落,改写几个表达方式,修修改改就可以瞒天过海,其实搜索引擎没有大家想的那么简单,只要是收录了的页面文字,搜索引擎基本都可以判断出来的。所以想要搜索引擎爱上你的网站,就必须原创文章。

 

了解搜索引擎工作原理是为了知己知彼,因为SEO与搜索引擎是良性的共生关系,只有了解了搜索引擎的工作原理我们才能有针对性的去做一些事,也知道做那些事是为了什么。下面带领大家一起来学习一下搜索引擎究竟是如何工作的?

一、抓取
1、 什么是“蜘蛛”
百度蜘蛛:Baiduspider
谷歌机器人:Googlebot
360蜘蛛:360Spider
2、蜘蛛的工作内容
爬行:页面为节点,链接为路径
抓取:从左到右,从上到下
3、怎么让蜘蛛来我们的网站
蜘蛛自己来
外部链接
提交链接
4、怎么知道蜘蛛来过我们的网站
百度抓取频次
服务器IIS日志
判断真假蜘蛛:反解IP:来判断是否来自百度蜘蛛
命令:nslookup xxx.xxx.xxx.xxx(IP地址)
真:以*.baidu.com或*.baidu.jp的格式
例如:220.181.108.95

5、影响蜘蛛抓取的因素
网址太长
中文路径
服务器太差
robots屏蔽
动态路径参数过多(不要超过三个)
需要登录才能访问的页面

三、过滤
为什么要过滤:低质量页面,占用存储资源
影响过滤的因素:识别(图片、JS、Flash视频、iframe框架、tatle层级较多),内容质量(重复内容)

四、收录
1、对有质量的内容进行提取和组织建立索引库
2、如何查看收录:百度一下
site:+域名
百度索引量(百度站长平台):栏目收录(百度站长里面新增规则)
3、收录少怎么办
新站:1-2个月开始收录内容
老站:内容质量/具体操作

五、排序
1、根据用户输入的关键词,在索引库中快速查找检出文档
2、基础优化
3、用户数据

六、图解

搜索引擎工作的原理

蜘蛛从索引区出发抓取网页,将抓取到的网页存放在临时库中进行处理,临时库与网页之间是循环的,不符合规则的清理掉,符合规则的放到索引区,在索引区中进行分类、归档、排序、然后将信息反馈给用户。有了以上的详细解说以及图解,相信大家对搜索引擎是怎样工作的都有了一定的了解,希望广大学子在SEO的道路上走得更好,更高。

历史上的今天:

本文地址:http://www.szsdseo.com/ssyq/797.html
版权声明:本文为原创文章,版权归 深圳胜达SEO 所有,欢迎分享本文,转载请保留出处!

发表评论


表情