欢迎来到栢塑官网,杭州网站建设公司SEO优化外包公司杭州网络公司整站优化公司
咨询,就免费赠送域名与服务器,咨询热线:18870219079当前位置: 主页 > SEO知识频道 >
SEO知识频道
联系我们
营销部:王总监
15257873850
代码、框架事业部:李工
18668016270
网站客服:Alvin
19814733980

搜索引擎SEO的工作原理

作者/整理:admin 来源:栢塑科技 2020-11-13

  搜 索 引 擎 的 工 作 辱 理 非 常 复 杂 , 大 致 可 以 分 为 三 个 阶 段 : 爬 行 与 抓 取 、 预 处 理 、 排 名 .

  1.起行与板取

  爬 行 与 抓 取 是 搜 索 引 擎 第 一 去 工 作 , 也 就 是 在 互 联 网 上 发 现 、 搜 集 网 页 信 息 , 同 时 对 信息进行提取和建立索引库。“爬行和抓取”的具体内容包括以下几点。

  (1)搜索引擎蜘蛛

  搜 索 引 擎 用 来 爬 行 和 访 问 页 面 的 程 序 被 称 为 “ 蜘 蛛 ” ( Spider )或 网 络 机 器 人 , 这 是 一 种按照一定规则自动抓取互联网信息的程序或者脚本。

  蜘蛛的作用就是在互联中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上, 然后建立索引库。我们可以把蜘蛛比作一个用户,然后这个用户访问某一个网站后,把该 网站的内容保存到自己的计算机上。

  搜 索 引 擎 蜘 蛛 与 浏 览 器 一 样 , 也 有 表 明 自 己 身 份 的 代 理 名 称 , 站 长 可 以 在 网 站 日 志 文 件 中 看 到 搜 索 引 擎 的 特 定 代 理 名 称 , 从 而 知 道 哪 些 搜 索 引 擎 蜘 蛛 何 时 爬 行 和 抓 取 了 自 己 网 站 页 面 。 常 见 的 搜 索 引 擎 蜘 蛛 有 : 百 度 蜘 蛛 、 雅 虎 中 国 蜘 蛛 、 雅 虎 英 文 蜘 蛛 、 Google 蜘 蛛 、 微软Bing蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛。

  (2)跟踪链接

  为 了 抓 取 更 多 的 页 面 , 搜 索 引 擎 蜘 蛛 会 跟 踪 页 面 上 的 链 接 , 从 一 个 页 面 爬 行 到 下 一 个 页 面 , 就 像 蜘 蛛 在 蜘 蛛 网 上 爬 行 一 样 。 整 个 互 联 网 是 由 相 互 连 接 的 网 站 及 页 面 组 成 , 从 理 论上讲,蜘蛛从任何-个页面出发,都可以顺着链接爬行到互联网上的其他页面。

  由 于 网 站 及 页 面 链 接 结 构 异 常 复 杂 , 蜘 蛛 需 要 采 取 - 定 的 爬 行 策 略 才 能 爬 完 网 上 所 有 的 页 面 。 搜 索 引 擎 蜘 蛛 的 爬 行 策 略 分 为 两 种 , 一 种 是 深 度 优 先 搜 索 , 另 外 一 种 是 广 度 优 先 搜索。

  ① 深度优先搜索

  深 度 优 先 搜 索 指 的 是 蜘 蛛 沿 着 发 现 的 链 接 一 直 向 前 爬 行 , 直 到 再 也 没 有 其 他 链 接 , 然 后返回到第一个页面,再沿着另一个链接一直向前爬行。

  图 1 -5 所 示 为 一 个 无 向 图 , 如 果 蜘 蛛 从 A 点 开 始 爬 行 ( 访 问 次 序 并 不 是 唯 一 的 , 第 二 个 点 既 可 以 是 C 点 也 可 以 是 B 、 D 点 ) , 则 得 到 如 下 一 个 访 问 过 程 : A —B —E, 这 时 没 有 下 一 条 路 了 , 就 会 回 溯 到 A 点 , 然 后 继 续 下 一 访 问 过 程 : A — C — D ( 没 有 路 , 最 终回到A),回到A点后,A点没有未访问过的相邻结点,本次搜索结束。

  ② 广度优先搜索

  广度优先搜索是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前, 而是把页面上所有的第一层页面都爬一遍,然后再沿着第二层页面上发现的链接爬向第三 层链接。如图1-6所示,蜘蛛从A页面顺着链接爬行到B、C、D页面,直到A页面上的 所有链接都爬行完了,再从B页面的链接爬行到E、F页面中。

  在 深 度 优 先 搜 索 算 法 中 , 深 度 越 大 的 结 点 越 先 得 到 扩 展 。 如 果 在 搜 索 中 把 算 法 改 为 按 结 点 的 层 次 进 行 搜 索 , 本 层 的 结 点 没 有 搜 索 处 理 完 时 , 不 能 对 下 层 结 点 进 行 处 理 , 即 深 度 越 小 的 结 点 越 先 得 到 扩 展 , 也 就 是 说 先 产 生 的 结 点 先 得 以 扩 展 处 理 , 这 种 搜 索 算 法 称 为 广 度优先搜索法。

  从 理 论 上 讲 , 无 论 是 深 度 优 先 还 是 广 度 优 先 , 只 要 给 蜘 蛛 足 够 的 时 间 , 都 能 爬 行 完 整 个 网 络 。 但 在 实 际 工 作 中 , 蜘 蛛 的 宽 带 资 源 和 时 间 都 是 有 限 的 , 所 以 不 可 能 爬 完 所 有 的 页 面 。 深 度 优 先 和 广 度 优 先 通 常 是 混 合 使 用 的 , 因 为 这 样 既 可 以 照 顾 到 更 多 的 网 站 ( 广 度 优 先 ) , 也 能 照 顾 到 一 部 分 网 站 的 页 面 ( 深 度 优 先 ) , 同 时 还 考 虑 了 页 面 权 重 、 网 站 规 模 和 外 部链接等因素。

  .(3)吸引蜘蛛

  1

  虽 然 理 论 上 蜘 蛛 会^ 所 有 的 网 页 , 但 实 际 上 会 因 为 多 种 因 素 影 响 而 不 能 抓 取 所 有 的 网 页 。 因 此 , SEO 人 员 想 要 自 己 网 站 有 更 多 的 页 面 被 收 录 , 就 要 想 办 法 吸 引 蜘 蛛 爬 行 , 那 么哪些因素可以吸引蜘蛛爬行呢?

  • 网 站 和 页 面 权 重 。 一 般 来 说 , 质 量 高 、 时 间 久 的 网 站 , 权 重 都 比 较 高 # 搜 索 引 擎 蜘 蛛爬行的次数也比较频繁。这种网站上页面被爬行的深度比较高,收录的网页也非常多。

  • 页 面 的 更 新 频 率 。 蜘 蛛 每 次 爬 行 都 会 把 页 面 数 据 存 储 起 来 , 如 果 第 二 次 爬 行 时 发 现 页 面 与 第 一 次 收 录 的 内 容 完 全 相 同 , 说 明 页 面 没 有 更 新 , 蜘 蛛 也 就 不 会 经 常 抓 取 了 。 页 面 内 容 经 常 更 新 , 蜘 蛛 会 更 加 频 繁 地 访 问 页 面 , 页 面 出 现 新 的 链 接 , 自 然 会 被 蜘 蛛 更 快 地 跟 踪、抓取。

  • 网 站 的 原 创 内 容 。 原 创 内 容 对 于 百 度 蜘 蛛 的 吸 引 力 非 常 大 , 也 是 搜 索 引 擎 蜘 蛛 每 天 都 需 要 的 。 对 于 原 创 文 章 的 撰 写 , 站 长 需 要 有 敏 锐 的 观 察 力 和 文 字 功 底 , 原 创 内 容 要 有 吸 引力,不能老生常谈,或者观点模糊,否则就会失去对蜘蛛的吸引力。

  •网站地图。网站地图就像是一个指向标,只有清明了的指向标,才能指引蜘蛛抓

  取的路线。如果网站地图清晰明了,就非常容易吸引蜘蛛爬行。相反,如果网站内部链接 很乱,蜘蛛经常迷路,那么蜘蛛就很少会爬行,不利于抓取网站页面。