欢迎来到栢塑官网,杭州网站建设公司SEO优化外包公司杭州网络公司整站优化公司
咨询,就免费赠送域名与服务器,咨询热线:18870219079当前位置: 主页 > SEO知识频道 >
SEO知识频道
联系我们
营销部:王总监
15257873850
代码、框架事业部:李工
18668016270
网站客服:Alvin
19814733980

搜索引擎SEO营销推广

作者/整理:admin 来源:栢塑科技 2020-11-13

  为了避免蜘蛛重复爬行和抓取网址,搜索引擎会建立一个地址库,记录下己经被发现 但还没有被抓取的页面,以及己经被抓取的页面。地址库中URL主要来源于以下4个方面:

  •人工录入的种子网站。

  • 蜘 蛛 抓 取 页 面 后 , 从 H TML 中 解 析 出 新 的 链 接 U RL, 与 地 址 库 中 的 数 据 进 行 对 比 , 如果地址库中没有的该网址,就存入待访问地址库。

  •站长通过搜索引擎页面提交表格提交进去的网址。

  •站长通过XML网站地图、站长平台提交的网址。

  蜘 蛛 按 重 要 性 从 待 访 问 地 址 库 中 提 取 UR L, 访 问 并 抓 取 页 面 , 然 后 把 这 个 U RL 从 待 访问地址库中删除,放进己访问地址库中。

  、 般 来 说 , 搜 索 引 擎 都 会 提 供 一 个 表 格 , 供 站 长 提 交 网 址 。 不 过 这 些 提 交 来 的 网 址 都 只 是 存 入 地 址 库 而 己 , 是 否 收 录 还 要 看 页 面 的 重 要 性 。 搜 索 引 擎 所 收 录 的 绝 大 部 分 页 面 是 蜘 蛛 自 己 跟 踪 链 接 得 到 的 。 可 以 说 提 交 页 面 基 本 上 是 毫 无 用 处 的 , 搜 索 引 擎 更 喜 欢 自 己 沿 着链接发现新页面。

  (5) 文件储存

  文 件 储 存 是 指 搜 索 引 擎 蜘 蛛 抓 取 的 数 据 被 存 入 原 始 页 面 数 据 库 。 其 中 的 页 面 数 据 与 用 户浏览器得到的HTML是完全相同的。每个URL都有一个独特的文件编号。

  (6) 爬行时检测内寧

  众 所 周 知 , 在 搜 索 引 擎 索 引 环 节 中 会 进 行 去 重 处 理 , 其 实 在 蜘 蛛 爬 行 的 时 候 已 经 在 进 行 检 测 , 当 蜘 蛛 爬 行 和 抓 取 文 件 时 会 进 行 一 定 程 度 的 复 制 内 容 检 测 , 遇 到 权 重 低 的 网 站 上 大量转载或抄袭内容时,很可能不再继续爬行。

  所 以 对 于 新 站 来 说 , 切 莫 采 集 和 抄 袭 其 他 网 站 内 容 , 这 也 是 为 什 么 很 多 站 长 查 看 曰 志 的 时 候 发 现 了 蜘 蛛 , 但 是 页 面 却 没 有 被 抓 取 的 原 因 , 因 为 蜘 蛛 在 爬 行 时 发 现 是 重 复 内 容 就 放弃抓取,所以蜘蛛就只停留在爬行过的阶段。

  2.预处理

  蜘 蛛 对 网 站 进 行 了 爬 行 和 抓 取 之 后 , 还 需 要 对 页 面 进 行 预 处 理 , 也 被 称 为 “ 索 引 ” 。 因 为 搜 索 引 擎 数 据 库 中 拥 有 数 以 亿 计 的 网 页 , 用 户 输 入 搜 索 后 , 搜 索 引 擎 的 计 算 量 太 大 , 很 难 在 极 短 的 时 间 内 返 回 搜 索 结 果 , 因 此 必 须 对 页 面 进 行 预 处 理 , 为 最 后 的 查 询 排 名 做 准 备 。 预处理主要包括如下几个步骤。

  (1)提取文字

  现 阶 段 的 搜 索 引 擎 主 要 以 文 字 内 容 为 基 础 。 蜘 蛛 抓 取 到 的 页 面 中 的 H TML 代 码 , 除 了 用 户 在 浏 览 器 上 可 以 看 到 的 可 见 文 字 外 , 还 包 含 了 大 量 的 H TML 格 式 标 签 、 JavaScript 程 序 等 无 法 用 于 排 名 的 内 容 。 搜 索 引 擎 预 处 理 首 先 要 做 的 就 是 从 H TML 文 件 中 去 除 标 签 和 程  序,提取出用于排名处理的网页面文字内容。

  (2) 中文分词

  中文分词是中文搜索引擎特有的一步工作内容,中文的词与词之间没有任何分隔符, 一个句子里面所有字和词都是连在一起的。因此,搜索引擎首先要分辨哪几个字是组成一 个词的,哪些字本身就是一个词。中文分词有两种方法,一种是基于词典匹配分词法,另 一种是基于统计分词法。

  ・ 基 于 词 典 匹 配 分 词 , 是 指 将 待 分 析 的 - • 段 汉 字 与 一 个 事 先 造 好 的 词 典 中 的 词 进 行 匹 配 , 在 待 分 析 汉 字 串 中 扫 描 到 词 典 中 己 有 的 词 条 , 则 说 明 匹 配 成 功 , 或 者 可 以 说 切 分 出 一 个单词。

  •基于统计分词,是指对大量的文字样本进行分析,计算出字与字相邻出现的概率,

  字与字之间相邻出现的次数越多,就越可能形成一个单词。基于统计分词方法的优势是对 新出现的词反应更快速,也有利于消除歧义。

  在 实 际 使 用 中 , 会 综 合 使 用 两 种 分 词 方 法 。 搜 索 引 擎 对 页 面 的 分 词 取 决 于 词 库 的 规 模 、 准 确 性 和 分 词 算 法 的 好 坏 , 而 不 是 取 决 于 页 面 本 身 , 所 以 从 分 询 角 度 来 说 , SEO 人 员 对 于 网 站 能 做 的 很 少 。 唯 一 能 做 的 是 在 页 面 上 用 某 种 形 式 提 示 搜 索 引 擎 , 某 几 个 字 应 该 被 作 为 一 个 词 处 理 , 尤 其 在 可 能 产 生 歧 义 的 时 候 , 比 如 在 页 面 标 题 、 hl 标 签 及 黑 体 中 出 现 关 键 词 。 如 果 某 页 面 是 关 于 “ 舞 蹈 培 训 ” 的 内 容 , 那 么 可 以 把 “ 舞 蹈 培 训 ” 这 几 个 字 标 为 黑 体 这 样 搜索引擎对页面进行分析时就会知道标为黑体的是一个词。,

  (3) 去停止词

  停止词是了些在页f内容中出现频率很高,但是对内容没有任何影响的词,如“的”

  “地” “得”之类的助词,还有“啊” “哈” “呀”之类的感叹词,“从而” “以” “却”之类

  副词或者介词。除中文外还有一些英文的常见停止词,如the、a、an、to、#等。

  因 为 它 们 对 页 面 的 主 要 意 思 没 什 么 影 响 , 故 搜 索 引 擎 在 索 引 页 面 之 前 会 去 掉 这 些 停 止 词,使索引数据主题更为突出,减少无谓的计算量。

  (4)消除噪声

  噪 声 并 不 是 指 网 页 中 的 嘈 杂 的 声 音 , 而 是 指 页 面 上 对 页 面 主 题 没 有 贡 献 的 内 容 , 比 如 版 权 声 明 文 字 、 専 航 条 、 广 告 等 , 这 些 内 容 对 页 面 主 题 只 能 起 到 分 散 作 用 。 因 此 搜 索 引 擎 需 要 识 别 并 消 除 这 些 噪 声 , 排 名 时 不 使 用 噪 声 内 容 。 消 噪 的 基 本 方 法 是 根 据 H TML 标 签 对 页 面 分 块 , 区 分 出 页 头 、 导 航 、 正 文 、 页 脚 、 广 告 等 区 域 , 在 网 站 上 大 量 重 复 出 现 的 K 块 往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。