服务热线:0371-60999820
15238075082
企业网 站网页结构化的过程
  今天河南郑州企业网站seo优化网络公司多尔福科技向大家 介绍过网页结构化的目标,结构化 的过程就是网站有价值信息被保留的过程,是想再次的提醒企业网站seo优化人员,搜索引 擎工作原理是做好企业网站seo优化工作的基础。
  现在不比前几年,一说企业网站seo优化,改改title,discription,keyword,发发外链,网页的 排名效果就会有。但现在 仅仅指望这点已经不起作用了,人人都会的东西,你再拿 出来作为自己的优势,实际上是落伍了,再加上黑帽seo优化的猖獗,针对百度的优化,针对google的优化层出不穷,搜索引 擎也在不断的调整着算法。要做企业网站seo优化的前锋战士,根据互 联网的发展变化,时时保持清醒的头脑,吸收新的知识,只有这 样网站的优化效果才可能在你的控制之中。
  话回正题,来简单解释一下,网页结 构化的过程即有价值信息被保留的过程。明白了 网页结构化的目标后,就应该明白,体现网 页本身价值和内容的5个属性被抽取出来,即,标题(title)、锚文本(anchor text)、正文标题(content title)、正文(content)和正向链接(link)。对搜索引擎来说,这5个属性 就是有价值的信息(当然,也是对 用户有价值的内容)。
  我们来 具体看一下网页结构化是如何进行的?
  网页结 构化的过程首先通过标签树进行分析得到文本对应的标签,然后通 过投票算法确定正文及配图等仅从HTML标签无 法判断的网页数据。以下是 专业人士总结的两步走:
  HTML标签树
  一、 建立html标签树(tag-tree)。
  万维网 上大多数的静态网页都以HTML网页形式存在,HTML是一种标识语言(Markup Language),它把其 描述的全部内容都按照HTML语法存放在标签之中。为了更 清楚地描述网页内容的组织结构,将网页 中的标签按照出现顺序依次整理出来并用适当的结构记录。由于标 签之间的嵌套关系,因此整 理结果自然是一个树状结构,我们把 整理一个网页中的标签得到的树状结构称为该网页的“标签树”。
  很显然,查看该 网页的用户看到的是相当友好的信息。而实际 源文件中的那些HTML标记,如和(可以理解为用来帮助IE浏览器理解网页)等都不 会实际地展示给用户。因此搜 索引擎的分析系统需要学习IE浏览器 理解网页的方式来理解网页,在理解 过程中需要建立一个HTML标签树的树形结构。通过建立标签树,并且识 别标签所描述的文字,网页结 构化进程就走出了重要的一步,能够顺 利提取出了网页的标题。但实际的网页,同一个 标签所描述的文字内容不是唯一确定的,比如广 告内容也可能放在标签里,而这不是真正的正文,是会影 响用户的搜索体验。
  二、通过投 票方法识别正文的文本块,并按照 深度优先遍历的规则组织为正文。
  判断哪 个文本块是正文采用称为“投票算法”的计算方法,这种方 法在搜索引擎中特别常用。在日常 生活中几乎所有人都会有投票或选举的经历,如选举 干部和通过决议需要投票,以及运 动员的一套动作需要裁判员打分等。其基本 原理在于认为大多数人的意见往往是正确的。大多数 人的统一主观意见就会变得较为客观。虽然每 个人的给出的分数是主观产生的,但是这 种评判的方法和结果被认为是相对客观和可信的。正文抽 取的投票算法的过程如何呢?首先搜 索引擎会定义一系列的规则,然后通 过这些规则为每个文本块打分。得分最 高的被认为是正文的可能性足够大,并且可以接受。搜索引擎定的规则,也是需 要通过足够多的网页进行反馈,之后才 能得到一个公正客观的打分。由于HTML标签的 相互嵌套的特性,决定了 深度优先遍历的顺序恰好能够组织成一个完整的正文。
网站首页 | 关于我们 | 版权所有 | 网站地图 | 服务项目 | 网站建设 | 网站seo优化 | 软件开发 | 经典案例 | 常见问题 | 联系我们
版权所有:河南多 尔福电子科技有限公司 豫ICP17014991号-2 技术支持:多尔福科技
地址:河南省 郑州市郑东新区东风南路万通街英地金台府邸4号楼2单元1204室。 手机:15238075082 Email:625564650@qq.com
友情链接:    衢州棋牌   水立方棋牌   妙趣棋牌   巅峰娱乐棋牌   牌缘棋牌