如何做好网站内容页面的内链工作?

  传统方式
  以前我们做文章系统或新闻发布系统的时候,做文章内链(标签)的时候,通常是通过以下方法来实现的:
  数据库:article(文章表)字段(id, title, body, adddate, userid),keyword(内链表)字段(id, name, link)
  在发布文章的时候,轮回内链表内的所有,来调换文章的body。
  这样确切是实现了想要的功效,然而如果咱们的内链表的数据到达很大的数量,比方2W、5W或更多的时候。每宣布跟修正一片文章的效力是可想而知的。那么网易的消息、百度的百科等这样打大型网站是如何实现的呢?假如依照以上的做法,那体系在多少个月后就直接瓦解了。
  剖析比较
  一篇畸形的文章会有多少字(不计HTML代码)?1W?我想1W的文章已经算是很长的了,而且想在如果直接在一个页面显示1W的文章信任不几个人有耐烦能看完的。为了页面雅观和用户休会,编纂通常都是将内容过多、篇幅超长内容的文章分段处置(分为几篇文章,或分章节)。如果我们能事先将可能涌现内链的字从文章中提取出来,再从数据库里检索,这样效率是不是就可以得到很大的提高?谜底是确定的。我们就拿1W字的文章来说,假设文章的所有文字都需要内链,循环的次数是1W次。比上面的例子假设要强得多吧?
  在传统方式中,不论你要不要,把内链表的货色全查一边。而下面这种思路是当时将有可能呈现内链的字词全体收拾出来,再用这些词分辨去检索内链表。这样一比拟问题就出来了。
  新思路就是:从文章中掏出需要内链的字词,然后去查问内链表。
  可行操作
  我们暂且把传统方式称为被动方式,把新思路的办法称为主动方式。
  自动方式的实现方式如下。
  应用中文分词技巧,我们能够对一篇文章进行分词。而后依据分词后的词表,过滤掉常用的物主代词、副词、感慨词等。把名词、品牌、地名、商标等留下,或者根据自己的词库表来分词。然后把残余的字词去检索内链表,如果有存在,我们就做上链接,不存在就PASS。

已被查看 5526
点击这里给我发消息点击这里给我发消息