如何做好网站内容页面的内链工作？

　　传统方式
　　以前我们做文章系统或新闻发布系统的时候，做文章内链(标签)的时候，通常是通过以下方法来实现的：
　　数据库：article(文章表)字段(id， title， body， adddate， userid)，keyword(内链表)字段(id， name， link)
　　在发布文章的时候，轮回内链表内的所有，来调换文章的body。
　　这样确切是实现了想要的功效，然而如果咱们的内链表的数据到达很大的数量，比方2W、5W或更多的时候。每宣布跟修正一片文章的效力是可想而知的。那么网易的消息、百度的百科等这样打大型网站是如何实现的呢?假如依照以上的做法，那体系在多少个月后就直接瓦解了。
　　剖析比较
　　一篇畸形的文章会有多少字(不计HTML代码)?1W?我想1W的文章已经算是很长的了，而且想在如果直接在一个页面显示1W的文章信任不几个人有耐烦能看完的。为了页面雅观和用户休会，编纂通常都是将内容过多、篇幅超长内容的文章分段处置(分为几篇文章，或分章节)。如果我们能事先将可能涌现内链的字从文章中提取出来，再从数据库里检索，这样效率是不是就可以得到很大的提高?谜底是确定的。我们就拿1W字的文章来说，假设文章的所有文字都需要内链，循环的次数是1W次。比上面的例子假设要强得多吧?
　　在传统方式中，不论你要不要，把内链表的货色全查一边。而下面这种思路是当时将有可能呈现内链的字词全体收拾出来，再用这些词分辨去检索内链表。这样一比拟问题就出来了。
　　新思路就是：从文章中掏出需要内链的字词，然后去查问内链表。
　　可行操作
　　我们暂且把传统方式称为被动方式，把新思路的办法称为主动方式。
　　自动方式的实现方式如下。
　　应用中文分词技巧，我们能够对一篇文章进行分词。而后依据分词后的词表，过滤掉常用的物主代词、副词、感慨词等。把名词、品牌、地名、商标等留下，或者根据自己的词库表来分词。然后把残余的字词去检索内链表，如果有存在，我们就做上链接，不存在就PASS。

已被查看 5526 次

上一篇：网站外链质量好坏详解
下一篇：搜索引擎的工作过程的三个阶段