搜索引擎如何判断原创文章?

来源:李亚涛 发布时间:2018-09-12 16:32:07 点击数:

先问大家一个问题:


为什么同一原创篇文章发到十几个,甚至上百个网站,而且大多都会被收录?


如果你不知道答案,可以继续往下看。


之所有我们对这个问题有疑惑,其实还是没有深入的去了解搜索引擎原理,其实搜索引擎眼中的网页和我们眼中的网页是不同的。


我们眼中的网页全是:图片+文字+视频


搜索引擎眼中的网页是:代码+关键词


比如一张图片,我们很容易判断是网学堂logo,还是本人李亚涛的头像,但是搜索引擎就比较困难,搜索只通过图片的alt标签来判读图片代表的意思。


同样你把一段文字变成白色,当背景也是白色的时候,你肯定很难发现这段文字,但是搜索引擎通过代码就非常容易发现。


通过举例,相信大家应该知道:我们眼中的网页跟搜索引擎眼中的网页其实是不一样的。


接下来我们再来分析原创文章如何判断?


你想像一下,你在一个网页看到一篇原创文章,你会哪些东西?


相信绝大多数朋友应该会看标题和内容,看过之后可以大概判断文章是否为原创。


但是搜索引擎并不会这样去看,搜索引擎会有一个爬虫,把整个文章所在的网页全部下载下来,然后对整个网页进行分析。


所以文章只是网页的一部分,网页中可能还会有其他一些信息,搜索引擎会把这些信息加在一起计算,然后再通过一些算法过滤,对比之前已收录的网页中是否有相似度比较高的网页,如果没有,那就判断是原创的。


搜索引擎收录的是网页,而不是网页中的文章。这个大家一定要清楚。


所以我们一开始的问题就有答案了:


同一原创篇文章发到十几个,甚至上百个网站,而且大多都会被收录,其实是正常的,因为搜索引擎并不是收录的文章,而是整个网页。


最后给大家一句话总结一下:


2篇完全相同的文章很多,2个完全相同的网页很少