东旭个人博客-(提供企业网站优化、外包服务)

seo

您现在的位置是:主页 > 成都SEO >

成都SEO原创文章的那点事

发布时间:2020-04-05 20:19编辑:成都SEO浏览(191)

    一、为什么搜索引擎重视原创

    1.1采集泛滥

    百度的一项调查显示,80%以上的新闻和信息都是通过机器进行人工转载或采集的,从传统媒体的报纸到娱乐网站的花边新闻,从游戏指南到产品评论,甚至大学图书馆发布的提醒也通知说,所有网站都在进行机器采集。可以说,高质量的原创内容是被浩瀚海洋所包围的藏品之一,搜索引擎在海洋中的搜索难度和挑战性很大。

    1.2改善搜索用户体验

    数字化降低了通信成本,工具化降低了采集成本,机器采集行为混淆了内容源,降低了内容质量。在采集过程中,无意或故意地采集到的网页内容不完整、格式混乱或出现附加垃圾,严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因在于提高用户体验。这里的创意是高品质的原创内容。

    1.3鼓励原创作者和文章

    转载和采集,分流了优质原创网站的流量,不再有原创作者的名字,将直接影响到优质原创网站的站长和作者的收入。从长远来看,会影响原创者的积极性,不利于创新和新的质量内容。鼓励高质量的原创,鼓励创新,给原创网站和作者合理的流量,促进互联网内容的繁荣,应该是搜索引擎的一项重要任务。

    成都SEO原创文章的那点事

    二、采集很狡猾,很难鉴别原作

    2.1采集冒充原创,篡改密钥信息

    目前,大量网站分批采集原创内容后,采用人工或机器的方式篡改作者、发布时间、来源等关键信息,冒充原创。这种冒充创意的行为需要得到搜索引擎的认可,并进行适当的调整。

    2.2内容生成器,制造伪原创

    使用自动文章生成器等工具“创建”一篇文章,然后安装一个引人注目的标题,现在成本很低,而且必须是原创的。然而,创意必须具有社会共识的价值,而不是制造出一块并非武断不可或缺的垃圾,才能被视为有价值的高质量原创内容。虽然内容独特,但不具有社会共识的价值。这种伪原创是搜索引擎需要关注和识别的。

    2.3网页差异化,结构化信息提取困难

    不同站点的结构不同,html标记的含义和分布也不同,因此提取标题、作者、时间等关键信息的难度也不同。既要完整准确,又要最及时,在目前中国互联网的规模下是不容易的。这一部分将需要搜索引擎和网站管理员的合作,以便更顺利地运行。以更清晰的结构告知搜索引擎网页的布局,将使搜索引擎能够有效地提取原始信息和相关信息。

    三、百度如何识别原创?

    3.1成立原项目组打持久战

    面对挑战,为了提高搜索引擎的用户体验,为了让优质原创者的原创网站得到应有的收益,促进中国互联网的发展,我们部署了大量的人员组成原创项目群:技术、产品、运营,法律事务等,这不是一个临时组织,不是一个1个月和2个月的项目。我们准备打持久战。

    3.2原创识别“起源”算法

    互联网可以轻松生成数百亿或数千亿的网页,并从中挖掘出原创内容。可以说这是大海捞针。我们原来的识别系统是在百度大数据的云计算平台上开发的,可以快速实现所有中文互联网网页的重复聚合和链接指向关系分析。一是通过内容相似度聚合采集与原创,并将类似网页聚合为候选集进行原创识别;二是对于原创候选集,通过作者、发布时间、链接指向、用户评论、作者与网站历史原创等数百个因素进行情况和转发轨迹识别并确定原始网页;最后,价值分析系统确定原始内容的价值,然后适当引导最终排名。

    目前,通过我们的实验和真实的在线数据,“起源”算法已经取得了一些进展,解决了新闻信息领域的大部分问题。当然,其他领域还有更多的原创问题等着“原点”来解决,我们正在坚定地走下去。

    3.3原创星火项目

    我们一直致力于对原创内容识别和排序算法的调整,但在当前的互联网环境下,快速识别原创内容以解决原创问题确实面临着巨大的挑战。计算数据的规模巨大,面临的采集方法也层出不穷。在方法和模板、复杂内容提取等方面存在巨大差异。这些因素会影响原创算法的识别,甚至导致错误的判断。此时,百度和站长需要共同维护互联网的生态环境。网站管理员推荐原创内容。搜索引擎在经过一定的判断后,更倾向于原创内容,共同推动生态的改善,鼓励原创,旨在快速解决我们面临的严重问题。此外,站长对原创内容的推荐将应用到“起源”算法中,这将有助于百度发现算法的不足,不断改进,并使用更多的智能识别算法来自动识别原创内容。

    目前,原星火项目也已取得初步成效。第一阶段对一些重点原创新闻网站的原创内容在百度搜索结果中给予了原创标签、作者展示等,在排名和流量上也取得了合理的提升。

    最后,原创是一个生态问题,需要长期改进。我们将继续投资和与网站管理员合作,推动互联网生态的进步;原创是一个需要大家共同维护的环境问题。不断完善排名算法,鼓励原创内容,为原创作者和原创网站提供合理的排名和流量。