网络学堂

  • 返回首页
  • 域名相关
  • 建站知识
  • SEO优化
  • 在线支付
  • 病毒攻防
  • ERP相关
  • OA相关
  • 软件外包
  • 短信相关
  • 服务器相关
  • [百度站长平台]浅谈网页反作弊技术思路、方法以及处理方式

            一、网页反作弊出现背景        出于商业利益的驱使,很多网站站长会针对搜索引擎排名进行分析,并采取一些手段来提升排名。这种行为本身无可厚非,很多优化行为都是符合搜索引擎排序规则的,但与此同时也存在很多恶意的优化行为。所以网页反作弊,也是目前所有商业搜索引擎需要解决的重要难点。        快排科技(vx:seokuaipai)孔宇今天来谈一下目前一些常见的互联网网页作弊方法、反作弊的整体思路,以及引申出的淘宝搜索反作弊机制与传统网页搜索反作弊的异同。  二、网页作弊类型内容作弊:     从大的分类来说,主要的作弊方法包括:内容作弊、链接作弊、隐藏作弊及近几年兴起的web2.0作弊方法。笔者认为,内容作弊与现阶段业务息息相关,因此会在本文着重讲下此类型及相关的反作弊思路。     内容作弊的目的是通过精心更改或者调控网页内容,使得网页在搜索引擎排名中获得与其网页不相称的高排名。常见的作弊方式包括:关键词重复、无关查询词作弊、图片alt标签文本作弊、网页标题作弊、网页重要标签作弊及网页元信息作弊。通过这几种常见的作弊手段,作弊者的作弊意图不外乎以下几种:     1、增加目标作弊词词频来影响排名;     2、增加主题无关内容或者热门查询吸引流量;     3、关键位置插入目标作弊词影响排名。     Google在2011年2月高调宣布针对低质量网页内容调整排序算法,据报道此算法影响了大约11.8%的网页排名,而这项调整措施是专门针对以Demand Media(创建于2006年5月,雇员500人,它的业务比较庞杂,包括域名注册、内容广告交易等。它的一个主要业务是,它有包括65个社会化媒体组成的网站群。)网站为代表的内容农场作弊手法的。     内容农场的运营者廉价雇佣大量自由职业者,支持他们付费写作,但内容普遍质量低下,很多文章都是通过复制黏贴完成。但重点是,他们会研究搜索引擎的热门搜索词等,并有机的将这些词汇添加到写作内容当中去。这样,普通搜索引擎用户在搜索时,会被吸引进内容农场网站,通过大量低质量内容吸引流量,内容农场可以赚取广告费用。     与传统的作弊方法相比,内容农场不采用机器拼接内容等机械方式,而是通过雇佣人员写作,这种作弊方式搜索引擎往往难以给出是否作弊的明确界定,但又严重影响搜索结果质量,所以是一种很难处理的作弊手法。     三、网页反作弊技术的整体思路:     目前搜索引擎作弊手段五花八门且层出不穷,作为应对方的搜索引擎,也相应调整技术思路,所以如果整理一下反作弊思路,则会发现技术方法很多,理清思路着实不易。尽管如此,如果对大多数反作弊思路深入分析,会发现整体思路上还是有规律可循。从基本思路角度看,可以将反作弊手段大致划分为以下3种:信任传播模型、不信任传播模型和异常发现模型。     1、信任传播模型:在海量的网页数据中,通过一定的技术手段或人工半人工手段,从中筛选出部分完全值得信任的页面(可以理解为我们日常所说的白名单),算法以这些白名单内的页面作为出发点,赋予白名单内页面节点较高的信任度分值,其他页面是否作弊,要根据其与白名单内节点链接关系来确定。白名单内节点通过链接关系将信任度分值向外扩散传播,如果某个节点最后得到的信任度分值高于一定的值,则认为没有问题,如果低于这个值则会被判为作弊。     2、不信任传播模型:从大的技术框架来讲,与信任传播模型极其相似。最大的区别在于:初始页面自己不是值得信任的页面节点,而是确认存在作弊行为的页面集合(即我们日常所说的黑名单)。赋予黑名单内页面节点不信任分值,通过链接将这种不信任关系传播出去,如果最后页面节点的不信任分值大于设定的那个值,则被判为作弊。     3、而异常发现模型:简单的譬如分析网页内容来发现词频、链接等的异常,复杂点的像分析网站用户行为异常等。异常发现模型往往和信任传播模型和不信任传播模型进行组合处理。     事实上,纯粹技术手段目前是无法彻底解决作弊的问题,因此现在一般都是用户在浏览搜索结果甚至是上网浏览时举报作弊网页,搜索引擎公司内部会有专门的团队来审核与主动发现可疑页面,经过审核确认的网页则可以放入黑名单或者白名单当中。综上所述,必须将人工手段与技术手段相互结合,才能取得较好的反作弊效果。     四、通用链接反作弊方法:     1、TrustRank 算法  (属于信任传播模型)     2、BadRank 算法    (属于不信任传播模型,据传是Google采用的反链接作弊算法。 注意:不要链接给作弊页面)     3、SpamRank  (属于异常发现模型)     SpamRank 的基本假设是:     3.1、对于正常页面来说,其支持者页面的 PangRank 值应该满足 Power-Law 分布,即 PR值有大有小。     3.2、作弊网页不同,一般具有如下3个特点:     Ⅰ、支持者页面数量非常巨大     Ⅱ、支持者页面的 PangRank 值得分都较低     Ⅲ、支持者页面的 PangRank 值都落在一个较小浮动范围内五、专用链接反作弊技术:     1、识别链接农场:     、网页出链的统计分布规则,作弊网页出链不符合 Power-Law 分布     Ⅱ、网页入链的统计分布规则,作弊网页入链不符合 Power-Law 分布     Ⅲ、URL名称统计特征,作弊网页的网址较长,包含更多的点画线和数字等     Ⅳ、很多作弊网页的URL地址尽管不同,但是对应同一个IP地址     Ⅴ、网页特征会随时间变化,比如入链的增长率、出链的增长率等     Ⅵ、链接农场的结构特征,农场内的网页之间链接关系非常密切     2、识别 Google 轰炸:     判断锚文字是否和被指向页面有语义关系  六、识别内容作弊:     1、重复出现关键词,判断文本内一定大小的窗口中是否连续出现同一个关键词     2、标题关键词作弊     3、统计正常页面中句子长度的规律、停用词的分布规律、词性的分布规律等七、反隐藏作弊:     常见的隐藏作弊方式包括页面隐藏和网页重定向。     1、识别页面隐藏     对网页做2次抓取,第1次数正常的搜索引擎爬虫抓取,第2次模拟人工访问网页的方式抓取。这种方法成本非常高。     2、识别网页重定向     Strider 系统给出了根据网页重定向来识别到底哪些是作弊网页的解决方案。     八:石榴算法简介:     2013年5月17日下午,百度网页搜索反作弊团队在百度站长平台发布公告称:将于一星期后正式推出新的算法“石榴算法”。新算法前期将重点整顿含有大量妨碍用户正常浏览的恶劣广告的页面。百度称此举是为了尊重搜索的用户,净化互联网生态环境!  发布时间:2013年5月17日     打击对象:针对大量妨碍用户正常浏览的恶劣广告的页面、低质量内容页面。石榴算法针对的尤其以弹出大量低质弹窗广告、混淆页面主体内容的垃圾广告页面为代表。与之前百度绿萝算法相对应,这正是百度搜索引擎提高用户体验,提高搜索质量的有力手段。2013年5月17日下午,百度网页搜索反作弊团队在百度站长平台发布公告称:将于一星期后正式推出新的算法“石榴算法”。新算法前期将重点整顿含有大量妨碍用户正常浏览的恶劣广告的页面。百度称此举是为了尊重搜索的用户,净化互联网生态环境!     整改建议:有弹窗广告?且在主体内容位置显示?赶紧撤掉吧、短期利益是获得了、长期就不讨好了、就如一次借钱忘了还、感觉像是赚到了、实则不然、你的信誉度在他人心中逐渐在减弱……这类型的页面评分也会被降分

  • 怎样能让网站排名提升以及网站优化的思路方向

          互联网的迅速发展以及各个行业对也互联网越来越重视,使建设优化网站也越来越火热。大家对网站的各种设计、内容、优化要求越来越高,网站优化离不开关键词。网络优化的目的就是要让网站排名达到想要的效果。下面小编浅析一下怎样能让网站站排名提升,以及网站优化的思路方向。一、怎样能让网站排名提升1、 首先,一个合理的网站构架是做好网站优化的基础。网站的构造搭建可以让搜索引擎更好的抓取网站的内容,提升网站的收录,给客户带来不错的体验度。2、 网站关键词选取,首先重要的是网站优化关键词的选取,新站一定不能选取那些太过热门的关键词。也不能选择太冷的关键词,词太热做不上来。太冷做上来也用处不大,所以关键词的选取时要特别注意。3、页面内容,内容对于页面排名也是非常重要的,首先对于目录页来说相关性是很重要的。如果能够做到一个目录之下的文章相关性很高质量很高目录页往往就能够获得不错的排名,对于文章页来说想要获得好排名非常重要的一点就是文章的质量一定要高。就是有良好的可读性能够满足用户的需求,这样的文章受到用户的喜欢同时就会获得比较好的排名。4、原创性文章,内容为王。原创新文章的收录情况要比直接抄来的信息好的很多,而且要长期不断的保持性在网站里更新文章。5、优质外链,外链的质量和数量应认真做好。通常,我们要坚持每天稳定的增加外链。在数量和质量上,优先考虑质量。二、网站优化的思路方向1、网站优化从用户的角度:经过网站的优化设计,用户可以更加方便的浏览网站的信息、使用网站的服务。这对用户体验度的提升起着非常重要的作用。网站设计对用户优化的具体表现以用户需求为导向的网站优化设计。方便的网站导航,网页加载速度尽可能的快。网页布局合理并且适合保存、打印、转发,网站信息丰富、有效,有助于用户产生信任。2、从搜索引擎优化推广的角度来说:网站主页搜索引擎优化,一般企业网站的页面类型很少。这是比较利于咱们进行优化操作的。主页的优化主要从网站定位(title)、网站界面优化、代码优化、栏目优化几个方面着手。网站定位的中心内容,中心内容必须在title中杰出展现,网站界面的布局也要优先展现中心内容。这样查搜索引擎才干快速精确的抓取到网站的中心内容,对网站做出比较有利的评分。3、网站优化的执行力:很多人不会掌握这个执行力,导致网站被K或者网站排名直没有的情况。在我们网站出现降权或者网站没有排名的时候,那么我们需要拿出我们的seo计划。按照计划去及时执行,比如说网站被降权了。当我们还没有分析出网站什么原因降权的,几天内对网站评估

 

关于

喜报

服务

案例

联系
  • 返回首页
  • 象牙塔介绍
  • 新闻资讯
  • 资质荣誉
  • 联系我们
  • 最新签约
  • 最新交付
  • 网络学院
  • 资料下载
  • 解决方案
  • 网站建设
  • 软件开发
  • 微信公众号
  • APP开发
  • 小程序
  • 联系方式
  • 电话联系
  • 手机联系
  • 地图导航