百度站长学院前几天公布了一个案例,里面提到一些细节,特别值得站长重视。
它这个页面对爬虫爬取做的优化,直接将图片二进制内容放到了html中导致页面长度过长,大小164K,导致内容不被百度收录。
百度:网页长度大于128k会影响甚至不收录
网站如果针爬虫做优化,那么网页的长度最要在128K以内,不要过长。不然爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不收录。
言下之意,这可能是百度技术缺陷导致,如果网页在128K以上,爬虫无法抓取就无法收录。如果各位站长的网站内容过长,尽量删除一部分不太重要的信息,以保证内容收录。
百度工程师建议:
1、不建议站点使用js生成主体内容,如js渲染出错,很可能导致页面内容读取错误,页面无法抓取
2、 如站点针对爬虫爬取做优化,建议页面长度在128k之内,不要过长
3、针对爬虫爬取做优化,请将主题内容放于前方,避免抓取截断造成的内容抓取不全
内容出处:,
声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。文章链接:http://www.yixao.com/baidu/2256.html
相关推荐
-
百度新平台“福尔摩斯”:客户分析工具
昨天,各IT网站都发出过一则短新闻:百度公司正准备在近期推出一项代号为“福尔摩斯”的系统平台,目的在于为商业用户提供更多的增值服务。 购买该增值服务的商业用户将可以从百度得到一些用户使用数据,比如究竟是哪些IP地址,在什么时间,通过何种渠道访问或查询过与自身有关的信息,并据此制定出更具针对性的投放计划。
-
体验传说中的百度“框计算”,看与谷歌的区别
在百度技术大会止,百度CEO李彦宏提出了“框计算”技术,能给用户提供一站式的服务,使搜索变得越来越聪明,想要什么,只要在搜索框中输入,就能得到。那么,我们搜索一些查询最频繁的信息,在百度和谷歌这两大搜索引擎中,表现会如何呢?让我们来看看测试结果。
-
Web信息收集–百度搜索引擎使用方法
渗透测试的第一步就是信息收集,俗话说得好:“好的开始就是成功的一半”,全面完整的信息收集,能为之后的渗透测试起到事半功倍的效果,然而现在的渗透测试大多是对方授权之后的,有许多信息是…
-
百度的浏览器与手机操作系统
最近传出消息,百度正酝酿的手机操作系统,具体实施将由新加盟的谷歌系成员主导,此前该项目曾被误传为浏览器的开发。 事实上,对于百度来说,浏览器与手机操作系统之间,并没有太大的分别。 也许,有人会说,浏览器与手机操作系统明明是两个概念,怎么样能混为一体呢?对于其他公司,也许是两个概念,但对于百度来说,基本上可以看成一个概念:(未来的)上网终端的入口。
-
百度推广最大的优势是什么?
百度推广是世界最大中文网站——百度——为企业带来的一场营销方式的革命,依托百度搜索引擎平台,独创按效果付费的网络推广方式,客户的投入可以灵活控制,效果可以清晰了解,轻松实现行商变坐商,用更少的推广投入带来更多的客户。
-
百度需要挖掘多元化的潜力
李彦宏曾经说过,预测未来是非常危险的事情,所以,他一直对外保持谨慎,不乱说话。但是,他不说话并不代表别人不说话,比如,分析师们就为百度未来的股价走势吵个不停。百度的发展势头不错,股价也非常高了,如果2008年底买入百度股票,保持到现在,是十倍的收益。
-
百度云市场正式上架SEO优化业务
近日很多站长收到疑似百度智能云发来的推广“百推BaiSEO”优化工具的宣传邮件,这款seo工具号称可以拿下国内头部五大搜索引擎的首页排名,简直不要太疯狂! 这款所谓的百推BaiSE…
-
百度空间用户数量突破1亿
2009年7月,中文世界最真诚的交友社区百度空间(http://hi.baidu.com)迎来其3周年华诞。据统计,截至目前,百度空间用户数已经突破1亿,在线用户数突破200万,成为国内最大的空间SNS社区平台之一。
-
网站优化之高质量的外链从何而来
外链就是指从别的网站导入到自己网站的链接。导入链接对于网站优化来说是非常重要的一个过程。导入链接的质量直接决定了我们的网站在搜索引擎中的权重。 外链数不是越多越好。多未必就是好事。在于质量!