百度站长学院前几天公布了一个案例,里面提到一些细节,特别值得站长重视。
它这个页面对爬虫爬取做的优化,直接将图片二进制内容放到了html中导致页面长度过长,大小164K,导致内容不被百度收录。

百度:网页长度大于128k会影响甚至不收录
网站如果针爬虫做优化,那么网页的长度最要在128K以内,不要过长。不然爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不收录。
言下之意,这可能是百度技术缺陷导致,如果网页在128K以上,爬虫无法抓取就无法收录。如果各位站长的网站内容过长,尽量删除一部分不太重要的信息,以保证内容收录。
百度工程师建议:
1、不建议站点使用js生成主体内容,如js渲染出错,很可能导致页面内容读取错误,页面无法抓取
2、 如站点针对爬虫爬取做优化,建议页面长度在128k之内,不要过长
3、针对爬虫爬取做优化,请将主题内容放于前方,避免抓取截断造成的内容抓取不全
内容出处:,
声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。文章链接:http://www.yixao.com/baidu/2256.html


相关推荐
-
搜索引擎的未来发展趋向
作为谷歌的研究部主任,诺维格总是站在管理世界信息的最前沿。他完全胜任这一工作,并经常把许多时光都用来思考计算机的智能,以及如何更为有效地把它实现。诺维格作为一个计算机人工智能专家,曾在大学里讲过学,在美国企业界和美国国家航空航天局从事过研究工作,还与他人合作撰写了颇具影响力的教科书《人工智能:一种现代方法》。诺维格于2001年加入谷歌,并担任搜索质量部门的主任;4年后,他担任了现职。
-
百度贴吧正式推出低门槛电子杂志
电子杂志从2003年起兴起,在2006年达到高峰,全行业吸收了1亿美元的风险投资,但在最近两年,主流企业却纷纷倒闭或者走到了破产的边缘。 可以说,电子杂志是最为典型的“全行业”失败案例。 电子杂志的失败在于内容庞杂,用户使用时间成本太高。而且,是个封闭的系统,不利于人们检索到。
-
百度系统调整对网站维护的要求
最近几个月,百度一直在进行竞价排名系统调整工作,把之前运营到现在的老竞价排名系统全部下线,使用新开发的“凤巢竞价系统”。而通过这次调整,一些自然排名的网站秩序被打乱,很多网站在这期间被降权的降权,该下放的下放。
-
百度CEO李彦宏说为了盈利要暂时忘记盈利
9月下旬,百度董事长兼CEO李彦宏先后来到美国哥伦比亚大学和斯坦福大学演讲。从美国各大高校赶来的学生挤满了会场,很多没有座位的学生干脆站着或者坐在台阶上。李彦宏关于中国发展机遇的演讲不时引来阵阵掌声。演讲结束后,很多学生都堵在门口等候李彦宏签名合影。
-
百度新平台“福尔摩斯”:客户分析工具
昨天,各IT网站都发出过一则短新闻:百度公司正准备在近期推出一项代号为“福尔摩斯”的系统平台,目的在于为商业用户提供更多的增值服务。 购买该增值服务的商业用户将可以从百度得到一些用户使用数据,比如究竟是哪些IP地址,在什么时间,通过何种渠道访问或查询过与自身有关的信息,并据此制定出更具针对性的投放计划。
-
百度关键字涨价 广告主坚持做
关键词被炒高,除了来自百度的因素,一位业内人士指出也与代理商以及广告客户自身有关。原因有两点:一是代理商本着捞一笔的态度,肆意提高客户关键词的竞价。二就是客户本身也不懂,不知道怎样选择合理的关键词和投放时段,全权交给代理商操作,也纵容了关键词的虚高。
-
百度飞桨框架2.0正式版重磅发布,开发、训练、部署全面更新
在人工智能时代,深度学习框架下接芯片,上承各种应用,是“智能时代的操作系统”。近期,我国首个自主研发、功能完备、开源开放的产业级深度学习框架飞桨发布了2.0正式版,实现了一次跨时代…
-
百度首页正式上线手写输入方式
百度的网页搜索推出了web手写输入功能。用户在百度进行信息检索时,可选择通过使用鼠标写入的方式。 在去年推出老年搜索产品时,百度就提供了web手写输入服务。现在,只是把这种方式升级到百度首页。
-
假如百度真的收购傲游
当百度计划研发即时通信软件的消息得到印证之后,业界又盛传百度已经秘密收购了以网页浏览器研发技术着称的“遨游天下”和凭着Koomail客户端软件在电子邮件服务领域占有一席之地的“酷邮时空”。
-
没有Google的日子百度很寂寞
伴随百度社区门户新媒体的定位调整,政府的监管也将越发严格,这对李彦宏和百度都将是一个严峻的考验,甚至有业内人士分析,不排除百度被政府收购的可能。创业11年后,42岁的李彦宏又面临新的挑战。