谷歌一直在用的 robots.txt 解析器,终于开源了

2019-07-05 17:53:51| 发布者: |作者:青岛云冠物联

什么是 robots.txt ?


Robots Exclusion Protocol (REP,爬虫排除协议) 是一个标准,它允许网站所有者通过一个具有特定语法的简单文本文件(即:robots.txt),控制哪些 url 可以被爬虫程序访问,哪些不能访问。


下面是 Google 网站 robots.txt 的部分内容

从 https://www.google.com/robots.txt 能看到全部。


下面这是百度网站 robots.txt 的部分内容:

从 https://www.baidu.com/robots.txt 能看到全部。


谷歌开源 robots.txt 解析器


近日,Google 把自家一直在用的网络爬虫 robots.txt 解析器开源了。该仓库一度登上 GitHub 的每日趋势榜。


这个解析器用 C++ 编写实现(兼容 C++11)。Google 在生产环境中一直使用的,包括了上世纪 90 年代编写的代码。


仓库链接:https://github.com/google/robotstxt



谷歌为啥要开源 robots.txt 解析器?


robots.txt 是我们所知的互联网的基本组成部分之一,也是搜索引擎得以运行的原因。


因为在过去的 25 年里,REP 只是一个事实上的标准,不同的爬虫对 robots.txt 的解析不尽相同。


robots.txt 是一个「君子协议」,尽管声明某些 url 不能访问,但爬虫可以绕过。这就导致了混淆。


Google 此次开源的目的,是想通过自家使用的解析器来解决这个问题。


<
>

青岛云冠物联科技有限公司成立于2013年,前身是北京百施特电子商务有限公司,是一家集网站制作、软件开发、智能设备研发,物联网建设为主营业务的公司,公司隶属于青岛中青林集团。青岛中青林集团成立于1993年,是一家传统机械生产厂家。2018年,根据集团向互联网行业进军的发展战略,北京百施特电子商务有限公司正式更名为青岛云冠物联科技有限公司,从而完成了公司开始由网站开发及运营到互联网大数据及物联网综合外包服务的转化。

成立至今,青岛云冠物联科技有限公司先后与青岛浪潮世科信息技术有限公司,青岛百灵软件有限公司,青岛海草成峰智能科技有限公司,青岛珍芯微电子有限公司达成战略及项目合作。合作领域包括企业网站制作、教育类平台开发、手机APP、微信小程序、门禁系统智能对接、电梯卫士系统开发等。

在此基础上,公司吸纳了互联网UI制作、前端开发、PHP、JAVA、python、android程序员、微信开发程序员等一大批优秀人才,对业内常用的php类CMS、java的ssm及python的odoo等开源系统及框架有深入研究,可迅速快捷的为客户提供各种订制类网站及平台的开发,从而奠定了公司提供互联网服务的基础。

目前,公司正在开发汽车GPS类产品,为混凝土搅拌罐车、渣土车、货运车等提供实时定位、跟踪、车辆工作状态监控、实时视频传输等管理平台。


联系我们

中国青岛市城阳区玉皇岭工业园

15953207637(服务时间:0:00-24:00)

官方微信官方微信

部门热线

电话:15953207637
技术:15953207637

咨询电话15953207637 返回顶部
返回顶部