• 最近一段好忙, 忙的都没时间去管理网站,网站被举报 被攻击 我也是醉了 :sad:

  • 好久没发说说了,感觉与世隔绝了 :lol:

  • 今天更换Git主题,以后本站由Git主题强力驱动 :mrgreen: :mrgreen:
  • 六一儿童节快乐

  • 今天全站启用又拍云 CDN进行加速

  • 这两天有些忙所以没来得及更新,愿一切安好
  • 锲而不舍是取得成功关键的一环
  • 当你无助时,你可以哭,但哭过你必须要振作起来,绝地逢生并不罕见,何况不是绝境! 早安!

  • 今天五一,没有出去玩,主要是人太多了

  • 今天外面风好大,天气也有点冷,出门一定要多穿衣服!

MJ12bot是什么蜘蛛?

网站日志 慕白 5个月前 (06-04) 217次浏览 已收录 0个评论
文章目录[隐藏]
Majestic是英国的专业搜索引擎,被 13 种语言和 60 多个国家/地区的数十万企业用于绘制独立于基于消费者的搜索引擎的互联网地图。Majestic 还支持其他合法技术,这些技术有助于了解不断变化的网络结构。
网站所有者可以在majestic.com上查看有关他们自己网站的数据。

MJ12Bot 当前不缓存 Web 内容或个人数据。相反,它映射网站之间的链接关系以构建搜索引擎。通过在Majestic搜索关键字或网站,这些数据可供技术人员和公众使用。有关爬虫背后的社区项目的详细信息

网站如下

MJ12Bot | Home | from Majestic

Frequently Asked Questions regarding MJ12bot

根据官网了解 MJ12bot 蜘蛛是遵循robots协议!

官网内容

MJ12bot 在我的网站上做什么?

我们搜索网络的目的是构建一个搜索引擎,该搜索引擎具有快速高效的可下载分布式爬虫,使拥有宽带连接的人们能够帮助做出贡献,我们希望,这将成为世界上最大的搜索引擎。Majestic-12 的全文搜索引擎的生产目前处于研究阶段,部分资金来自Majestic的研究商业化。

抓取到的数据会发生什么?

爬取的数据(目前只有链接的网络图)被添加到最大的公共反向链接搜索引擎索引中,我们将其作为专用工具进行维护,称为站点浏览器。从广泛的反向链接索引中了解您自己的反向链接。

我的网络主机阻止了你的机器人,为什么?

某些 ISP 和配置不当的防火墙可能会阻止 MJ12Bot 抓取您的网站。这通常是因为 ISP 或防火墙不明白这样做是为了在以后阻止真正的访问者访问您的网站。有些人也这样做以最小化带宽。在这些情况下,一些 ISP 可以在他们了解机器人的目的后为所有用户删除阻止。如果您的 ISP 不允许我们的机器人,我们建议您考虑移动 ISP。

为什么你一直在爬 404 或 301 页面?

我们有很长的记忆力,并希望确保临时错误、网站关闭页面或网站的其他临时更改不会在不应该对您的网站配置文件造成不可挽回的更改时。此外,如果仍有指向这些页面的链接,它们将继续被发现和跟踪。谷歌发布了一份声明,因为他们也被问到这个问题,他们的理由当然和我们的一样,他们的答案可以在这里找到:谷歌 404 政策。

您正在使用 rel=nofollow 抓取链接

这是对(可能命名不当)nofollow 属性的常见误解。谷歌在 2005 年引入了 ‘rel=nofollow’ 属性,声明如此标记的链接不会影响目标的 Pagerank,它不会阻止爬虫访问目标页面,如果目标页面有多个链接,这一点变得尤为明显,一些可能有这个属性,有些可能没有。如果您希望阻止机器人抓取页面,则应使用 robots.txt 文件来禁止目标页面。

可在此处找到有关 rel=nofollow 的更多信息:维基百科 Nofollow

如何阻止 MJ12bot?

MJ12bot 遵守robots.txt 标准。如果您希望机器人阻止网站被抓取,请将以下文本添加到您的 robots.txt:

User-agent: MJ12bot
Disallow: /

请不要通过 htaccess 中的 IP 阻止我们的机器人 – 我们不使用任何连续的 IP 块,因为我们是基于社区的分布式爬虫。请始终确保机器人可以实际检索 robots.txt 本身。如果它不能,那么它会假设可以抓取您的网站。

如果您有理由相信 MJ12bot 没有遵守您的 robots.txt 命令,请通过电子邮件告知我们:bot@majestic12.co.uk。请提供您网站的 URL 和日志条目,显示机器人试图检索它不应该检索的页面。

MJ12bot 支持robots.txt 中的哪些命令?

  • 当前爬虫支持以下robots.txt的非标准扩展:
  • 尝试获取 robots.txt 时重定向(在同一站点内)
  • Disallow 指令中的简单模式匹配与 Yahoo 的通配符规范兼容
  • 如果 Allow 指令更具体(长度更长),则它们可以覆盖 Disallow
  • 获取 robots.txt 的某些失败(例如 403 Forbidden)将被视为一揽子禁止指令

为什么我的 robots.txt 块在 MJ12bot 上不起作用?

我们很想看到任何关于 MJ12bot 可能违反 robots.txt 的报告。

出现了许多误报 – 在配置 Web 服务器时,这可能是一个有用的清单:

  1. 请求 robots.txt 时异地重定向 – MJ12Bot 遵循重定向,但仅在同一域中。理想情况下,robots.txt 在标准中指定的“/robots.txt”中可用。
  2. 在同一台服务器上运行的多个域。现代网络服务器(例如 Apache)可以将多个域的访问记录到一个文件中 – 这在尝试查看当时访问了哪个网络服务器时会造成混淆。您可能希望考虑将域信息添加到访问日志中,或者在每个域的基础上拆分访问日志
  3. Robots.txt 与开发人员副本不同步。我们曾抱怨 MJ12Bot 违反了 robots.txt – 只是发现开发人员正在对开发服务器进行测试,该服务器与实时版本不同步

我怎样才能减慢 MJ12bot 的速度?

您可以通过将以下内容添加到您的 robots.txt 文件来轻松减慢机器人速度:

User-Agent: MJ12bot
Crawl-Delay: 5

Crawl-Delay 应该是一个整数,它表示请求之间等待的秒数。MJ12bot 将在对您网站的请求之间产生最多 20 秒的延迟 – 但请注意,虽然不太可能,但您的网站仍有可能同时被多个 MJ12bot 抓取。设置高爬网延迟应该尽量减少对您网站的影响。如果用于 * 通配符,此 Crawl-Delay 参数也将处于活动状态。

如果我们的机器人检测到您对任何其他机器人使用了 Crawl-Delay,那么即使 MJ12bot 没有被特别要求这样做,它也会自动变慢爬行。

MJ12bot 的当前版本是什么?

  • MJ12bot当前v1.4.x系列运行版本为:
  • 爬行延迟最多 20 秒(更高的值将四舍五入到我们的机器人支持的最大值)
  • v1.4.8(当前 – 2017 年 4 月)
  • v1.4.7(被 1.4.8 取代 – 2018 年底)
  • v1.4.6(被 1.4.7 替换 – 2016 年 6 月)
  • v1.4.5(已淘汰 – 2016 年 6 月)
  • v1.4.4(2014 年 5 月淘汰)

清宁时光 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:MJ12bot是什么蜘蛛?
喜欢 (5)
[6447834@qq.com]
分享 (0)
慕白
关于作者:
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址