Perplexity приховано сканує сайти навіть в обхід заборони

8 августа 2025 г., 17:25

Після скарг клієнтів Cloudflare провела розслідування і з'ясувала, що Perplexity порушує стандарти індексування, вже багато років загальноприйняті в інтернеті. Навіть коли сайти явно забороняють сканування в robots.txt і блокують офіційні боти Perplexity, компанія все одно дістає контент через краулери, що маскуються під звичайний браузер Chrome.

Методика виглядає так – спочатку приходить офіційний PerplexityBot. Якщо його блокують – включається план Б з user agent «Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)». Крім того, використовується постійна ротація IP з різних мереж і навіть автономних систем.

Усе це явно порушує Robots Exclusion Protocol, описаний у RFC, який досі вважався практично непорушним. Принаймні досі компанії, помічені в його порушенні, червоніли, перепрошували та припиняли подібну практику. Але Perplexity явно націлилася на лаври enfant terrible серед AI та пошуковиків.

Cloudflare вже виключила Perplexity зі списку верифікованих ботів і додала блокування у свої правила. Це доступно всім клієнтам, включно з безплатними акаунтами. Втім, як пишуть самі Cloudflare, після цього поведінка Perplexity напевно зміниться. І почнеться новий раунд гри в кішки-мишки.

Perplexity приховано сканує сайти навіть в обхід заборони

Стратегія охолодження ЦОД для епохи AI