
Crédito da imagem: TechCrunch
Novo prazo estabelecido pela Cloudflare força a separação de crawlers na web
A Cloudflare anunciou um novo prazo para a indústria de inteligência artificial (IA) que exige distinção entre os crawlers usados para fins tradicionais de pesquisa, como o Google Search, e aqueles empregados por agentes de IA ou treinamento. A partir de 15 de setembro de 2026, as configurações padrão da empresa bloquearão automaticamente “rastreadores mistos” em páginas que hospedam anúncios.
Isso significa que os rastreadores que possuem funções de busca, uso por agentes e treinamento serão impedidos de acessar esses sites por padrão, a menos que o proprietário do site altere as configurações. As alterações nas configurações padrão serão aplicadas a novos clientes da Cloudflare, novos sites criados por clientes existentes e todos os usuários gratuitos atuais.
A decisão pode impactar significativamente a forma como os provedores de modelos de IA acessam conteúdo da web para treinamento e para alimentação de seus serviços baseados em agentes. A Cloudflare destaca que a maioria dos proprietários de sites desejam que seu conteúdo seja descoberto por meio de mecanismos de busca, muitas vezes também por meio de serviços de IA, mas espera proteções contra o uso gratuito de seu patrimônio intelectual.
A empresa menciona especificamente o “maior motor de busca do mundo” (uma clara referência ao Google) como tendo acesso a cerca de “2x mais informações” do que outras empresas de IA. Isso ocorre porque o gigante da pesquisa dificulta para os clientes manterem sua descoberta sem serem usados por algoritmos de IA.
O Google já se opôs a essa generalização no passado, destacando que oferece um bot chamado Google Extended, permitindo que os proprietários de sites optem por não ter seu conteúdo usado para treinamento e serviços de IA, como Gemini Apps e Vertex API. Esse uso não afeta a inclusão do site na Pesquisa Google. No entanto, o bot principal da empresa, o Googlebot, ainda recolhe dados para fins de busca, incluindo recursos de IA como AI Overviews e AI Mode.
“Agora que a maior parte do tráfego na internet não é humano, devemos agir com mais rapidez para garantir um ecossistema sustentável”, afirmou Matthew Prince, cofundador e CEO da Cloudflare, ao anunciar as mudanças. Ele se refere ao marco recente em que os bots superaram o tráfego humano online pela primeira vez, algo esperado para ocorrer apenas no próximo ano.
“As novas ferramentas e parcerias da Cloudflare oferecem aos proprietários de sites maior visibilidade e oportunidades comerciais, enquanto beneficiam empresas de IA que utilizam bots com interesses claros e transparentes. Esperamos que as mudanças nos padrões incentivem os crawlers mistos a separar busca, uso por agentes e treinamento”, disse Prince.
Embora a Cloudflare disponibilize diversos produtos para ajudar os usuários a lançarem seus próprios sistemas de IA, a empresa também lançou uma série de ferramentas para dar aos editores mais controle sobre seu conteúdo na era da IA. Nos últimos anos, a Cloudflare lançou ferramentas para combater bots de IA, incluindo um mercado que permite que sites cobrem bots de IA por scraping, chamado Pay Per Crawl.
Essa agora iniciativa está se desenvolvendo em “Pay Per Use”, segundo a empresa, permitindo que editores cobrem empresas de IA quando seu conteúdo gera valor, e não apenas quando é acessado. A Cloudflare afirma que essa mudança pode ajudar a preservar a largura de banda e os computacionais dos editores para provedores de recursos de modelos de IA, já que seus dados indicam que mais de 50% do tráfego de crawlers de IA é gasto em requisições repetidas de páginas sem alterações.
Para implementar essa iniciativa, a Cloudflare está trabalhando inicialmente com dois parceiros: Ceramic.ai e You.com. Quando um editor opta por participar, ele recebe pagamento quando seu conteúdo aparece nos resultados de busca da Ceramic ou quando o You.com acessa uma parte de seu conteúdo premium.
Outras empresas de IA podem personalizar esse modelo para se adaptarem às suas necessidades, segundo a Cloudflare.
Com informações do Techcrunch


