A OpenAI, empresa criadora do ChatGPT, acaba de lançar o GPTBot, um web crawler de última geração projetado para melhorar a precisão e o desempenho dos modelos de IA.
Equipado com tecnologia avançada, o GPTBot é capaz de identificar e analisar páginas da web como nunca antes. O objetivo é rastrear páginas da web e coletar dados valiosos para aprimorar futuros modelos de inteligência artificial.
Segundo o anúncio oficial, o bot filtra e não acessa fontes que violam as políticas da OpenAI, páginas com acesso pago (paywall) ou fontes que coletam informações de identificação pessoal (PII).
Os dados coletados serão utilizados para treinar futuros modelos de inteligência artificial, como o GPT-4 e o GPT-5.
De acordo com a declaração da OpenAI, conceder o acesso ao GPTBot é uma maneira de contribuir para o avanço das tecnologias de IA, oferecendo maior precisão e melhorando capacidades gerais e de segurança.
Como bloquear o GPTBot
Você pode bloquear o acesso do GPTBot no seu site, adicionando diretivas específicas no arquivo robots.txt do seu site. Da mesma forma que configuramos para o Googlebot, Bingbot e outros. Basta incluir as seguintes linhas:
User-agent: GPTBot
Disallow: /
Como conceder acesso personalizado ao web crawler
Caso você prefira limitar o acesso do GPTBot no seu site, é possível definir diretórios específicos os quais o crawler pode explorar. Nesse caso, basta modificar o arquivo robots.txt do seu site, de acordo com os diretórios liberados e bloqueados. Veja um exemplo:
User-agent: GPTBot
Allow: /diretório-1/
Disallow: /diretório-2/
O GPTBot está pronto para revolucionar o desempenho de futuros modelos de IA.
Isso é uma boa medida, pois agora cabe aos donos de sites decidirem se permitem ou não o acesso do bot em seus domínios.
Você pode ler todos os detalhes em Documentação do GPTBot.