Sem tempo? Nossa ferramenta de IA resume para você.
Gerado em: 03/07/2024 14:51
OpenAI lança o GPTBot: conheça o crawler e saiba como configurá-lo em seu site

A OpenAI lançou o GPTBot, um web crawler de última geração que tem como objetivo coletar dados valiosos para aprimorar futuros modelos de inteligência artificial, como o GPT-4 e o GPT-5. O bot possui tecnologia avançada para analisar páginas da web, filtrando fontes que violam políticas da OpenAI e páginas com acesso pago ou informações de identificação pessoal. Os donos de sites podem bloquear o acesso do GPTBot adicionando diretivas no arquivo robots.txt, permitindo maior controle sobre o crawler.

Resumo criado por Niara
Leia Aqui

A OpenAI, empresa criadora do ChatGPT, acaba de lançar o GPTBot, um web crawler de última geração projetado para melhorar a precisão e o desempenho dos modelos de IA.

Equipado com tecnologia avançada, o GPTBot é capaz de identificar e analisar páginas da web como nunca antes. O objetivo é rastrear páginas da web e coletar dados valiosos para aprimorar futuros modelos de inteligência artificial.

Segundo o anúncio oficial, o bot filtra e não acessa fontes que violam as políticas da OpenAI, páginas com acesso pago (paywall) ou fontes que coletam informações de identificação pessoal (PII).

Os dados coletados serão utilizados para treinar futuros modelos de inteligência artificial, como o GPT-4 e o GPT-5.

De acordo com a declaração da OpenAI, conceder o acesso ao GPTBot é uma maneira de contribuir para o avanço das tecnologias de IA, oferecendo maior precisão e melhorando capacidades gerais e de segurança.

Como bloquear o GPTBot

Você pode bloquear o acesso do GPTBot no seu site, adicionando diretivas específicas no arquivo robots.txt do seu site. Da mesma forma que configuramos para o Googlebot, Bingbot e outros. Basta incluir as seguintes linhas:

User-agent: GPTBot
Disallow: /

Como conceder acesso personalizado ao web crawler

Caso você prefira limitar o acesso do GPTBot no seu site, é possível definir diretórios específicos os quais o crawler pode explorar. Nesse caso, basta modificar o arquivo robots.txt do seu site, de acordo com os diretórios liberados e bloqueados. Veja um exemplo:

User-agent: GPTBot
Allow: /diretório-1/
Disallow: /diretório-2/

O GPTBot está pronto para revolucionar o desempenho de futuros modelos de IA.

Isso é uma boa medida, pois agora cabe aos donos de sites decidirem se permitem ou não o acesso do bot em seus domínios.

Você pode ler todos os detalhes em Documentação do GPTBot.