Meta utiliza rastreadores web (software que recupera contenido de sitios web o aplicaciones web) para diferentes propósitos. En esta página se indican las cadenas de agente de usuario (UA) que identifican los rastreadores web más comunes de Meta, así como para qué se usa cada rastreador.
Facilitamos a los administradores de sitios y a los propietarios de contenidos que puedan indicar sus preferencias utilizando prácticas estándar del sector como el archivo robots.txt en lugar de formatos no estándar como las etiquetas NoAI. En esta página se proporcionan instrucciones para configurar el archivo robots.txt a fin de que nuestros rastreadores puedan interactuar correctamente con el sitio.
El propósito principal de FacebookExternalHit es rastrear el contenido de una aplicación o sitio web que se compartió en una de las familias de aplicaciones de Meta, como Facebook, Instagram o Messenger. Para compartir el enlace, es posible que se utilizarán las funciones de copiar y pegar o un plugin social de Facebook. Este rastreador recopila y muestra información sobre la aplicación o el sitio web, como su título, descripción e imagen de miniatura, y la almacena en caché.
La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)facebookexternalhit/1.1facebookcatalog/1.0Ten en cuenta que es posible que el rastreador FacebookExternalHit omita robots.txt cuando realice comprobaciones de seguridad o integridad, como comprobaciones de malware o contenido malintencionado.
Range de la solicitud del rastreador o bien debe ignorar el encabezado Range por completo.Si el contenido de tu sitio web o aplicación no está disponible en el momento del rastreo, puedes forzar un rastreo una vez que esté disponible. Para ello, pasa la URL por el depurador de contenido compartido o usa la API de contenido compartido.
Puedes simular una solicitud del rastreador con el código siguiente:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
El rastreador Meta-WebIndexer navega por la web para mejorar la calidad de los resultados de búsqueda de Meta AI para los usuarios. Al hacerlo, Meta analiza el contenido en internet para mejorar la relevancia y precisión de Meta AI. Al permitir Meta-WebIndexer en el archivo robots.txt, nos ayudas a citar y enlazar tu contenido en las respuestas de Meta AI.
La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:
meta-webindexer/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-webindexer/1.1El rastreador Meta-ExternalAds rastrea la web para casos de uso como la mejora de la publicidad y otros productos y servicios relacionados con las empresas.
La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:
meta-externalads/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-externalads/1.1El rastreador Meta-ExternalAgent rastrea la web para casos de uso como el entrenamiento de modelos de IA o la mejora de productos mediante el indexado directo de contenido.
La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-externalagent/1.1El rastreador Meta-ExternalFetcher lleva a cabo recuperaciones iniciadas por el usuario de enlaces individuales para asistir con funciones de producto específicas. Como esta recuperación la inicia el usuario, es posible que el rastreador omita las reglas de robots.txt.
La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-externalfetcher/1.1Al configurar el archivo robots.txt en tu sitio web, puedes indicar a los rastreadores web de Meta cómo quieres que interactúen con tu sitio. Para bloquear un rastreador, añade una directiva “Disallow” para el rastreador correspondiente en robots.txt. Es posible que el rastreador Meta-ExternalFetcher omita robots.txt porque realiza recuperaciones solicitadas por el usuario. Además, es posible que el rastreador FacebookExternalHit omita robots.txt al realizar comprobaciones de seguridad o integridad.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
Espera hasta 24 horas para que los cambios en robots.txt surtan efecto, porque es posible que los rastreadores almacenen el contenido de robots.txt en caché hasta 24 horas.
Si un rastreador tiene una dirección IP de origen incluida en la lista generada por el comando siguiente, quiere decir que el rastreador procede de Meta.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Ten en cuenta que estas direcciones IP cambian con frecuencia. Para obtener más información, consulta nuestro sitio web sobre interconexiones o los datos descargables relacionados (formato CSV).
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Si tienes cualquier pregunta, envíanos un correo electrónico a webmasters@meta.com (Meta Web Masters).