Rastreadores web de Meta

Meta utiliza rastreadores web (software que recupera contenido de sitios web o aplicaciones web) para diferentes propósitos. En esta página se indican las cadenas de agente de usuario (UA) que identifican los rastreadores web más comunes de Meta, así como para qué se usa cada rastreador.

Facilitamos a los administradores de sitios y a los propietarios de contenidos que puedan indicar sus preferencias utilizando prácticas estándar del sector como el archivo robots.txt en lugar de formatos no estándar como las etiquetas NoAI. En esta página se proporcionan instrucciones para configurar el archivo robots.txt a fin de que nuestros rastreadores puedan interactuar correctamente con el sitio.

FacebookExternalHit

El propósito principal de FacebookExternalHit es rastrear el contenido de una aplicación o sitio web que se compartió en una de las familias de aplicaciones de Meta, como Facebook, Instagram o Messenger. Para compartir el enlace, es posible que se utilizarán las funciones de copiar y pegar o un plugin social de Facebook. Este rastreador recopila y muestra información sobre la aplicación o el sitio web, como su título, descripción e imagen de miniatura, y la almacena en caché.

La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0

Ten en cuenta que es posible que el rastreador FacebookExternalHit omita robots.txt cuando realice comprobaciones de seguridad o integridad, como comprobaciones de malware o contenido malintencionado.

Requisitos del rastreador

El servidor debe usar las codificaciones gzip y deflate.
Las propiedades de Open Graph deben incluirse en la lista antes del primer MB de tu sitio web o aplicación, ya que, de lo contrario, se truncarán.
Asegúrate de que el rastreador pueda rastrear el contenido en pocos segundos, ya que, de lo contrario, Facebook no podrá mostrarlo.
Tu aplicación o sitio web debe generar o devolver una respuesta con todas las propiedades necesarias según los bytes especificados en el encabezado Range de la solicitud del rastreador o bien debe ignorar el encabezado Range por completo.
Añade a tu lista de autorizados las cadenas del agente de usuario o las direcciones IP (más seguras) que usa el rastreador.

Solución de problemas

Si el contenido de tu sitio web o aplicación no está disponible en el momento del rastreo, puedes forzar un rastreo una vez que esté disponible. Para ello, pasa la URL por el depurador de contenido compartido o usa la API de contenido compartido.

Puedes simular una solicitud del rastreador con el código siguiente:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-WebIndexer

El rastreador Meta-WebIndexer navega por la web para mejorar la calidad de los resultados de búsqueda de Meta AI para los usuarios. Al hacerlo, Meta analiza el contenido en internet para mejorar la relevancia y precisión de Meta AI. Al permitir Meta-WebIndexer en el archivo robots.txt, nos ayudas a citar y enlazar tu contenido en las respuestas de Meta AI.

La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:

meta-webindexer/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-webindexer/1.1

Meta-ExternalAds

El rastreador Meta-ExternalAds rastrea la web para casos de uso como la mejora de la publicidad y otros productos y servicios relacionados con las empresas.

La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:

meta-externalads/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalads/1.1

Meta-ExternalAgent

El rastreador Meta-ExternalAgent rastrea la web para casos de uso como el entrenamiento de modelos de IA o la mejora de productos mediante el indexado directo de contenido.

La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:

meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1

Meta-ExternalFetcher

El rastreador Meta-ExternalFetcher lleva a cabo recuperaciones iniciadas por el usuario de enlaces individuales para asistir con funciones de producto específicas. Como esta recuperación la inicia el usuario, es posible que el rastreador omita las reglas de robots.txt.

La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:

meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1

Archivo robots.txt

Al configurar el archivo robots.txt en tu sitio web, puedes indicar a los rastreadores web de Meta cómo quieres que interactúen con tu sitio. Para bloquear un rastreador, añade una directiva “Disallow” para el rastreador correspondiente en robots.txt. Es posible que el rastreador Meta-ExternalFetcher omita robots.txt porque realiza recuperaciones solicitadas por el usuario. Además, es posible que el rastreador FacebookExternalHit omita robots.txt al realizar comprobaciones de seguridad o integridad.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

Espera hasta 24 horas para que los cambios en robots.txt surtan efecto, porque es posible que los rastreadores almacenen el contenido de robots.txt en caché hasta 24 horas.

IP de los rastreadores

Si un rastreador tiene una dirección IP de origen incluida en la lista generada por el comando siguiente, quiere decir que el rastreador procede de Meta.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route

Ten en cuenta que estas direcciones IP cambian con frecuencia. Para obtener más información, consulta nuestro sitio web sobre interconexiones o los datos descargables relacionados (formato CSV).

Ejemplo de respuesta

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
...

Contactar

Si tienes cualquier pregunta, envíanos un correo electrónico a webmasters@meta.com (Meta Web Masters).