Meta использует веб-краулеры (программное обеспечение, которое получает контент с сайтов или веб-приложений) в различных целях. На этой странице перечислены строки пользовательских агентов, которые идентифицируют самые популярные веб-краулеры Meta, и для чего эти краулеры используются.
Мы упрощаем для администраторов сайтов и владельцев контента настройку предпочтений с позволяем использовать стандартные отраслевые методы (например, файл robots.txt), а не нестандартные форматы, такие как метки NoAI (Без использования искусственного интеллекта). На этой странице представлена инструкция по настройке файла robots.txt для надлежащего взаимодействия наших краулеров с вашим сайтом.
Основная задача FacebookExternalHit — просматривать содержимое приложений или сайтов, которыми поделились в одном из приложений семейства Meta, таких как Facebook, Instagram и Messenger. Ссылка может передаваться путем копирования и вставки или с помощью социального плагина Facebook. Этот краулер собирает, кэширует и показывает информацию о сайте или приложении, в том числе название, описание и миниатюрное изображение.
Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)facebookexternalhit/1.1facebookcatalog/1.0Обратите внимание: краулер FacebookExternalHit может обойти файл robots.txt при выполнении проверок безопасности или целостности, например при проверке на наличие вредоносных программ или вредоносного контента.
Range запроса краулера, либо полностью игнорировать заголовок Range.Если во время скрапинга контент сайта или приложения недоступен, скрапинг можно повторить позже. Для этого передайте URL с помощью отладчика репостов или воспользуйтесь Sharing API.
Чтобы эмулировать запрос краулера, используйте этот код:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
Краулер Meta-WebIndexer просматривает веб-ресурсы, чтобы повысить качество результатов поиска Meta AI для пользователей. При этом Meta анализирует онлайн-контент, чтобы повысить релевантность и точность работы Meta AI. Если вы разрешите использовать краулер Meta-WebIndexer в своем файле robots.txt, это поможет нам цитировать ваш контент и ссылаться на него в ответах Meta AI.
Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:
meta-webindexer/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-webindexer/1.1Краулер Meta-ExternalAds просматривает веб-контент в поисках сценариев использования, таких как улучшение рекламы и других бизнес-продуктов и услуг.
Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:
meta-externalads/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-externalads/1.1Краулер Meta-ExternalAgent просматривает веб-контент с целью обучения моделей искусственного интеллекта и улучшения продуктов путем прямого индексирования контента.
Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-externalagent/1.1Краулер Meta-ExternalFetcher по инициативе пользователя получает отдельные ссылки для поддержки определенных функций продукта. Поскольку получение инициируется пользователем, этот краулер может обходить правила файла robots.txt.
Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-externalfetcher/1.1Настроив файл robots.txt на своем сайте, вы можете указать веб-краулерам Meta предпочтительный порядок взаимодействия с вашим сайтом. Чтобы заблокировать эти краулеры, добавьте для них директиву disallow в файл robots.txt. Краулер Meta-ExternalFetcher может обходить файл robots.txt, поскольку его работу инициирует пользователь. Кроме того, краулер FacebookExternalHit может обходить файл robots.txt при проверке безопасности или целостности.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
Подождите около 24 часов, чтобы изменения в файле robots.txt вступили в силу, поскольку краулеры могут кэшировать контент robots.txt в течение этого времени.
Если исходный IP-адрес краулера находится в списке, который генерируется следующей командой, это краулер Meta.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Учитывайте, что эти IP-адреса часто меняются. Подробнее см. на нашей веб-странице пиринга или в связанном скачиваемом файле (формат CSV).
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Если у вас есть вопросы или сомнения, напишите нам на адрес webmasters@meta.com (веб-мастера Meta).