Комментарии

Как роботы собирают данные о пользователях в сети и опасно ли это

Российские хостинг‑провайдеры уже начали ограничивать доступ для ботов, собирающих данные, от Google, Apple и Microsoft

02.12.2024

| Коммерсант

Развитие нейросетей заставляет глобальных разработчиков искать новые источники данных для обучения алгоритмов, в том числе в российском сегменте сети. Российские хостинг-провайдеры уже начали ограничивать доступ для ботов, собирающих данные, от Google, Apple и Microsoft. Однако проблему такого сбора информации эти ограничения полностью не решают. «Ъ-Review» разбирался, как устроен мир ботов, какие из них действительно представляют опасность для компаний и пользователей и как от этого защититься.

Нашествие машин

Спорных прецедентов с работой ботов по всему миру было зафиксировано уже немало. Так, в 2018 году компания Cambridge Analytica использовала приложение с ИИ-ботом This Is Your Digital Life для сбора информации из соцсетей. Эти данные помогли не только создать персонализированные рекламные кампании, но и манипулировать политическими предпочтениями избирателей в ходе президентской кампании в США.

В 2021 году в свободном доступе оказались данные 533 млн пользователей Facebook (принадлежит Meta, признанной в России экстремистской организацией и запрещенной), собранные ботами. В том числе утекли и данные почти 10 млн россиян: номера телефонов, имена, даты рождения и даже адреса электронной почты. В этом году с помощью бота Shodan хакерам удалось украсть секретные документы с телефона капитана BBC США об американских беспилотниках.

Также в прошлом году был зафиксирован рост активности ботов, собирающих данные через Telegram и другие мессенджеры, где пользователи делятся личной информацией в группах и каналах. Для кибершпионажа используются и боты, которые «профилируют» пользователей (создают их портрет) в рамках рекламной идентификации, говорят эксперты.

Знакомьтесь, ваш бот

Ботами разработчики называют программы, нужные для автоматизации каких-либо действий. Программисты предлагают разные классификации ботов. Например, популярны чат-боты, спам-боты и DDoS-боты, используемые для атак на сайты. Существуют также боты—cканеры уязвимостей, ищущие пробелы в системах сервисов.

Есть боты-парсеры для сбора информации. Среди них — копирующие на веб-страницах имена, номера телефонов и адреса людей веб-скрепинг-боты, например Scrapy и Beautiful Soup. Также есть боты—парсеры социальных медиа, заточенные на сбор данных из соцсетей, к примеру Twitterbot. Данные о конфигурации IoT-устройств может собирать бот ZoomEye. Распространены и боты, копирующие сайты целиком.

По словам экспертов, отдельная категория — это боты для фишинга, создающие ложные копии сайтов для кражи учетных данных, которые, например, под видом службы поддержки соцсети отправляют сообщения о «нарушениях» пользователя и просят перейти по ложной ссылке для верификации.

Отдельная категория — это ИИ-боты для обучения нейросетей от крупных корпораций. Речь о семействах поисковых ботов Googlebot от Google, Bing от Microsoft, Apple Bot от Apple, GPTBot от OpenAI, поясняет руководитель аналитического отдела Servicepipe Антон Чемякин.

По словам экспертов, боты для ИИ постоянно обходят разные индексированные сайты и «собирают оттуда буквально все»: тексты, картинки, видео, чтобы нейросети не теряли актуальность. Как правило, такие боты делают все открыто и «представляются», когда «приходят на сервис». Владельцы сайтов могут легко запретить им доступ, проставив ограничения.

Среда обитания

Технически большинство ботов работают по одному принципу — автоматически отправляют HTTP-запросы, как те, что делает человек через браузер, объясняет Антон Чемякин. Сайты в ответ на запросы возвращают информацию, например ответы с карточками товаров онлайн-магазина. Далее бот достает из полученных HTTP-ответов нужные данные, структурирует их и складывает в базу. Многие боты незаметно интегрируются в трафик, добавляют в Fork-Tech.

Они используют зашифрованные каналы передачи данных и отправляют информацию на зарубежные серверы.

Получившиеся дата-сеты могут быть проданы, использованы для донастройки поисковых систем, конкурентного или иного анализа, обучения ИИ, говорят эксперты. Боты, собирающие информацию о пользователях, могут запускаться из любой точки планеты. Технически все выглядит так: программист, к примеру, физически находится на Кипре или в Нью-Йорке и пишет там программу для бота. Далее через интернет арендует мощности у одного или нескольких хостинг-провайдеров. Программа развертывается на мощностях дата-центров, которые также могут располагаться в любой точке мира.

Антон Чемякин

Руководитель аналитического отдела Servicepipe

Однако боты могут создавать профили пользователей для рекламы, проводить компьютерные атаки, агрегировать базы данных утечек и заниматься кибершпионажем, предупреждают специалисты по ИБ. По мнению экспертов, наиболее опасны боты, отслеживающие устройства, подключенные к сети. Например, Shodan Bot и ShadowServer Bot активно сканируют сети на наличие уязвимостей: открытых портов, устаревших версий программ или плохо защищенных баз данных. Эти боты часто нацеливаются на API (программный интерфейс) и облачные хранилища.

Программы Googlebot и Bingbot предназначены для индексации сайтов, но при слабой настройке доступа могут случайно или намеренно агрегировать информацию о клиентах или элементы интерфейсов платежных систем.

Бок о бок с роботами

Специалисты по кибербезопасности говорят, что для защиты от ботов как компаний, так и простых пользователей существует несколько стандартных методов. Ботов можно нейтрализовать специальными анти-бот-решениями или просить у посетителей сайтов вводить CAPTCHA (тест для определения робота или человека) и ограничивать число запросов с одного IP-адреса.

Кроме того, спасти от ботов может введение входа в учетную запись по двухфакторной авторизации и подключение сайта к сервисам проверки входящих запросов (WAF). Сотрудникам компаний также надо запрещать загружать конфиденциальные данные в ИИ-обработчики, корректировщики и подобные сервисы, говорят эксперты.

Однако ни один из этих методов не дает полной защиты, признают разработчики. Поэтому владельцам ресурсов надо привыкать жить рядом со все возрастающим числом ботов и при проявлении ими слишком сильной активности учиться оперативно их блокировать.

Источник: https://www.kommersant.ru/doc/7344431

Изображение: Freepik

Коммерсант

Издательский дом