- Введение: почему проблема актуальна
- Классификация рекламного мошенничества в Web3
- Причины возникновения и условия риска
- Источники данных для детекции
- Методологический набор: как детектировать фрод
- 1. Правила и эвристики
- 2. Статистические модели и аномалия детекция
- 3. Машинное обучение и графовые модели
- 4. Комбинация on-chain и off-chain сигналов
- Признаки и фичи для моделей
- Практические сценарии детекции и примеры
- Сценарий 1: Airdrop farming
- Сценарий 2: Wash trading NFT коллекции
- Метрики эффективности детектора и KPI
- Техническая архитектура решения
- Требования к инфраструктуре
- Статистика и кейсы (примерные цифры)
- Ограничения и вызовы
- Этические и правовые аспекты
- Рекомендации разработчикам и аналитикам
- Шаги по внедрению — дорожная карта
- Заключение
Введение: почему проблема актуальна
С распространением Web3 и возрастанием рекламных активностей в блокчейн-продуктах (NFT-кампании, DAO-инициативы, токен-эйрдропы, on-chain и off-chain промо) растёт и риск рекламного мошенничества. Blockchain рекламные кампании обещают прозрачность, но уникальные характеристики блокчейна (псевдонимность, программируемость, смарт-контракты) порождают новые типы злоупотреблений: фальшивые взаимодействия, wash trading, фрод с airdrop-атаками, симуляция off-chain трафика под видом on-chain активности.

Классификация рекламного мошенничества в Web3
Аналитики выделяют несколько ключевых типов фрода, характерного для Web3:
- Wash trading и фальшивые продажи — создание множества транзакций между контролируемыми адресами для создания иллюзии спроса и повышения видимости проекта.
- Airdrop farming и Sybil‑атаки — массовая регистрация учётных записей/адресов для получения бонусов и вознаграждений.
- Фрод с партнёрскими/реферальными программами — подставные переходы/клики и симуляция выполнения условий бонуса.
- Fake engagement off-chain в целях on-chain monetization — покупка отзыва/репоста/рецензии off-chain с целью увеличить офер/ROI on-chain (например, продвижение NFT коллекции в соцсетях, чтобы вызвать приток on-chain покупателей).
- Организованный ботоводинг — использование приватных/публичных бот-сетей, которые координируют ончейн и офчейн действия.
Причины возникновения и условия риска
- Экономическая мотивация: токеномика проектов, распределение вознаграждений и возможности быстрого извлечения прибыли.
- Технические факторы: низкий барьер создания адресов, смарт-контракты с уязвимой логикой призов.
- Организационные: отсутствие прозрачных стандартов KPI и слабая верификация участников кампаний.
Источники данных для детекции
Эффективная детекция требует комбинированного использования on-chain и off-chain источников:
| Тип данных | Описание | Плюсы | Минусы |
|---|---|---|---|
| On-chain транзакции | Логи переводов, вызовы смарт-контрактов, события | Полная история, неизменность | Псевдонимность, большое количество шума |
| Мета-данные адресов | Балансы, время создания, взаимодействия с другими адресами | Позволяет строить графы связей | Не всегда легко связывать с реальными пользователями |
| Оффчейн источники | Логи CDN, клики, реферальные параметры, данные соцсетей | Контекст поведения пользователя | Фрагментарность, риск подделки |
| Интеллектуальные фиды и черные списки | Списки известных ботов, подозрительных адресов | Быстрая фильтрация | Неполнота и ложные срабатывания |
Методологический набор: как детектировать фрод
Подходы можно разделить на правило-ориентированные, статистические и машинно-обученческие. Часто оптимальна гибридная архитектура: сначала правило-ориентированная фильтрация, затем ML/графовые модели для выявления сложных паттернов.
1. Правила и эвристики
- Правила скорости: серия транзакций/регистраций с одного IP или из одного диапазона адресов за короткое время.
- Пороговые правила: множество транзакций одной минимальной суммы между теми же адресами.
- Проверки гомогенности: слишком похожие метаданные (user agent, временные метки) для разных «пользователей».
2. Статистические модели и аномалия детекция
Статистические методы позволяют задать профили нормального поведения кампании и затем фиксировать отклонения. Популярные методы:
- Метрики плотности (kernel density) для распределения интервалов между действиями.
- Методы z-score и IQR для выбросов по объёму транзакций и частоте.
- Time-series anomaly detection (Seasonal-Hybrid ESD, Prophet) для аномалий в динамике притока участников.
3. Машинное обучение и графовые модели
ML позволяет выявлять сложные нетипичные паттерны и группировки адресов:
- Классификация (Random Forest, XGBoost) на наборе признаков: возраст адреса, средний объём транзакций, распределение counterparty, entropy признаков.
- Кластеризация (DBSCAN, HDBSCAN) для поиска плотных групп взаимосвязанных адресов — потенциальных бот-кластеров.
- Graph Neural Networks (GNN) и PageRank-подобные алгоритмы для оценки центральности и подозрительности адресов в графе взаимодействий.
4. Комбинация on-chain и off-chain сигналов
Соединение оффчейн-логов (например, клики с UTM, IP, user-agent) с on-chain событиями (подтверждённые транзакции) критично для различения реальных пользователей и ботов. Для этого нужен механизм дедупликации и корреляции временных меток.
Признаки и фичи для моделей
Ниже перечислены ключевые фичи, которые доказали свою информативность при построении детекторов:
- Age of wallet — время с момента создания адреса.
- Tx frequency and burstiness — частота транзакций и скопления во времени.
- Entropy of counterparties — насколько разнообразны контрагенты адреса.
- On-chain / off-chain time delta — задержка между off-chain событием (например, клик) и on-chain транзакцией.
- Gas patterns — схожесть используемого газа и способов подписания транзакций.
- Cross-chain behaviour — повторяющиеся схожие паттерны на разных блокчейнах.
Практические сценарии детекции и примеры
Сценарий 1: Airdrop farming
Описание: проект раздаёт токены всем, кто выполнил ряд действий. Злоумышленники создают сотни адресов и используют автоматические скрипты для выполнения требований.
Детекция:
- Отслеживание времени создания адресов и их активности: большое число адресов, созданных в короткий интервал — подозрительно.
- Сопоставление с off-chain действиями: совпадение IP/UA или одинаковые подписанные сообщения.
- Агрегация контрагентов: адреса, которые взаимодействуют только с одним пулом контрактов — высокое подозрение.
Сценарий 2: Wash trading NFT коллекции
Описание: создатели коллекции или связанные с ними участники проводят серию покупок-продаж с целью поднять видимость или floor price.
Детекция:
- Графовый анализ цепочек транзакций: циклические переводы между небольшим набором адресов.
- Анализ времени: сделки происходят с высокой частотой и малым ценовым отклонением.
- Проверка рыночных данных: резкие скачки объёмов без соответствующего внешнего интереса (по оффчейн метрикам).
Метрики эффективности детектора и KPI
Любая система детекции должна оцениваться по стандартным и специфическим метрикам:
- Precision, Recall, F1 — базовые ML-метрики.
- False Positive Rate — критичен для не нанесения вреда легитимным участникам.
- Time-to-detect — среднее время от начала фрода до обнаружения.
- Coverage on-chain vs off-chain — доля инцидентов, выявленных только on-chain или только off-chain.
Техническая архитектура решения
Рекомендуемая архитектура — модульная, с несколькими слоями:
- Слой сбора данных: on-chain индексер, ingestion оффчейн логов, DB для метаданных.
- Preprocessing: дедупликация, нормализация временных меток, связывание по хешам/utms.
- Real-time фильтрация: набор эвристических правил (low-latency).
- Batch/near-real-time аналитика: ML-модели, графовые вычисления (GNN), кластеризация.
- Панель аналитика / инцидент-менеджмент: визуализация подозрительных паттернов, ручная верификация.
Требования к инфраструктуре
- Хранилище метрик и графов — scalable graph DB или OLAP-хранилище.
- Вычислительные ресурсы для GNN и кластеризации (GPU при необходимости).
- Механизмы безопасного хранения криптографических ключей и логов.
Статистика и кейсы (примерные цифры)
Приведённые ниже цифры демонстративны и основаны на накопленной практике аналитических команд в Web3 (обобщённые оценки):
- До 40–60% объёма торгов отдельных мелких NFT-коллекций могут приходиться на wash trading в первые дни запуска.
- Sybil-атаки при airdrop’ах часто составляют 10–30% всех заявок в зависимости от сложности условий раздачи.
- Использование гибридных ML + правила снижает false positives на 20–50% по сравнению с чисто правило-ориентированным подходом.
Ограничения и вызовы
- Псевдонимность и приватные решения (например, rollups, zk-протоколы) ограничивают доступность данных.
- Актуализация черных списков и признаком требует постоянного внимания — злоумышленники адаптируются.
- Баланс между обнаружением и удобством пользователей: жёсткие правила могут оттолкнуть легитимных участников.
Этические и правовые аспекты
Детекция мошенничества должна проводиться с учётом прав на приватность и локального законодательства. Автоматические санкции (блокировки, изъятия вознаграждений) требуют прозрачных процедур апелляции и возможности ручной проверки.
Рекомендации разработчикам и аналитикам
Практические советы для внедрения эффективной детекции:
- Сочетать on-chain и off-chain данные для надёжной верификации действий.
- Использовать ансамбли моделей: простые правила для real-time + ML для глубокого анализа.
- Инвестировать в графовый аналитический слой — отношения между адресами зачастую более показательные, чем одиночные признаки.
- Проектировать систему с возможностью ручной верификации и прозрачной аудиторской историей для разрешения споров.
- Проводить регулярный red-team: имитация атак для теста детектора.
«Автор считает, что наиболее надёжная стратегия против blockchain advertising fraud — это постоянная интеграция контекстных off-chain сигналов с on-chain графовым анализом: только так можно отделить настоящую пользовательскую активность от организованных манипуляций.»
Шаги по внедрению — дорожная карта
- Аудит текущих маркетинговых кампаний и определение критических точек риска.
- Запуск пилота: базовый индексер on-chain + набор эвристик.
- Сбор labeled dataset (ручная верификация подозрительных кейсов).
- Разработка ML-моделей и их валидация на исторических атаках.
- Внедрение в production с SLA по времени обнаружения и процессом апелляций.
Заключение
Web3 открывает новые возможности для рекламных кампаний и монетизации, но одновременно создаёт уникальные вызовы в виде blockchain advertising fraud. Эффективная защита требует многослойного подхода: сочетания простых эвристик, статистических методов и продвинутых ML/графовых моделей, а также интеграции off-chain сигналов. При этом практика показывает, что только гибридные решения с возможностью ручной валидации и прозрачными процедурами апелляции обеспечивают баланс между борьбой с мошенничеством и сохранением доверия пользователей.
Ключевые выводы:
- Детекция должна учитывать и on-chain, и off-chain данные.
- Графовый анализ и модели на взаимодействиях более информативны, чем изолированные признаки.
- Важно минимизировать false positives и обеспечить процесс апелляции.
Автор настоятельно рекомендует начать с небольших пилотных проектов, собрать качественные помеченные данные и постепенно развивать гибридную систему детекции, чтобы сохранить доверие сообщества и устойчивость маркетинговых кампаний в Web3.