- Введение
- Что такое viewability fraud и зачем его детектировать
- Виды мошенничества
- Ключевые метрики для мониторинга
- Методы детекции
- 1. Правила и эвристики (rule‑based)
- 2. Статистический анализ и аномалия‑детекция
- 3. Машинное обучение
- Supervised
- Unsupervised
- 4. Использование браузерных метрик (client‑side instrumentation)
- 5. Cross‑validation с бэкенд‑событиями
- 6. Сигнатурная детекция и поведенческий анализ
- Практическая архитектура системы детекции
- Метрики эффективности детекции
- Примеры и статистика
- Пример 1: Аномалия по времени видимости
- Пример 2: Концентрация по User‑Agent
- Статистика (условная, на основе агрегатов индустрии)
- Практические рекомендации
- Ограничения и риски
- Инструменты и ресурсы (общие категории)
- Авторское мнение и совет
- Заключение
Введение
В условиях роста цифровой рекламы показатель viewability стал ключевым индикатором качества показов. Однако вместе с ростом ставок и бюджета увеличилось и мошенничество: когда объявления формально отрабатывают, но фактическая вероятность их просмотра пользователем низкая или нулевая. В этой статье рассматриваются методы детекции таких случаев (viewability fraud) в дисплейной рекламе — от простых эвристик до продвинутых машинных моделей и постклик‑аналитики.

Что такое viewability fraud и зачем его детектировать
Viewability fraud — это намеренные или неумышленные практики, при которых система фиксирует показ объявления как видимый, хотя пользователь фактически не видел его. Примеры: анонсы в скрытых фреймах, автоскролл, множественные маленькие пиксельные объявления, спрятанные за элементами интерфейса, или генерация просмотров ботами.
Виды мошенничества
- Скрытые инвентори (hidden inventory): объявления размещаются вне видимой области или под другими элементами.
- Интерактивный обман (engagement bait): искусственное удержание и автоскролл.
- Бот‑трафик: автоматические агенты создают видимость показов.
- Фрод в поставщиках (supply‑side fraud): когда партнёр по размещению предоставляет фальшивые данные о видимости.
Ключевые метрики для мониторинга
Прежде чем строить детекцию, полезно определить набор метрик, по которым можно отслеживать аномалии:
- Viewability rate (процент видимых показов).
- Avg viewable time (средняя продолжительность видимости).
- Time in view distribution (распределение времени видимости).
- CTR и post‑view конверсии (сравнение кликов и конверсий у видимых и не‑видимых показов).
- Device / Browser / OS breakdown (необычные концентрации в отдельных сегментах).
- IP / гео / supply source entropy (уровень разнообразия источников трафика).
Методы детекции
1. Правила и эвристики (rule‑based)
Эвристические правила — это самый простой, быстрый и объяснимый способ выявления аномалий. Их можно внедрить на стороне DSP, SSP или аналитической платформы.
- Фильтрация 0s: показы с 0 секунд видимости помечать как подозрительные.
- Порог по среднему времени видимости: если среднее время в паблишере заметно ниже медианы рынка — ставить предупреждение.
- Аномалии в распределении размеров: слишком много показов в нестандартных размерах (например, 1×1) — признак фрода.
- Концентрация по User‑Agent / IP: высокий процент одного User‑Agent или адреса/пула IP — триггер.
2. Статистический анализ и аномалия‑детекция
Статистические методы позволяют формализовать поиск отклонений. Часто применяются следующие подходы:
- Контрольные графики (control charts) для отслеживания метрик во времени.
- Z‑score и модифицированные Z‑score для выявления выбросов по партнёрам или кампаниям.
- Кластеризация и сегментация: выделение групп с атипичным поведением.
3. Машинное обучение
ML‑модели позволяют детектировать сложные шаблоны, которые не поддаются простым правилам. Модели делятся на два типа: supervised (обучение на помеченных данных) и unsupervised (анализ без ярлыков).
Supervised
Требует помеченных случаев фрода и нормальных примеров. Подходы: логистическая регрессия, градиентный бустинг, нейронные сети.
- Фичи: время в видимости, дробь видимых показов, частота показов одному пользователю, entropy по IP, user‑agent, соотношение видимых/невидимых по creative.
- Метрики качества: precision@top, recall на заданном пороге, AUC.
Unsupervised
Используется при недостатке пометок. Подходы: локальный выбросный фактор (LOF), Isolation Forest, автокодировщики.
- Подходы хорошо работают для обнаружения новых типов фрода.
- Обычно комбинируют с экспертной проверкой для снижения ложных срабатываний.
4. Использование браузерных метрик (client‑side instrumentation)
Встраивание расширенной логики в объявление или на страницу позволяет получать детализированные данные о состоянии окна, фокусе, видимости, пересечениях viewport и т. д. Примеры метрик:
- Intersection Observer API: фиксирует пересечение объявления с областью просмотра.
- Visibility API: отслеживает изменение видимости вкладки.
- Page focus/blur events, pointer events для оценки пользовательского внимания.
5. Cross‑validation с бэкенд‑событиями
Связывание данных о показах с кликами, конверсиями и последующими действиями даёт косвенное подтверждение качества. Если у кампании высокая доля видимых показов, но нулевая post‑view конверсия, это повод для проверки.
6. Сигнатурная детекция и поведенческий анализ
Анализ последовательностей событий (скроллов, движений мыши, размера окна) помогает распознать автоматизированных посетителей. Например, боты часто демонстрируют однообразные паттерны: равномерный интервал между обновлениями, отсутствие движения курсора, всегда одинаковые размеры окна.
Практическая архитектура системы детекции
Эффективная система сочетает несколько слоёв: сбор данных, потоковая обработка, хранилище, модель детекции и интерфейс оповещений.
| Слой | Функция | Примеры технологий (обобщённо) |
|---|---|---|
| Сбор данных | Клиентские и серверные логи, events | JS SDK, логирование на сервере |
| Потоковая обработка | Агрегация, очистка, предварительная детекция | Stream processors, правило‑движки |
| Хранилище | Сохранение сырых и агрегированных данных | Data lake / data warehouse |
| Аналитика/ML | Обучение моделей, scoring | ML платформа / Python / R |
| Интерфейс | Дашборды, алерты, отчёты | BI инструменты, email/Slack оповещения |
Метрики эффективности детекции
Оценивать систему стоит по нескольким критериям:
- Precision и recall выявления мошенничества.
- False positive rate (важно не блокировать добросовестных паблишеров).
- Снижение расхода средств на фрод и рост реальной видимости.
- Время реакции и пропускная способность системы.
Примеры и статистика
Ниже приведены иллюстративные (условные) примеры, показывающие, как может проявляться viewability fraud в данных.
Пример 1: Аномалия по времени видимости
- Кампания A: среднее время видимости 0.8 секунды, viewability rate 72%.
- Паблишер X: среднее время видимости 0.2 секунды, viewability rate 85%.
- Вывод: высокое % видимости при очень низком среднем времени — признак манипуляции (например, всплывающие элементы показывают объявление на доли секунды в зоне пересечения).
Пример 2: Концентрация по User‑Agent
- Нормальный профиль: широкий набор user‑agent’ов, равномерно распределённых.
- Подозрительный паблишер: 60% показов приходят с одного user‑agent строки, что значительно выше медианы (обычно <5%).
- Действие: пометка и углублённый аудит с использованием клиентских метрик.
Статистика (условная, на основе агрегатов индустрии)
| Показатель | Нормальный диапазон | Показатель фрода |
|---|---|---|
| Viewability rate | 50–70% | >85% при low time_in_view |
| Avg time in view | 3–12 секунд (зависит от формата) | <1 секунды |
| Entropy по IP | высокая | низкая (сильная концентрация) |
Практические рекомендации
Ниже приводятся практические шаги для внедрения системы детекции:
- Собрать базовый набор метрик (viewability, time_in_view, UA, IP, creative size).
- Внедрить набор простых эвристик как первичный фильтр.
- Параллельно начать сбор помеченных случаев для обучающей выборки.
- Запустить unsupervised‑модели для обнаружения новых паттернов.
- Организовать процессы ремедиации: оповещения, блокировки, продвинутый аудит партнёров.
- Внедрить feedback loop: результаты ручного аудита возвращать в модель для повышения качества.
Ограничения и риски
- Ложные срабатывания: агрессивная блокировка может повредить отношениям с качественными паблишерами.
- Этические и юридические аспекты: сбор детальных клиентских данных требует внимания к конфиденциальности и соответствию регуляциям.
- Адаптация фродеров: злоумышленники постоянно меняют тактики, поэтому модели требуют регулярного обновления.
Инструменты и ресурсы (общие категории)
Для реализации можно использовать сочетание стандартных инструментов: JS SDK для клиентской телеметрии, потоковые обработчики для real‑time scoring, ML‑платформы для обучения и BI‑дашборды для визуализации. Важно обеспечить масштабируемость и возможность быстрой интеграции новых фич.
Авторское мнение и совет
Лучший подход к борьбе с viewability fraud — многослойный: сочетание простых эвристик для быстрой защиты и продвинутых ML‑моделей для выявления скрытых паттернов. Инвестиции в качество данных и feedback loop окупаются снижением потерь и повышением эффективности кампаний.
Заключение
Разработка методов детекции viewability fraud — это комплексная задача, требующая сочетания инженерных, аналитических и организационных мер. От простых правил и статистических тестов до машинного обучения и клиентской телеметрии — каждая техника дополняет другую. Для практического внедрения важно начать с базовых метрик, быстро реализовать эвристики и постепенно вводить ML‑подходы, поддерживая цикл обратной связи. Только так можно эффективно снижать потери от мошенничества и повышать качество рекламных показов.