Озеро данных и BI-платформа для страховой компании
Импортозамещение
Microsoft Power BI → Apache Superset
Задача
Крупная страховая компания с 30+ продуктами нуждалась в едином аналитическом хранилище для анализа убыточности, андеррайтинга и клиентской аналитики. Данные хранились в 8 изолированных системах.
Решение
Построено Data Lake на базе S3-совместимого хранилища. ETL-процессы через Apache Spark и Airflow. Трансформация данных через dbt. BI-визуализация в Apache Superset. Самообслуживаемая аналитика для бизнес-пользователей.
Результаты
Время подготовки аналитических отчётов сократилось с 2 недель до 15 минут. Выявлены убыточные сегменты, корректировка тарифов привела к улучшению убыточности на 8 п.п. 200+ активных пользователей BI.
Масштаб и сроки
30+ страховых продуктов, 8 систем-источников
7 месяцев
Технологии
Оценка заказчика
Экспертные инсайты
Участники проекта делятся уроками, техническими деталями и выводами
ClickHouse vs Greenplum: когда что выбирать
Для этого проекта мы выбрали ClickHouse из-за скорости на аналитических запросах. Но заказчик хотел ещё и ad-hoc SQL с JOIN'ами по 10 таблиц — здесь ClickHouse проигрывает. Решение: ClickHouse для предрассчитанных витрин (90% запросов BI-аналитиков), Greenplum для сложных исследовательских запросов (10% запросов data scientists). Двухуровневая архитектура дороже, но закрывает все потребности.
Сергей Наумов
Data-архитектор
Команда проекта
Сергей Наумов
Data-архитектор
Мария Степанова
BI-аналитик