Data Quality против всех | Богдан Володарский
Подписывайтесь на наш канал здесь и в телеграм https://t.me/meetups_evrone, чтобы быть в курсе будущих митапов и не пропускать полезные доклады! В докладе «Data Quality против всех» Богдан Володарский раскрывает понятие качества данных и подходы к его обеспечению. Он рассказывает, почему важно изначально считать данные некачественными, пока не доказано обратное, и как Data Quality связан с Data Governance. Обсуждаются ключевые метрики качества данных и их ограничения, а также популярные Open Source инструменты Soda, Great Expectations и Deequ. Богдан делится опытом компании Wildberries по проверке качества данных с помощью собственного холодного хранилища Blob Storage и рассматривает нестандартные кейсы. https://www.linkedin.com/in/bogdan-volodarskiy-652498108/ https://medium.com/@bvolodarskiy https://t.me/bvolodarskiy https://t.me/data_qa 00:00 - Введение 01:00 - Что такое Data платформа 01:55 - Все данные - плохие! 04:25 - Что такое качество данных? 06:57 - DQ Score 08:40 - Data Governance vs Data Quality 09:45 - Архитектура Дата-платформы 10:36 - Как можно проверять данные 14:24 - Сравнение решений 18:00 - Open-source vs велосипед 19:11 - DQ on Data Platform 19:55 - DQG 21:11 - Архитектура DQ-решения 22:53 - Алертинг 23:38 - Автосоздание багов 24:11 - OMD 25:03 - Визуализация 25:28 - KPI 26:30 - Контрактное и бизнес-тестирование 27:08 - Profiling 28:05 - Anomaly Detection 28:34 - Adversarial Validation 29:48 - Data drift from Meta 32:53 - Автоматическая генерация тестов 33:19 - Rule based 33:57 - ML 34:58 - Генерация тестов на основе LLM 36:45 - Заключение
Подписывайтесь на наш канал здесь и в телеграм https://t.me/meetups_evrone, чтобы быть в курсе будущих митапов и не пропускать полезные доклады! В докладе «Data Quality против всех» Богдан Володарский раскрывает понятие качества данных и подходы к его обеспечению. Он рассказывает, почему важно изначально считать данные некачественными, пока не доказано обратное, и как Data Quality связан с Data Governance. Обсуждаются ключевые метрики качества данных и их ограничения, а также популярные Open Source инструменты Soda, Great Expectations и Deequ. Богдан делится опытом компании Wildberries по проверке качества данных с помощью собственного холодного хранилища Blob Storage и рассматривает нестандартные кейсы. https://www.linkedin.com/in/bogdan-volodarskiy-652498108/ https://medium.com/@bvolodarskiy https://t.me/bvolodarskiy https://t.me/data_qa 00:00 - Введение 01:00 - Что такое Data платформа 01:55 - Все данные - плохие! 04:25 - Что такое качество данных? 06:57 - DQ Score 08:40 - Data Governance vs Data Quality 09:45 - Архитектура Дата-платформы 10:36 - Как можно проверять данные 14:24 - Сравнение решений 18:00 - Open-source vs велосипед 19:11 - DQ on Data Platform 19:55 - DQG 21:11 - Архитектура DQ-решения 22:53 - Алертинг 23:38 - Автосоздание багов 24:11 - OMD 25:03 - Визуализация 25:28 - KPI 26:30 - Контрактное и бизнес-тестирование 27:08 - Profiling 28:05 - Anomaly Detection 28:34 - Adversarial Validation 29:48 - Data drift from Meta 32:53 - Автоматическая генерация тестов 33:19 - Rule based 33:57 - ML 34:58 - Генерация тестов на основе LLM 36:45 - Заключение