Обзор

YDB — это распределённая отказоустойчивая база данных, которая предоставляет компоненты для построения корпоративного хранилища данных (КХД) на единой платформе.

Использование YDB позволяет консолидировать функциональность нескольких технологий (например, отдельных систем для потоковой обработки, хранения и аналитики) в одном решении. Вы можете использовать привычные инструменты и подходы, получая при этом свойства распределённой системы.

Ввод данных

Платформа спроектирована для приёма потоковых и пакетных данных в больших объёмах.

Потоковая обработка: встроенная система топиков с поддержкой Kafka API для интеграции с существующими системами. Для сбора логов доступны плагины к Fluent Bit и Logstash.
Пакетная загрузка: API BulkUpsert для быстрой загрузки массивов данных и коннектор к Apache Spark для интеграции с платформами обработки данных.
Подключение через стандартные интерфейсы: JDBC-драйвер и нативные SDK.

Подробнее о вводе данных

Хранение данных

Основа хранилища — колоночные таблицы со встроенным сжатием, оптимизированные для аналитических нагрузок.

Разделение хранения и вычислений: ключевое свойство YDB, позволяющее независимо масштабировать дисковое пространство и вычислительные мощности.
Минимизация администрирования: фоновые процессы уплотнения (compaction) и удаления данных по TTL уменьшают количество ручных операций.

Подробнее о хранении данных

Выполнение запросов

YDB — это MPP-СУБД (Massively Parallel Processing) без выделенного мастер-узла. Узлы выполняют одинаковые роли, и система масштабируется горизонтально за счёт динамического добавления или удаления вычислительных ресурсов.

Стоимостной оптимизатор (cost-based optimizer, CBO): выбирает план выполнения для запросов, анализируя статистику по данным.
Механизм сброса на диск (spilling): позволяет выполнять запросы, промежуточные результаты которых не помещаются в оперативную память.
Workload Manager: управляет распределением ресурсов между запросами, изолируя разные типы нагрузки.

Подробнее о выполнении запросов

Трансформация данных

Поддерживается трансформация данных с использованием стандартных подходов и инструментов.

ELT на SQL: используйте INSERT INTO ... SELECT для построения витрин. Для управления сложными SQL-пайплайнами есть интеграция с dbt.
ETL на Apache Spark: запускайте ETL-задания на Apache Spark с помощью параллельного коннектора.
Оркестрация: автоматизируйте пайплайны с помощью Apache Airflow.

Подробнее о трансформации данных

Федеративные запросы

YDB позволяет выполнять запросы к данным в S3-совместимых хранилищах без их предварительной загрузки. Это упрощает работу с данными, хранящимися в озере данных (data lake).

Подробнее о федеративных запросах

Анализ и визуализация (BI и ML)

Для анализа данных можно использовать стандартные инструменты индустрии:

BI-инструменты: Yandex DataLens, Apache Superset, Grafana, Polymatica.
ML-инструменты: используйте Jupyter Notebook и Apache Spark для подготовки данных и обучения моделей машинного обучения.

Подробнее о BI; Подробнее о ML

Была ли статья полезна?

Глоссарий

Ввод данных