Ключевые возможности для аналитики: быстрый справочник
- Проектирование хранилища данных (Concepts & Design)
- Загрузка и выгрузка данных (Ingestion & Egress)
- Обработка и трансформация данных (ETL/ELT)
- Разработка и интеграция с приложениями (Development & SDKs)
- Анализ данных и визуализация (Analytics & BI)
- Эксплуатация и управление производительностью (Operations & Performance)
Эта страница — карта документации по аналитическим возможностям YDB. Текст сгруппирован по этапам жизненного цикла данных, чтобы помочь быстро найти необходимую информацию для проектирования, разработки и эксплуатации аналитических решений.
Проектирование хранилища данных (Concepts & Design)
Основы организации данных, масштабирования и управления.
Основные концепции и типы данных
- Колоночные таблицы: архитектура хранения, оптимизированная для OLAP.
- Типы данных: полный справочник по поддерживаемым типам.
Масштабирование и производительность
- Проектирование ключей для максимальной производительности: как выбирать
PRIMARY KEY
иPARTITION BY
. - Партиционирование таблиц: механизм распределения данных по узлам.
Управление жизненным циклом данных
- TTL (Time-to-Live): автоматическое удаление устаревших данных по истечении срока.
Загрузка и выгрузка данных (Ingestion & Egress)
Инструменты и API для перемещения данных в YDB и из неё.
Потоковая загрузка (Streaming Ingestion)
- Topics (Kafka API): нативная работа с потоками данных через протокол Kafka.
- Transfer: управляемый сервис для переноса данных между топиками и таблицами.
- Коннектор Fluent Bit: прямая загрузка логов.
Пакетная загрузка (Batch Ingestion)
- Коннектор Apache Spark: чтение и запись данных для ETL/ELT-задач.
- BulkUpsert API: высокопроизводительная вставка больших объемов данных через SDK.
Взаимодействие с внешними системами
- Федеративные запросы: выполнение запросов к данным, находящимся во внешних системах (S3, ClickHouse, Postgres).
- Работа с S3 через внешние таблицы: чтение и запись данных в формате Parquet/CSV в Object Storage.
Обработка и трансформация данных (ETL/ELT)
Язык запросов и интеграция с инструментами оркестрации.
Язык запросов YQL
- Полный справочник по YQL: синтаксис, функции и операторы.
- Функции для работы с датой и временем: полный список и типовые сценарии.
- Функции для работы с JSON: извлечение данных из JSON-документов.
Инструменты для построения пайплайнов
- Интеграция с dbt (Data Build Tool): управление ELT-пайплайнами с помощью SQL.
- Интеграция с Apache Airflow: оркестрация сложных ETL/ELT-процессов.
Разработка и интеграция с приложениями (Development & SDKs)
Инструменты для разработчиков приложений.
- Обзор YDB SDK: нативные SDK для Go, Python, Java, C++, Node.js.
- JDBC драйвер: стандартный способ подключения из Java-экосистемы.
- YDB CLI: инструмент командной строки для администрирования и выполнения запросов.
Анализ данных и визуализация (Analytics & BI)
Интеграция с инструментами для конечных пользователей.
BI-системы
Инструменты Data Science
- Jupyter Notebooks: выполнение YQL-запросов и анализ данных в интерактивном режиме.
Эксплуатация и управление производительностью (Operations & Performance)
Администрирование, мониторинг, безопасность и оптимизация.
Управление производительностью
- Анализ планов запросов (EXPLAIN): как понять план выполнения запроса и найти узкие места.
- Управление нагрузкой (Resource Pools): изоляция ресурсов CPU для разных команд или нагрузок.
- Стоимостной оптимизатор: обзор принципов работы планировщика запросов.
Мониторинг и диагностика
- Встроенный UI: веб-интерфейс для мониторинга состояния и диагностики кластера.
- Справочник по метрикам: полный список метрик для систем мониторинга.
- Готовые дашборды для Grafana: шаблоны для быстрой настройки мониторинга.
Безопасность и отказоустойчивость
- Аутентификация и авторизация: настройка доступа пользователей, в том числе через LDAP.
Архитектурные ограничения
- Известные ограничения системы: важный раздел для понимания особенностей и компромиссов архитектуры.
Скопировано
Была ли статья полезна?
Предыдущая
Следующая