Статьи 2025

Опыт миграции DWH и сложности, которые при этом возникают

Practice

В статье рассматривается процесс миграции корпоративного хранилища данных (DWH) и одновременного построения на его основе двух высоконагруженных систем: real-time фиче-стора и системы управленческой отчетности. Особое внимание уделяется архитектурным решениям и сложностям, с которыми столкнулась команда: от реорганизации потоков данных для устранения расхождений до выполнения строгих требований к производительности новых сервисов.

Статья будет полезна для специалистов, которые сталкиваются с необходимостью миграции больших объемов данных, построения real-time аналитических платформ и выбора оптимальной архитектуры для высоконагруженных сервисов. В ней представлено сравнение архитектур «до» и «после» миграции, детальное описание проблем старого подхода и обоснование выбора новых инструментов в экосистеме Yandex Cloud для их решения.

Как мы ускорили заливку данных в YDB в 40 раз

Practice

В статье рассматривается реальный кейс по оптимизации производительности YDB, используемой в качестве хранилища для ML Online Feature Store. Автор уделяет особое внимание практическим методам ускорения массовой вставки данных и устранению ее влияния на скорость чтения.

Материал предназначен для специалистов, которые сталкиваются с необходимостью организации быстрой загрузки больших объемов данных в YDB в высоконагруженных системах, требующих одновременно низкой задержки на чтение. В статье представлены три ключевые оптимизации: снижение числа партиций, удаление избыточного глобального индекса и предварительная сортировка данных перед вставкой. Эти шаги позволили ускорить загрузку данных в 40 раз и стабилизировать latency чтения.

Запустили векторный поиск в YDB: рассказываем, как он работает

Database internals

В статье рассказывается про две версии векторного поиска в YDB — точный и приближённый. Приближённый поиск может работать с миллиардами векторов, если использовать векторный индекс. Такая технология есть у небольшого количества технологических компаний в мире.

Материал будет полезен всем, кто интересуется современными подходами к организации векторного поиска в больших данных.

Шардированный не значит распределённый: что важно знать, когда PostgreSQL становится мало

Practice

В данной статье рассматривается организация распределенных транзакций, шардирование данных и использование двухфазного коммита. Особое внимание уделяется важному аспекту: двухфазный коммит обеспечивает лишь атомарность операций, но не гарантирует изоляцию транзакций, что может создавать определенные ожидания у разработчиков.

Материал предназначен для специалистов, которые сталкиваются с необходимостью масштабирования систем за пределы возможностей одиночной базы данных (например, PostgreSQL) и перехода к архитектуре с шардированием данных. В статье представлены практические рекомендации по выбору архитектурных решений и разъяснение ключевых концепций распределенных транзакций.

Релиз диалекта YDB для SQLAlchemy: как мы сделали интеграцию с Apache Superset

General

В данной статье описывается процесс разработки Python-клиента для взаимодействия с распределенной базой данных YDB. Учитывая богатые возможности Python в области работы с базами данных, включая стандартизированный интерфейс DBAPI (PEP-249) и множество ORM, команда разработчиков реализовала полноценную интеграцию YDB с аналитической платформой Apache Superset.

Статья подробно освещает технические аспекты интеграции, особенности взаимодействия с существующей экосистемой Python и решения возникающих при этом архитектурных задач.

Стоимостной оптимизатор: сердце гибридной базы данных YDB

Database internals

В статье рассматривается назначение, принципы работы и внутренняя реализация стоимостного (cost-based) оптимизатора запросов в гибридной базе данных YDB. Павел Велихов (Руководитель команды оптимизатора запросов) делится историей разработки собственной СУБД в Яндексе, объясняет отличия OLTP- и OLAP-нагрузок и обосновывает необходимость сложного оптимизатора для эффективной обработки аналитических запросов. Подробно описываются алгоритмы перебора и выбора оптимальных планов, такие как динамическое программирование и гиперграфовый алгоритм DPhyp, а также роль оценки кардинальности и функции стоимости. Материал иллюстрирует, как современные подходы позволяют YDB обрабатывать масштабные и сложные SQL-запросы, обеспечивая высокую производительность даже на больших объемах данных.

Статья предназначена для специалистов в области баз данных, разработчиков, девопсов, а также архитекторов IT-инфраструктуры.

Почему сложно разработать OLAP-базу данных, если у тебя уже есть OLTP

Database internals

В статье объясняются основные различия между OLTP- и OLAP-нагрузками и описываются архитектурные вызовы, возникающие при создании гибридной (HTAP) базы данных на примере YDB. Алексей Дмитриев (Технический менеджер) подробно рассматривает аспекты эффективного хранения, передачи и обработки данных для обоих типов нагрузки, а также различные подходы к оптимизации запросов и управлению вычислительными ресурсами. В материале приводятся примеры решений и компромиссов, к которым приходят разработчики в процессе построения HTAP-систем, а также даются уроки и наблюдения, приобретённые командой YDB в ходе развития продукта.

Статья будет полезной для инженеров и архитекторов, интересующихся современными подходами к проектированию гибридных баз данных.

Kafka API для работы с потоками данных Yandex Data Streams — топиками YDB

Practice

Статья представляет собой подробный туториал по использованию Kafka API для работы с потоками данных Yandex Data Streams (топиками YDB) в облачной инфраструктуре Yandex Cloud. Елена Калинина (Технический менеджер) даёт пошаговую инструкцию по созданию необходимых облачных ресурсов — базы данных, потоков, S3-бакета, сервисных аккаунтов и настройке доступа, а также приводит примеры настройки и использования Kafka CLI и Kafka Connect для записи, чтения и выгрузки сообщений из потока данных в облачное хранилище. Рассматриваются практические аспекты безопасности и даны рекомендации по хранению конфиденциальных данных. Материал позволяет быстро начать работу с потоками YDB через привычные Kafka-инструменты, облегчая миграцию с Apache Kafka и интеграцию с существующими бизнес-процессами.

Статья предназначена для DevOps-инженеров, специалистов по облачной инфраструктуре, разработчиков, а также всех, кто работает с потоковыми данными и интеграциями на основе Kafka.

Как я сделал PR на 14К строк в проект YDB будучи студентом

Database internals

В статье Павел Орлов (студент) рассказывает о практическом опыте крупного вклада в проект YDB — переводе парсера языка запросов YQL с ANTLR3 на ANTLR4. Автор объясняет, почему задача была технически сложной, какие трудности возникли при миграции инструментов и шаблонов, а также как удалось аккуратно внедрить изменения, не нарушая существующую функциональность системы. Материал знакомит с принципами парсинга, особенностями работы ANTLR и процессом интеграции нового парсера. Также подчеркнута значимость грамотной работы с open source-проектами для профессионального роста.

Статья предназначена для разработчиков, специалистов по базам данных, студентов и начинающих инженеров, интересующихся open source и инструментами синтаксического анализа.

Была ли статья полезна?

Статьи

2024