Глоссарий YDB

Эта статья представляет собой обзор терминов и определений, используемых в YDB и её документации. Он начинается с ключевых терминов, с которыми полезно ознакомиться на раннем этапе работы с YDB, а остальная часть статьи содержит более продвинутые термины, которые могут быть полезны в дальнейшем.

Ключевая терминология

Этот раздел описывает термины, которые полезны любому человеку, работающему с YDB, независимо от его роли и сценария использования.

Кластер

Кластер или cluster YDB представляет собой набор взаимосвязанных узлов YDB, которые обмениваются данными для выполнения пользовательских запросов и надёжного хранения данных. Эти узлы формируют одну из поддерживаемых топологий кластера, что напрямую влияет на его характеристики надёжности и производительности.

Кластеры YDB являются мультитенантными (многопользовательскими) и могут содержать несколько изолированных баз данных.

База данных

Как и в большинстве систем управления базами данных, база данных в YDB представляет собой логический контейнер для других сущностей, таких как таблицы. Однако в YDB пространство имён внутри баз данных иерархическое, как в виртуальных файловых системах, и таким образом директории позволяют более структурированно организовывать сущности.

Ещё одной важной характеристикой баз данных YDB является то, что им обычно выделяются отдельные вычислительные ресурсы. Как следствие, создание базы данных требует дополнительных действий инженеров DevOps.

Узел

YDB узел или node — это серверный процесс, выполняющий исполняемый файл под названием ydbd. На одном физическом сервере или виртуальной машине могут работать несколько узлов YDB, что является обычной практикой. Таким образом, в контексте YDB узлы не являются синонимами хостов.

Так как YDB использует подход раздельных слоёв хранения и вычислений (storage and compute separation), ydbd имеет несколько режимов работы, определяющих тип узла. Доступные типы узлов описаны ниже.

Узел базы данных

Узлы базы данных (также известные как тенантные узлы, узлы вычислений, database nodes, tenant nodes или compute nodes) обрабатывают пользовательские запросы, адресованные конкретной логической базе данных. Их состояние находится только в оперативной памяти и может быть восстановлено из распределённого хранилища. Совокупность узлов баз данных заданного кластера YDB можно считать вычислительным слоем этого кластера. Таким образом, добавление узлов баз данных и выделение им дополнительных ресурсов (CPU и RAM) — это основные способы увеличения вычислительных ресурсов базы данных.

Основная роль узлов базы данных — запуск различных таблеток и акторов, а также приём входящих запросов по сети.

Узел хранения

Узлы хранения или storage nodes являются узлами с состоянием, отвечающими за долгосрочное хранение фрагментов данных. Совокупность узлов хранения заданного кластера YDB называются распределённым хранилищем и могут рассматриваться как слой хранения этого кластера. Таким образом, добавление дополнительных узлов хранения и их дисков — это основные способы увеличения ёмкости хранилища и пропускной способности ввода/вывода кластера.

Гибридный узел

Гибридный узел — это процесс, который одновременно выполняет обе роли узла базы данных и узла хранения. Гибридные узлы часто используются в целях разработки. Например, вы можете запустить контейнер с полнофункциональным YDB, содержащим только один процесс ydbd в гибридном режиме. В производственных окружениях они используются редко.

Статический узел

Статические узлы или static nodes конфигурируются вручную во время первоначальной инициализации или перенастройки кластера. Как правило, они выполняют роль узлов хранения, но технически возможно настроить их и в качестве узлов баз данных.

Динамический узел

Динамические узлы или dynamic nodes добавляются и удаляются из кластера на ходу. Они могут выполнять только роль узлов базы данных.

Распределённое хранилище

Распределённое хранилище, Distributed storage, Blob storage или BlobStorage — это распределённый отказоустойчивый слой хранения данных в YDB. Оно имеет специализированный API, предназначенный для хранения неизменяемых фрагментов данных таблетки.

Множество терминов, связанных с реализацией распределённого хранилища, рассматриваются ниже.

Группа хранения

Группа хранения, группа распределённого хранилища, storage group или группа Blob storage — это место для надёжного хранения данных, аналогичное RAID, но использующее диски нескольких серверов. В зависимости от выбранной топологии кластера группы хранения используют различные алгоритмы для обеспечения высокой доступности, аналогично стандартным уровням RAID.

Распределённое хранилище обычно управляет большим количеством относительно небольших групп хранения. Каждую группу можно назначить конкретной базе данных для увеличения ёмкости дискового пространства и пропускной способности ввода/вывода, доступных для этой базы данных.

Статические и динамические группы хранения являются физическими, то есть их данные размещаются непосредственно на VDisk'ах

Статическая группа

Статическая группа или static group — это специальная группа хранения, созданная во время изначального развёртывания кластера. Её основная роль заключается в хранении данных системных таблеток, которые можно рассматривать как метаданные уровня всего кластера.

Статическая группа может требовать особого внимания во время крупного обслуживания кластера, такого как вывод зоны доступности из эксплуатации.

Динамическая группа

Обычные группы хранения, которые не являются статическими, называются динамическими группами или dynamic group. Их называют динамическими, потому что они могут быть созданы и удалены на лету во время работы кластера.

Виртуальная группа хранения

Виртуальная группа хранения или virtual storage group — это сущность, которая фактически не является группой хранения, но со стороны выглядит таковой (предоставляет аналогичный внешний интерфейс). Может хранить свои данные в других группах хранения или в S3.

Пул хранения

Пул хранения или storage pool — это набор устройств хранения данных со схожими характеристиками. Каждому пулу хранения присваивается уникальное имя в рамках кластера YDB. Технически, каждый пул хранения состоит из множества физических дисков (PDisk). Каждая группа хранения создаётся в определённом пуле хранения, который определяет характеристики производительности группы хранения через выбор соответствующих устройств хранения. Обычно отдельные пулы хранения создают для устройств разных типов (например, NVMe, SSD и HDD) или для конкретных моделей этих устройств, обладающих различной ёмкостью и скоростью доступа.

Актор

Модель акторов — это один из основных подходов к параллелизму выполнения, используемый в YDB. В этой модели акторы или actor — это легковесные процессы в пользовательском пространстве, которые могут иметь и изменять своё частное состояние, но могут влиять друг на друга только косвенно через обмен сообщениями. YDB имеет собственную реализацию этой модели, которая описана ниже.

В YDB акторы с надёжно сохраняемым состоянием называются таблетками.

Таблетка

Таблетка — это один из основных строительных блоков и абстракций YDB. Она представляет собой сущность, ответственную за относительно небольшой сегмент пользовательских или системных данных. Обычно таблетка управляет объёмом данных до нескольких гигабайт, однако некоторые типы таблеток могут обрабатывать и больший объём.

Например, строковая пользовательская таблица управляется одной или несколькими таблетками типа DataShard, причём каждая таблетка отвечает за непрерывный диапазон первичных ключей и соответствующих им данных.

Конечным пользователям, отправляющим запросы в кластер YDB для выполнения, не нужно знать подробностей о таблетках, их видах или принципах работы, но это может быть полезно, например, для оптимизации производительности.

Технически таблетки являются акторами с состоянием, надёжно сохранённым в распределённом хранилище. Это состояние позволяет таблетке продолжать работу на другом узле базы данных, если предыдущий вышел из строя или перегружен.

Подробности реализации таблеток и связанные термины, а также основные типы таблеток, рассматриваются ниже.

Транзакции

YDB реализует транзакции (transactions) на двух основных уровнях:

Локальная база данных и остальная инфраструктура таблеток позволяют таблеткам манипулировать своим состоянием, используя локальные транзакции с уровнем изоляции serializable. Технически они не являются локальными для одного узла, так как это состояние сохраняется удалённо в распределённом хранилище.
В контексте YDB термин распределённые транзакции обычно относится к транзакциям, охватывающим несколько таблеток. Например, транзакции между таблицами или даже строками одной таблицы часто являются распределёнными.
Одношардовые транзакции охватывают одну таблетку и выполняются быстрее. Например, транзакции между строками одной партиции таблицы часто являются одношардовыми.

Эти механизмы позволяют YDB обеспечивать строгую согласованность.

Реализация распределённых транзакций рассмотрена в отдельной статье DataShard: распределённые транзакции, а ниже приведён список нескольких связанных терминов.

Сессии

Логические соединения с базой данных, которые хранят контекст, необходимый для выполнения запросов и управления транзакциями. Более подробно сессии описаны в разделе Сессии.

Неявные транзакции

Неявная транзакция — это режим выполнения запросов, при котором режим транзакции не указан. В этом случае YDB самостоятельно определяет, нужно ли обернуть их в транзакцию. Этот режим описан более подробно в Неявные транзакции.

Многоверсионное управление параллелизмом

Многоверсионное управление параллелизмом, multi-version concurrency control или MVCC — это метод, используемый YDB для одновременного доступа нескольких параллельных транзакций к базе данных без взаимных помех. Он описан более подробно в отдельной статье Многоверсионное управление конкурентным доступом (MVCC).

Потоковые запросы

Тип запроса, предназначенный для потоковой обработки неограниченного потока данных. В отличие от обычных запросов, потоковые запросы не имеют ограничений на длительность выполнения, автоматически перезапускаются при ошибках и периодически сохраняют своё состояние в виде чекпоинтов для обеспечения отказоустойчивости.

Потоковые запросы описаны более подробно в отдельной статье Потоковые запросы.

Чекпоинты потоковых запросов

Периодически сохраняемое состояние потокового запроса, необходимое для автоматического восстановления его работы после сбоев в распределённой системе. Подробнее про чекпоинты в статье Чекпоинты.

Топология

YDB поддерживает несколько топологий кластера (или topology), описанных более подробно в отдельной статье Топология кластера YDB. Ниже объяснены несколько связанных терминов.

Зоны доступности и регионы

Зона доступности — это дата-центр или его изолированный сегмент с минимальным физическим расстоянием между узлами и минимальным риском отказа одновременно с другими зонами доступности. Таким образом, зоны доступности не должны использовать общую инфраструктуру, такую как электропитание, охлаждение или внешние сетевые соединения.

Регион — это большая географическая область, содержащая несколько зон доступности. Расстояние между зонами доступности в одном регионе должно составлять около 500 км или менее. YDB выполняет записи данных в каждую зону доступности в регионе синхронно, обеспечивая разумную задержку и бесперебойную работу в случае отказа одной из зон доступности.

Стойка

Стойка, серверная стойка, rack или server rack — это оборудование, используемое для организации размещения нескольких серверов. Серверы в одной стойке с большей вероятностью могут стать недоступными одновременно из-за проблем на уровне стойки, связанных с электропитанием, охлаждением и т. д. YDB может учитывать информацию о том, какой сервер находится в какой стойке, при размещении каждого фрагмента данных в средах, основанных на физических серверах.

Pile

Pile или пайл — это набор узлов, которые могут отказать или быть отключены одновременно с сохранением работоспособности других частей кластера (pile). Pile может сохранять работоспособность при отключении других узлов кластера. Pile используются в режиме bridge для разделения кластера на несколько частей, между которыми осуществляется синхронная репликация. Pile может состоять из узлов одного или нескольких регионов.

Режим bridge

Режим bridge — это особая топология кластера, в рамках которой данные хранятся с синхронной репликацией между несколькими pile. Особенности режима описаны в Режим bridge, а также в Режим работы кластера Bridge.

Таблица

Таблица или table — это структурированный фрагмент информации, организованный в строки и колонки. Каждая строка представляет собой одну запись или элемент, а каждая колонка — это конкретный атрибут или поле с определённым типом данных.

Существуют два основных подхода к представлению табличных данных в оперативной памяти или на дисках: строковый (строка за строкой) и колоночный (колонка за колонкой). Выбранный подход сильно влияет на характеристики производительности операций с этими данными: первый больше подходит для транзакционных нагрузок (OLTP), а второй — для аналитических (OLAP). YDB поддерживает оба подхода.

Строковая таблица

Строковые таблицы или row-oriented tables хранят данные для всех или большинства колонок каждой строки физически рядом друг с другом. Они описаны более подробно в Строковые таблицы.

Колоночная таблица

Колоночные таблицы, column-oriented table или columnar table хранят данные для каждой колонки отдельно. Они оптимизированы для построения агрегатов по небольшому числу колонок, но менее подходят для доступа к конкретным строкам, так как строки нужно восстанавливать из их ячеек на лету. Они описаны более подробно в Колоночные таблицы.

Первичный ключ

Первичный ключ или primary key — это упорядоченный список колонок, значения которых однозначно идентифицируют строку. Он используется для создания первичного индекса таблицы. Он задаётся пользователем YDB при создании таблицы и существенно влияет на производительность операций с этой таблицей.

Руководство по выбору первичных ключей представлено в Выбор первичного ключа.

Первичный индекс

Первичный индекс, индекс первичного ключа, primary index или primary key index — это основная структура данных, используемая для нахождения строк в таблице. Он создаётся на основе выбранного первичного ключа и определяет физический порядок строк в таблице; таким образом, у каждой таблицы может быть только один первичный индекс. Первичный индекс является уникальным.

Вторичный индекс

Вторичный индекс или secondary index — это дополнительная структура данных, используемая для нахождения строк в таблице, обычно когда это нельзя эффективно сделать с помощью первичного индекса. В отличие от первичного индекса, вторичные индексы управляются независимо от основных данных таблицы. Таким образом, у таблицы может быть несколько вторичных индексов для различных сценариев. Возможности YDB в отношении вторичных индексов описаны в отдельной статье Вторичные индексы. Вторичный индекс может быть как уникальным, так и неуникальным.

Отдельно выделяется специальный вид вторичного индекса - векторный индекс.

Векторный индекс

Векторный индекс или vector index — это дополнительная структура данных, используемая для ускорения решения задачи векторного поиска, когда данных достаточно много и точный векторный поиск без индекса не работает удовлетворительно.
Возможности YDB по приближённому поиску ближайших соседей (ANN search) с помощью векторных индексов описаны в отдельной статье Векторные индексы.

Векторный индекс выделяется отдельно от вторичного индекса, так как решает иные задачи.

Семейство колонок

Семейство колонок, группа колонок, column family или column group — это функция, позволяющая хранить подмножества колонок строковой таблицы отдельно в отдельном семействе или группе. Основной сценарий использования — хранение части колонок на других типах дисков (перенос менее важных колонок на HDD) или с другими настройками компрессии. Если рабочая нагрузка требует многих семейств колонок, рассмотрите возможность использования колоночных таблиц.

Время жизни

Время жизни, time to live или TTL — это механизм для автоматического удаления старых строк из таблицы асинхронно в фоновом режиме. Он описан в отдельной статье Time to Live (TTL) и вытеснение данных во внешнее хранилище.

Представление

Представление или view — это способ сохранить запрос и обращаться к его результатам как к настоящей таблице. Само представление не хранит данных, кроме текста запроса. Запрос, хранящийся в представлении, выполняется при каждом SELECT из него, генерируя возвращаемый результат. Любые изменения в таблицах, на которые ссылается представление, немедленно отражаются в результатах чтения из него.

Представления бывают пользовательские и системные.

Пользовательские представления

Пользовательские представления создаются пользователем с помощью команды CREATE VIEW. Они описаны более подробно в Представления (VIEW).

Системные представления

Системные представления, system views — это специальные представления, автоматически создаваемые системой для мониторинга состояния базы данных и кластера. Они располагаются в специальной директории .sys, находящейся в корневой папке каждой базы данных. Системные представления для баз данных описаны в Системные представления базы данных; системные представления для кластера, а также вопросы управления доступом к ним — в Системные представления кластера.

Топик

Очередь сообщений используется для надёжной асинхронной связи между различными системами посредством передачи сообщений. YDB предоставляет инфраструктуру, обеспечивающую семантику "exactly once" (ровно один раз) в таких коммуникациях. С её использованием можно добиться гарантии отсутствия потерянных сообщений и случайных дубликатов.

Топик, тема, topic — это именованная сущность в очереди сообщений, предназначенная для взаимодействия писателей и читателей.

Несколько терминов, связанных с топиками, приведены ниже. Как работают топики YDB объясняется более подробно в отдельной статье Топик.

Партиция

Для целей горизонтального масштабирования топики разделяются на отдельные элементы, называемые партициями или partitions. Таким образом, партиции являются единицей параллелизма внутри топика. Сообщения внутри каждой партиции упорядочены.

Однако подмножества данных, управляемые одним data shard или column shard, также могут называться партициями.

Смещение

Смещение или offset — это порядковый номер, идентифицирующий сообщение внутри партиции.

Писатель

Писатель, производитель или producer — это сущность, записывающая новые сообщения в топик.

Читатель

Читатель, потребитель или consumer — это сущность, читающая сообщения из топика.

Захват изменений данных

Захват изменений данных, change data capture или CDC — это механизм, позволяющий подписываться на поток изменений в конкретной таблице. Технически он реализован поверх топиков. Он описан более подробно в отдельной статье Change Data Capture (CDC).

Поток изменений

Поток изменений — упорядоченный список изменений таблицы, помещенный в топик.

Коллекция резервных копий

Коллекция резервных копий — это схемный объект, который организует полные и инкрементальные резервные копии для выбранных строковых таблиц. Коллекции обеспечивают восстановление на момент времени, поддерживая цепочки резервных копий и гарантируя согласованное восстановление нескольких таблиц. Таблица может принадлежать только одной коллекции резервных копий одновременно.

Подробнее см. Коллекция резервных копий.

Резервная копия

Резервная копия — это копия данных на определённый момент времени, которая может использоваться для восстановления данных. В контексте коллекций резервных копий существует два типа:

Полная резервная копия: Полный снимок всех данных в коллекции. Служит основой для цепочек резервных копий и может быть восстановлена независимо.
Инкрементальная резервная копия: Захватывает только изменения (вставки, обновления, удаления) с момента предыдущей резервной копии. Требует всей цепочки резервных копий для восстановления.

Цепочка резервных копий

Цепочка резервных копий — упорядоченная последовательность резервных копий, начинающаяся с полной резервной копии, за которой следует ноль или более инкрементальных резервных копий. Каждая инкрементальная резервная копия зависит от всех предыдущих резервных копий в цепочке. Удаление любой резервной копии в цепочке делает последующие инкрементальные резервные копии невосстановимыми.

Экземпляр асинхронной репликации

Экземпляр асинхронной репликации — это именованная сущность, хранящая настройки асинхронной репликации (настройки подключения, список реплицируемых объектов и т.д.). Также с его помощью можно получить информацию о состоянии асинхронной репликации: прогресс первоначального сканирования, отставание, ошибки и т.д.

Реплицируемый объект

Реплицируемый объект — объект (например, таблица), для которого настроена асинхронная репликация.

Объект-реплика

Объект-реплика — «зеркальная копия» реплицируемого объекта, автоматически созданная экземпляром асинхронной репликации. Как правило, доступен только для чтения.

Экземпляр трансфера

Экземпляр трансфера — это именованная сущность, хранящая настройки трансфера, включая настройки подключения и правила преобразования данных. Также с его помощью можно получить информацию о состоянии трансфера, например ошибки.

Узел координации

Узел координации или coordination node — это объект схемы, который позволяет клиентским приложениям создавать семафоры для координации своих действий. Узлы координации применяются для реализации распределённых блокировок, обнаружения сервисов, выбора лидера и других сценариев. Более подробно об узлах координации.

Семафор

Семафор — это объект внутри узла координации, который предоставляет механизм синхронизации для распределённых приложений. Семафоры могут быть постоянными или временными и поддерживают операции создания, захвата, освобождения и мониторинга. Более подробно о семафорах в YDB.

Пул ресурсов

Пул ресурсов или resource pool — объект схемы, который описывает ограничения, накладываемые на ресурсы (CPU, RAM и т.п.) доступные для выполнения запросов в этом пуле ресурсов. Запрос всегда выполняется в каком-то пуле ресурсов. По умолчанию все запросы выполняются в пуле ресурсов с именем default, который не накладывает каких-либо ограничений. Подробнее об использовании пулов ресурсов можно узнать в статье Workload Manager — управление потреблением ресурсов.

Классификатор пулов ресурсов

Классификатор пулов ресурсов или resource pool classifier — объект, предназначенный для управления распределением запросов между пулами ресурсов. Он описывает правила, по которым для каждого запроса выбирается пул ресурсов. Эти классификаторы глобальны для всей базы данных и применяются ко всем запросам, поступающим в неё. Подробнее об их использовании можно узнать в статье Workload Manager — управление потреблением ресурсов.

YQL

YQL (YDB Query Language) — это высокоуровневый язык для работы с системой. Он является диалектом ANSI SQL. Существует много материалов, посвящённых YQL, включая туториал, справочник и рецепты.

Федеративные запросы

Федеративные запросы или federated queries — это функциональность, позволяющая выполнять запросы к данным, хранящимся в системах, внешних по отношению к кластеру YDB.

Ниже объяснены несколько терминов, связанных с федеративными запросами. Как работают федеративные запросы в YDB объясняется более подробно в отдельной статье Федеративные запросы.

Внешний источник данных

Внешний источник данных, внешнее подключение, external data source или external connection — это метаданные, описывающие, как подключиться к поддерживаемой внешней системе для выполнения федеративных запросов.

Внешняя таблица

Внешняя таблица или external table — это метаданные, описывающие конкретный набор данных, который можно извлечь из внешнего источника данных.

Секрет

Секрет или secret — это конфиденциальные метаданные, требующие особого обращения. Например, секреты могут использоваться в определениях внешних источников данных и представляют собой такие сущности, как пароли и токены.

Аутентификационный токен

Аутентификационный токен или auth token — токен, используемый для аутентификации в YDB.

YDB поддерживает разные виды аутентификации и различные типы токенов.

Схема кластера

Схема кластера YDB — это иерархическое пространство имён кластера YDB. Верхнеуровневым элементом этого пространства имён является корень схемы кластера. Дочерними элементами корня схемы кластера выступают базы данных. Внутри каждой базы данных можно создавать произвольную иерархию объектов (таблицы, топики и т.п.) с помощью вложенных директорий.

Схема базы данных

Схема базы данных — это подмножество иерархического пространства имён кластера, принадлежащее базе данных.

Корень базы данных

Корень базы данных — это путь к базе данных в схеме кластера.

Корень схемы

Корень схемы кластера — это корневой элемент пространства имён YDB, дочерними элементами которого выступают базы данных.

Объект схемы

Схема базы данных состоит из схемных объектов или объектов схемы, которыми могут быть базы данных, таблицы (включая внешние таблицы), топики, папки и т.д.

Для удобства организации, схемные объекты образуют иерархию с помощью папок.

Папка

Как и в файловых системах, папка, каталог, folder или directory является контейнером для схемных объектов.

Папки могут содержать подпапки и такая вложенность может быть произвольной глубины.

Объект доступа

Объект доступа или access object при авторизации — сущность, для которой настраиваются права и ограничения доступа. В YDB объектами доступа являются объекты схемы.

У каждого объекта схемы есть владелец и список прав на этот объект, выданных пользователям и группам (субъектам доступа).

Субъект доступа

Субъект доступа или access subject — сущность, которая может обращаться к объектам доступа и выполнять определённые действия в системе.

Получение доступа при этих обращениях и действиях зависит от настроенных списков прав и уровня доступа субъекта.

Субъектом доступа может быть пользователь или группа.

Право доступа

Право доступа или access right — сущность, отражающая разрешение субъекту доступа выполнять конкретный набор операций в кластере или базе данных над конкретным объектом доступа.

Наследование прав доступа

Наследование прав доступа — механизм, при котором права доступа, выданные на родительские объекты доступа, наследуются дочерними объектами в иерархической структуре базы данных. Это гарантирует, что разрешения, предоставленные на более высоком уровне иерархии, применяются ко всем нижестоящим уровням, если они не переопределены явно.

Список прав

Список прав, access control list или ACL — список всех прав, предоставленных субъектам доступа (пользователям и группам) на конкретный объект доступа.

Уровень доступа

Уровень доступа предоставляет субъекту доступа дополнительные возможности при работе с объектами схемы, а также возможность выполнения операций над кластером в целом. YDB использует три уровня доступа:

наблюдатель;
оператор;
администратор.

Уровень доступа для субъекта настраивается с помощью списков уровня доступа.

Список уровня доступа

Список уровня доступа или список разрешений — список SID'ов субъектов доступа, которым разрешён определённый уровень доступа.

В YDB существует несколько таких списков, которые определяют, кто и какими уровнями доступа обладает.

Владелец

Владелец - субъект доступа (пользователь или группа) имеющий полный объем прав на конкретный объект доступа.

Пользователь

Пользователь - лицо, использующее YDB для выполнения конкретной функции.

В YDB существуют разные виды пользователей в зависимости от способа создания:

локальные пользователи в базах данных YDB;
внешние пользователи из сторонних каталогов.

Пользователь идентифицируется SID.

Локальный пользователь

Пользователь, чья учётная запись создана непосредственно в YDB с использованием YQL-команды CREATE USER или при начальной конфигурации безопасности.

Внешний пользователь

Пользователь YDB, чья учётная запись создана в стороннем каталоге, например в LDAP-каталоге или IAM-системе.

Группа

Группа или группа доступа - именованное множество пользователей и других групп с равными возможностями для своих членов.

Группа идентифицируется SID.

Роль

Роль — это именованное множество прав доступа, используемое для назначения пользователям или группам пользователей.

Роли в YDB реализованы с помощью групп, которые создаются при первоначальном развёртывании кластера, и которым назначается определённый список прав на корне схемы кластера. Подробнее о ролях читайте в статье Начальная настройка безопасности кластера.

SID

SID или security identifier — строка вида <name> или <name>@<auth-domain>, идентифицирующая субъект доступа. Используется при аутентификации, авторизации, в списках прав и в списках уровней доступа.

SID идентифицирует индивидуального пользователя или группу пользователей.

Опциональный суффикс @<auth-domain> идентифицирует источник субъекта доступа, то есть внешний каталог или систему, откуда он был получен. Например, пользователи или группы из LDAP-каталога могут иметь суффикс @ldap. Отсутствие суффикса означает, что пользователь или группа созданы и существуют непосредственно в YDB.

Оптимизатор запросов

Оптимизатор запросов — набор компонентов YDB, отвечающих за преобразование логического представления запроса в конкретный физически исполнимый план получения запрошенного результата. Основная цель оптимизатора — выбрать среди всех возможных планов выполнения запроса достаточно эффективный с точки зрения прогнозируемого времени исполнения и потребления ресурсов кластера. Он описан более подробно в отдельной статье Оптимизация запросов в YDB.

Кэш компиляции

Кэш компиляции или compile cache — кэш скомпилированных запросов на каждой ноде кластера. Используется для избежания повторной компиляции: если текст запроса уже есть в кэше ноды, дополнительная компиляция не выполняется. Подробнее см. в разделе Кэш компиляции запросов.

Продвинутая терминология

Этот раздел объясняет термины, которые полезны для YDB контрибьюторов и пользователей, желающих глубже понять, что происходит внутри системы.

Реализация акторов

Система акторов

Система акторов или actor system — это C++ библиотека с реализацией акторной модели для нужд YDB.

Акторный сервис

Акторный сервис или actor service — это актор, который имеет известное имя и обычно выполняется в единственном экземпляре на узле.

ActorId

ActorId — это уникальный идентификатор актора или таблетки в кластере.

Интерконнект акторной системы

Интерконнект акторной системы, интерконнект, actor system interconnect или interconnect — это внутренний сетевой слой кластера. Все акторы взаимодействуют друг с другом в системе через интерконнект.

Локал

Локал или local — это акторный сервис, работающий на каждом узле. Он напрямую управляет таблетками на своём узле и взаимодействует с Hive. Он регистрируется в Hive и получает команды на запуск таблеток.

Реализация таблеток

Таблетка или tablet — это актор с постоянным состоянием. Она включает набор данных, за которые эта таблетка отвечает, и конечный автомат, через который изменяются данные (или состояние) таблетки. Таблетка является отказоустойчивой сущностью, поскольку данные таблетки хранятся в распределённом хранилище, которое переживает сбои дисков и узлов. Таблетка автоматически перезапускается на другом узле в случае отказа или перегрузки предыдущего. Данные в таблетке изменяются последовательно, так как инфраструктура системы гарантирует, что нет более одного лидера таблетки, через которого выполняются изменения данных таблетки.

Таблетка решает ту же задачу, что и алгоритмы Paxos и Raft в других системах, а именно задачу распределённого консенсуса. С технической точки зрения реализация таблетки может быть описана как реплицированная машина состояний (Replicated State Machine, RSM) поверх общего журнала, поскольку состояние таблетки полностью описывается упорядоченным журналом команд, хранящимся в распределённом и отказоустойчивом хранилище.

Во время выполнения машина состояний таблетки управляется тремя компонентами:

Общая таблеточная часть обеспечивает согласованность журнала и восстановление в случае сбоев.
Исполнитель или executor — это абстракция локальной базы данных, а именно структуры данных и код, которые организуют работу с данными, хранимыми таблеткой.
Актор с пользовательским кодом, реализующим специфическую логику конкретного типа таблетки.

В YDB существует несколько видов специализированных таблеток, хранящих всевозможные данные для различных задач. Многие функции YDB, такие как таблицы и топики, реализованы как разные виды таблеток. Таким образом, повторное использование инфраструктуры таблеток является одним из ключевых средств расширяемости YDB как платформы.

Обычно в кластере YDB работает на порядки больше таблеток по сравнению с процессами или потоками, которые другие системы использовали бы для кластера аналогичного размера. В кластере YDB легко могут одновременно работать сотни тысяч и миллионы таблеток.

Поскольку таблетка хранит своё состояние в распределённом хранилище, она может быть (пере-)запущена на любом узле кластера. Таблетки идентифицируются с помощью TabletID, 64-битного числа, назначаемого при создании таблетки.

Лидер таблетки

Лидер таблетки или tablet leader — это текущий активный лидер данной таблетки. Лидер таблетки принимает команды, назначает им порядок и подтверждает их внешнему миру. Гарантируется, что в любой момент времени существует не более одного лидера для каждой таблетки.

Кандидат таблетки

Кандидат таблетки или tablet candidate — это один из участников выборов, который хочет стать лидером данной таблетки. Если кандидат выигрывает выборы, он становится лидером таблетки.

Реплика таблетки

Реплика таблетки, горячий резерв, tablet follower или hot standby — это копия лидера таблетки, которая применяет журнал команд, принятых лидером (с некоторой задержкой). У таблетки может быть ноль или больше реплик. Реплики выполняют две основные функции:

В случае завершения или отказа лидера, реплики являются предпочтительными кандидатами на роль нового лидера, так как они могут стать лидером намного быстрее, чем другие кандидаты, поскольку они применили большую часть журнала.
Реплики могут отвечать на запросы только для чтения, если клиент явно выбирает опциональный расслабленный режим транзакций, допускающий устаревшие чтения (stale reads).

Поколение таблетки

Поколение таблетки или tablet generation — это номер, идентифицирующий реинкарнацию лидера таблетки. Он меняется только при выборе нового лидера и всегда увеличивается.

Локальная база данных таблетки

Локальная база данных таблетки, локальная база данных, tablet local database или local database — это набор структур данных и связанного кода, которые управляют состоянием таблетки и хранимыми ей данными. Логически состояние локальной базы данных представлено набором таблиц, очень похожих на реляционные таблицы. Модификация состояния локальной базы данных осуществляется локальными транзакциями таблетки, создаваемыми пользовательским актором таблетки.

Каждая таблица локальной базы данных хранится как LSM-дерево.

Log-structured merge-tree

Log-structured merge-tree или LSM-дерево — это структура данных, разработанная для оптимизации производительности записи и чтения в системах хранения. Она используется в YDB для хранения таблиц локальной базы и данных VDisks.

MemTable

Все данные, записанные в таблицы локальной базы, изначально хранятся в структуре данных в оперативной памяти, называемой MemTable. Когда MemTable достигает заданного размера, она сбрасывается на диск как неизменяемая структура данных SST.

Sorted string table

Sorted string table или SST — это неизменяемая структура данных, которая хранит строки таблицы, отсортированные по ключу, что облегчает эффективный поиск ключей и работу с диапазонами ключей. Каждая SST состоит из непрерывной серии маленьких страниц данных, обычно размером около 7 КиБ каждая, что дополнительно оптимизирует процесс чтения данных с диска. Обычно SST представляет собой часть LSM-дерева.

Пайп таблетки

Пайп таблетки, tablet pipe или TabletPipe — это виртуальное соединение, которое может быть установлено с таблеткой. Оно включает поиск лидера таблетки по TabletID. Это рекомендуемый способ работы с таблеткой. Термин открыть пайп к таблетке описывает процесс разрешения (поиска) таблетки в кластере и установления с ней виртуального канала связи.

TabletID

TabletID — это уникальный идентификатор таблетки в рамках кластера.

Bootstrapper

Bootstrapper — это основной механизм запуска таблеток, используемый для системных таблеток (например, для Hive, DS controller, корневого SchemeShard). Hive инициализирует остальные таблетки.

Общий кеш

Общий кеш или shared cache — это актор, который хранит страницы данных, недавно прочитанные из распределённого хранилища. Кеширование этих страниц снижает количество операций ввода-вывода с диска и ускоряет получение данных, повышая общую производительность системы.

Контроллер памяти

Контроллер памяти или memory controller— это актор, который управляет лимитами памяти YDB.

Спиллинг

Спиллинг или spilling — это механизм управления памятью в YDB, который временно выгружает промежуточные данные запросов во внешнее хранилище, когда такие данные превышают доступный объём оперативной памяти узла. В YDB для спиллинга в настоящее время используется диск.

Подробнее о спиллинге см. в Спиллинг.

Типы таблеток

Таблетки можно рассматривать как фреймворк для создания надёжных компонентов, работающих в распределённой системе. Многие компоненты YDB — как системные, так и работающие с пользовательскими данными — реализованы с использованием этого фреймворка, основные из них перечислены ниже.

SchemeShard

SchemeShard или Scheme shard — это системная таблетка, которая хранит схему базы данных, включая метаданные пользовательских таблиц, топиков и т.д.

Кроме того, существует корневой SchemeShard, который хранит информацию о базах данных, созданных в кластере.

DataShard

DataShard или Data shard — это таблетка, которая управляет сегментом строковой пользовательской таблицы. Логическая пользовательская таблица делится на сегменты по непрерывным диапазонам первичного ключа таблицы. За каждый такой диапазон отвечает отдельная таблетка DataShard. Сам диапазон также называется партицией. Таблетка DataShard хранит данные построчно, что эффективно для OLTP нагрузок.

ColumnShard

ColumnShard или Column shard — это таблетка, которая хранит сегмент данных колоночной пользовательской таблицы.

KeyValue Tablet

KeyValue, KV Tablet или таблетка ключ-значение — это таблетка, которая реализует простое отображение ключ → значение, где ключи и значения — это строки. У неё также есть несколько специфических функций, таких как блокировки.

PersQueue Tablet

PersQueue или persistent queue tablet — это таблетка, которая реализует концепцию топика. Каждый топик состоит из одной или нескольких партиций, и каждая партиция управляется отдельным экземпляром таблетки PQ.

TxAllocator

TxAllocator, аллокатор транзакций или transaction allocator — это системная таблетка, которая выделяет уникальные идентификаторы транзакций (TxID) в кластере. Обычно в кластере имеется несколько таких таблеток, из которых transaction proxy предварительно выделяет и кэширует диапазоны для локального выпуска в рамках одного процесса.

Coordinator

Координатор или coordinator — это системная таблетка, обеспечивающая глобальный порядок транзакций. Задача координатора заключается в присвоении логического времени PlanStep каждой транзакции, спланированной через этого координатора. Каждой транзакции назначается ровно один координатор, выбранный путём хеширования её TxId.

Mediator

Медиатор — это системная таблетка, которая распределяет транзакции, спланированные координаторами, между участниками транзакций. Медиаторы обеспечивают продвижение глобального времени. Каждый участник транзакции ассоциируется ровно с одним медиатором. Медиаторы позволяют избежать необходимости в полном наборе соединений между всеми координаторами и всеми участниками всех транзакций.

Hive

Hive — это системная таблетка, отвечающая за запуск и управление другими таблетками. Её обязанности включают перемещение таблеток между узлами в случае отказа или перегрузки узла. Подробнее о Hive можно узнать в отдельной статье.

CMS

CMS, система управления кластером или cluster management system — это системная таблетка, отвечающая за управление информацией о текущем состоянии кластера YDB. Эта информация используется для выполнения постепенных перезапусков кластера без воздействия на пользовательские нагрузки, обслуживания, переконфигурации кластера и т.д.

NodeBroker

NodeBroker — это системная таблетка, которая отвечает за регистрацию динамических узлов в кластере.

BSController

BSController, контроллер распределённого хранилища, blob storage controller, BS-контроллер управляет динамической конфигурацией распределённого хранилища, включая информацию о PDisk, VDisk и группах хранения. Он взаимодействует с node warden для запуска различных компонентов распределённого хранилища. Он взаимодействует с Hive для выделения каналов таблеткам.

Console

Console — это системная таблетка, отвечающая за хранение динамической конфигурации и её доставку на узлы кластера.

Kesus

Kesus — это таблетка, которая реализует узел координации.

SysViewProcessor

SysViewProcessor — это таблетка, которая хранит данные некоторых из системных представлений.

SequenceShard

SequenceShard — это таблетка, обслуживающая объекты Sequence, которые используются для реализации серийных типов данных.

ReplicationController

ReplicationController — это таблетка, отвечающая за процесс асинхронной репликации.

StatisticsAggregator

StatisticsAggregator — это таблетка, отвечающая за сбор статистики, используемой в стоимостной оптимизации.

Слот

Слот в YDB может использоваться в двух контекстах:

Слот — это часть ресурсов сервера, выделенная для запуска одного узла YDB. Обычный размер слота — 10 процессорных ядер и 50 ГБ оперативной памяти. Слоты используются, если кластер YDB развернут на серверах или виртуальных машинах с достаточными ресурсами для размещения нескольких слотов.
Слот VDisk или VSlot — это доля PDisk, которая может быть выделена одному из VDisk.

Хранилище состояния

Хранилище состояния, state storage или StateStorage — это распределённый сервис, который хранит информацию о таблетках, а именно:

Текущий лидер таблетки или его отсутствие.
Реплики таблетки.
Поколение и шаг таблетки (generation:step).

Хранилище состояния используется как служба для разрешения имён таблеток, то есть для получения ActorId по TabletID. StateStorage также используется в процессе выбора лидера таблетки.

Информация в хранилище состояния является волатильной. Таким образом, она теряется при отключении питания или перезапуске процесса. Несмотря на название, этот сервис не является постоянным долгосрочным хранилищем. Он содержит только информацию, которую легко восстановить и которая не должна быть долговечной. Однако хранилище состояния хранит информацию на нескольких узлах, чтобы минимизировать влияние отказов узлов. Через этот сервис также можно собрать кворум, который используется для выбора лидеров таблеток.

Из-за своей природы сервис хранилища состояния работает по принципу максимально возможных усилий. Например, отсутствие нескольких лидеров таблеток гарантируется через протокол выбора лидеров на распределённом хранилище, а не на хранилище состояния.

Board

Board — распределённый сервис, предназначенный для хранения метаданных в виде пар ключ-значение. Используется, в том числе, для хранения информации об endpoint-ах.

SchemeBoard

SchemeBoard — распределённый сервис, предназначенный для хранения метаданных в виде пар ключ-значение. Используется, в том числе, для хранения информации о схемах.

Компакшн

Компакшн, компактизация или compaction — это внутренний фоновый процесс перестройки данных LSM-дерева. Данные в VDisk и локальных базах данных организованы в виде LSM-деревьев. Поэтому различают компакшн VDisk и таблеточный компакшн. Процесс компакшна обычно довольно ресурсоёмкий, поэтому принимаются меры по минимизации накладных расходов, связанных с ним, например, путём ограничения числа одновременно исполняемых компакшнов.

gRPC-прокси

gRPC-прокси или gRPC proxy — это прокси-система для внешних пользовательских запросов. Клиентские запросы поступают в систему по протоколу gRPC, затем компонент прокси переводит их во внутренние вызовы для выполнения этих запросов, передаваемых через интерконнект. Этот прокси предоставляет интерфейс как для запросов-ответов, так и для двунаправленной потоковой передачи данных.

Распредёленная конфигурация

Распределённая конфигурация, Distributed configuration или DistConf - это внутренний механизм конфигурации кластера, который обеспечивает запуск и настройку статических узлов, автоматическое управление статической группой хранения и State Storage. Распределённая конфигурация запускается до старта любых таблеток, групп хранения и State Storage.

Подробнее об устройстве распределённой конфигурации рассказано в Устройство механизма конфигурации V2.

Реализация распределённого хранилища

Распределённое хранилище — это распределённый отказоустойчивый слой хранения данных, который сохраняет бинарные записи, называемые LogoBlob, адресуемые с помощью определённого типа идентификатора, называемого LogoBlobID. Таким образом, распределённое хранилище является хранилищем ключ-значение, которое сопоставляет LogoBlobID строке размером до 10 МБ. Распределённое хранилище состоит из множества групп хранения, каждая из которых является независимым репозиторием данных.

Распределённое хранилище сохраняет неизменяемые данные, при этом каждый неизменяемый блок данных идентифицируется определённым ключом LogoBlobID. API распределённого хранилища очень специфичен, предназначен только для использования таблетками для хранения их данных и журналов изменений. Таким образом, оно не предназначено для хранения данных общего назначения. Данные в распределённом хранилище удаляются с помощью специальных команд барьера. Из-за отсутствия мутаций в его интерфейсе распределённое хранилище может быть реализовано без реализации распределённого консенсуса. Распределённое хранилище является лишь одним из компонентов, который таблетки используют для реализации распределённого консенсуса.

LogoBlob

LogoBlob — это набор двоичных неизменяемых данных, идентифицируемый LogoBlobID и хранящийся в распределённом хранилище. Размер блока данных ограничен на уровне VDisk и выше по стэку. В настоящее время максимальный размер блока данных, который могут обработать VDisk, составляет 10 МБ.

LogoBlobID

LogoBlobID — это идентификатор LogoBlob в распределённом хранилище. Он имеет структуру вида [TabletID, Generation, Step, Channel, Cookie, BlobSize, PartID]. Основные элементы LogoBlobID:

TabletID — это ID таблетки, которой принадлежит LogoBlob.
Generation — это поколение таблетки, в котором был записан блок данных.
Channel — это канал таблетки, на котором записан LogoBlob.
Step — это инкрементный счётчик, обычно в пределах поколения таблетки.
Cookie — это уникальный идентификатор блока данных в пределах одного Step. Cookie обычно используется при записи нескольких блоков данных в один Step.
BlobSize — это размер LogoBlob.
PartID — это идентификатор части блока данных. Он важен, когда оригинальный LogoBlob разбивается на части с использованием кодирования с исправлением ошибок, и части записываются на соответствующие VDisk и группы хранения.

Репликация

Репликация — это процесс, обеспечивающий наличие достаточного количества копий (реплик) данных для поддержания желаемых характеристик доступности кластера YDB. Обычно используется в геораспределённых кластерах YDB.

Кодирование с исправлением ошибок

Кодирование с исправлением ошибок или erasure coding — это метод кодирования данных, при котором исходные данные дополняются избыточностью и разделяются на несколько фрагментов, обеспечивая возможность восстановления исходных данных в случае потери одного или нескольких фрагментов. Он широко используется в кластерах YDB с одной зоной доступности в отличие от репликации с 3 репликами. Например, наиболее популярная схема erasure coding 4+2 обеспечивает ту же надёжность, что и три реплики, с избыточностью пространства 1.5 против 3.

PDisk

PDisk, physical disk или физический диск — это компонент, который контролирует физический дисковый накопитель (блочное устройство). Другими словами, PDisk — это подсистема, которая реализует абстракцию, аналогичную специализированной файловой системе поверх блочных устройств (или файлов, эмулирующих блочное устройство для целей тестирования). PDisk обеспечивает контроль целостности данных (включая кодирование с исправлением ошибок групп секторов для восстановления данных на отдельных повреждённых секторах, контроль целостности с помощью контрольных сумм), прозрачное шифрование всех данных на диске и транзакционные гарантии дисковых операций (подтверждение записи строго после fsync).

PDisk содержит планировщик, который обеспечивает совместное использование пропускной способности устройства между несколькими клиентами (VDisk). PDisk делит блочное устройство на блоки, называемые слотами (размером около 128 мегабайт; разрешены и меньшие блоки). В каждый момент времени не более одного VDisk может владеть каждым слотом. PDisk также поддерживает журнал восстановления, общий для записей службы PDisk и всех VDisk.

VDisk

VDisk, virtual disk или виртуальный диск — это компонент, который реализует хранение данных распределённого хранилища LogoBlob на PDisk. VDisk хранит все свои данные на PDisk. Один VDisk соответствует одному PDisk, но обычно несколько VDisk связаны с одним PDisk. В отличие от PDisk, который скрывает блоки и журналы за собой, VDisk предоставляет интерфейс на уровне LogoBlob и LogoBlobID, например запись LogoBlob, чтение данных LogoBlobID и удаление набора LogoBlob с помощью специальной команды. VDisk является членом группы хранения. Сам VDisk является локальным, но многие VDisk в данной группе обеспечивают надёжное хранение данных. VDisk в группе синхронизируют данные друг с другом и реплицируют данные в случае потерь. Набор VDisk в группе хранения образует распределённый RAID.

Yard

Yard — это название API PDisk. Он позволяет VDisk читать и записывать данные в блоки и журналы, резервировать блоки, удалять блоки и транзакционно получать и возвращать владение блоками. В некоторых контекстах Yard можно считать синонимом PDisk.

Skeleton

Skeleton — это актор, который предоставляет интерфейс к VDisk.

SkeletonFront

SkeletonFront — это прокси-актор для Skeleton, который контролирует поток сообщений, поступающих в Skeleton.

Прокси

Прокси распределённого хранилища, DS-прокси, BS-прокси, distributed storage proxy, DS-proxy или BS-proxy выполняет роль клиентской библиотеки для выполнения операций с распределённым хранилищем. Пользователями DS-прокси являются таблетки, которые записывают и читают из распределённого хранилища. DS-прокси скрывает распределённую природу распределённого хранилища от пользователя. Задача DS-прокси — запись в кворум VDisk, выполнение повторных попыток при необходимости и контроль потока записи/чтения для предотвращения перегрузки VDisk.

Технически DS-прокси реализован как акторный сервис, запускаемый node warden на каждом узле для каждой группы хранения, обрабатывающий все запросы к группе (запись, чтение и удаление LogoBlob, блокировка группы). При записи данных DS-прокси выполняет кодирование с исправлением ошибок данных, разделяя LogoBlob на части, которые затем отправляются соответствующим VDisk. DS-прокси выполняет обратный процесс при чтении, получая части от VDisk и восстанавливая из них LogoBlob.

Node warden

Node warden или BS_NODE — это сервис акторов на каждом узле кластера, запускающий PDisks, VDisks и DS прокси статических групп хранения при запуске узла. Также он взаимодействует с DS контроллером для запуска PDisk, VDisk и DS прокси динамических групп. DS прокси динамических групп запускается по запросу: node warden обрабатывает «недоставленные» сообщения к DS прокси, запускает соответствующие DS прокси и получает конфигурацию групп от DS контроллера.

Область отказа

Область отказа или fail realm — это набор доменов отказа, которые могут выйти из строя одновременно по общей причине. Коррелированный сбой двух VDisks в одной и той же области отказа более вероятен, чем сбой двух VDisk из разных областей отказа.

Примером области отказа является набор оборудования, размещённый в одном дата-центре, или зоне доступности, который может выйти из строя целиком вследствие природной катастрофы, масштабного отключения электропитания или другого подобного события.

Домен отказа

Домен отказа или fail domain — это набор оборудования, который может выйти из строя одновременно. Коррелированный сбой двух VDisk в пределах одного домена отказа более вероятен, чем сбой двух VDisk из разных доменов отказа. В случае разных доменов отказа вероятность одновременного сбоя также зависит от того, принадлежат ли рассматриваемые домены одной области отказа или разным.

Примером домена отказа является набор дисков, подключённых к одному серверу, поскольку все диски конкретного сервера могут оказаться недоступными при отказе блока питания сервера или сетевого контроллера. Обычно к общему домену отказа относят все серверы, размещённые в одной серверной стойке, поскольку проблемы с электропитанием или сетевыми подключениями на уровне стойки приводят к недоступности всего размещаемого в ней оборудования. Таким образом, типичный домен отказа соответствует серверной стойке (если cluster настроен с учётом топологии размещения оборудования в стойках) или отдельному серверу.

Сбои уровня домена отказа автоматически обрабатываются YDB без остановки кластера.

Канал распределённого хранилища

Канал распределённого хранилища, канал, distributed storage channel, DS channel или channel — это логическое соединение между таблеткой и группой распределённого хранилища. Таблетка может записывать данные в различные каналы, и каждый канал отображается на определённую группу хранения. Наличие нескольких каналов позволяет таблетке:

Записывать больше данных, чем может содержать одна группа хранения.
Хранить различные LogoBlob в различных группах хранения, с различными свойствами, такими как кодирование с исправлением ошибок или на различных носителях (HDD, SSD, NVMe).

Реализация распределённых транзакций

Ниже объяснены термины, связанные с реализацией распределённых транзакций. Сама реализация описана в отдельной статье DataShard: распределённые транзакции.

Детерминированные транзакции

Распределённые транзакции YDB вдохновлены исследовательской работой Building Deterministic Transaction Processing Systems without Deterministic Thread Scheduling Александра Томсона и Дэниела Дж. Абади из Йельского университета. В статье введено понятие детерминированной транзакционной обработки или deterministic transaction processing, которое позволяет эффективно обрабатывать распределённые транзакции. Оригинальная статья накладывала ограничения на виды операций, которые могут выполняться таким образом. Поскольку эти ограничения мешали реальным пользовательским сценариям, YDB развила свои алгоритмы для их выполнения, используя детерминированные транзакции в качестве этапов выполнения пользовательских транзакций с дополнительной оркестрацией и блокировками.

Оптимистичные блокировки

Как и во многих других системах управления базами данных, запросы YDB могут накладывать блокировки на определённые фрагменты данных, такие как строки таблиц, чтобы гарантировать, что параллельные изменения не приведут их в несогласованное состояние. Однако YDB проверяет эти блокировки не в начале транзакций, а при попытках их коммита (фиксации). Первый подход называется пессимистичными блокировками или perssimistic locking (например, используется в PostgreSQL), а второй — оптимистичными блокировками или optimistic locking (используется в YDB).

Инвалидация блокировок транзакций

Инвалидация блокировок транзакций (Transaction Lock Invalidation, TLI) — штатное поведение YDB при конфликте параллельных транзакций в рамках оптимистичных блокировок. Если одна транзакция (нарушитель) записывает данные и тем самым ломает блокировки другой транзакции (жертвы), YDB обнаруживает это при коммите жертвы и откатывает её с ошибкой transaction locks invalidated. Подробнее о диагностике TLI см. в Инвалидация блокировок транзакций.

Этап подготовки

Этап подготовки — это фаза транзакции, во время которой тело транзакции регистрируется на всех участвующих шардах.

Этап выполнения

Этап выполнения — это фаза транзакции, в ходе которой запланированная транзакция исполняется и генерируется ответ.

В некоторых случаях, вместо подготовки и выполнения, транзакция немедленно выполняется и генерируется ответ. Например, это происходит для транзакций, затрагивающих только один шард или для согласованных чтений из снимка данных (snapshot).

Грязные операции

В случае только для чтения транзакций, аналогично "read uncommitted" в других системах управления базами данных, может потребоваться чтение данных, которые ещё не были зафиксированы на диске. Это называется грязными операциями или dirty operations.

Набор чтения-записи

Набор чтения-записи, RW-набор, read-write set или RW-set — это набор данных, который будет участвовать в выполнении распределённой транзакции. Он объединяет данные набора чтения, которые будут считываться, и набор записи, для которого будут выполняться модификации.

Набор чтения

Набор чтения, ReadSet данные, read set или ReadSet data — это то, что пересылают участвующие шарды во время выполнения транзакции. В случае транзакций с данными он может содержать информацию о состоянии оптимистичных блокировок, готовности шарда к коммиту или решение отменить транзакцию.

Транзакционные прокси

Транзакционные прокси, transaction proxy или TX_PROXY — это сервис, который оркестрирует выполнение многих распределённых транзакций: последовательные фазы, выполнение фаз, планирование и агрегацию результатов. В случае прямой оркестрации другими акторами (например, QP data transactions), он используется для кэширования и выделения уникальных TxID.

Флаги транзакции

Флаги транзакции, transaction flags или TxFlags — это битовая маска флагов, которые каким-то образом изменяют выполнение транзакции.

Идентификатор транзакции

Идентификатор транзакции или TxID — это уникальный идентификатор, назначаемый каждой транзакции при её принятии YDB.

Идентификатор порядка транзакции

Идентификатор порядка транзакции или transaction order id — это уникальный идентификатор, назначаемый каждой транзакции во время планирования. Он состоит из PlanStep и Transaction ID.

Планируемый шаг

Планируемый шаг, шаг, PlanStep или Step — это логическое время, на которое запланировано выполнение набора транзакций.

Время медиатора

Во время выполнения распределённых транзакций, время медиатора, медиаторное время или mediator time — это логическое время, до которого (включительно) шард-участник должен знать весь план выполнения. Оно используется для продвижения времени при отсутствии транзакций на конкретном шарде, чтобы определить, может ли он читать из снимка (snapshot).

MiniKQL

MiniKQL — это язык, который позволяет выразить одну детерминированную транзакцию в системе. Это функциональный, строго типизированный язык. Концептуально язык описывает граф чтения из базы данных, выполнения вычислений над прочитанными данными и записи результатов в базу данных и/или в специальный документ, представляющий результат запроса (для показа пользователю). Транзакция MiniKQL должна явно задавать свой набор чтения (читаемые данные) и предполагать детерминированный выбор ветвей выполнения (например, отсутствует случайность).

MiniKQL — это язык низкого уровня. Конечные пользователи системы видят только запросы на языке YQL, который опирается на MiniKQL в своей реализации.

Query Processor

Query Processor или QP (ранее KQP) — это компонент YDB, отвечающий за оркестрацию выполнения пользовательских запросов и генерацию окончательного ответа.

Глобальная схема

Глобальная схема, схема базы данных, global scheme, global schema или database schema — это схема всех данных, хранящихся в базе данных. Она состоит из таблиц и других сущностей, таких как топики. Метаданные об этих сущностях называются глобальной схемой. Термин используется в противоположность локальной схеме или local schema, которая относится к схеме данных внутри таблетки. Пользователи YDB никогда не видят локальную схему и работают только с глобальной схемой.

KiKiMR

KiKiMR — это устаревшее название YDB, использовавшееся до того, как он стал продуктом с открытым исходным кодом (open source). Оно всё ещё может встречаться в исходном коде, старых статьях и видео и т.д.

Была ли статья полезна?

Концепции

Обзор