GROUP BY

Группирует результаты SELECT по значениям указанных столбцов или выражений. Вместе с GROUP BY часто применяются агрегатные функции (COUNT, MAX, MIN, SUM, AVG) для выполнения вычислений в каждой группе.

Если GROUP BY присутствует в запросе, то при выборке столбцов (между SELECT ... FROM) допустимы следующие конструкции:

Столбцы, по которым производится группировка (присутствующие в аргументе GROUP BY).
Агрегатные функции (см. следующий раздел). Столбцы, по которым не идёт группировка, можно включать только в качестве аргументов агрегатной функции.
Функции, выдающие начальное и конечное время текущего окна (HOP_START и HOP_END) (для GROUP BY HOP).
Произвольные вычисления, комбинирующие пункты 1-3.

Имеется возможность выполнять группировку по результату вычисления произвольного выражения от исходных столбцов. В этом случае для получения доступа к результату этого выражения рекомендуется присваивать ему имя с помощью AS, см. второй пример.

Синтаксис

SELECT                             -- В SELECT можно использовать:
    column1,                       -- ключевые колонки, заданные в GROUP BY
    key_n,                         -- именованные выражения, заданные в GROUP BY
    column1 + key_n,               -- произвольные неагрегатные функции от них
    Aggr_Func1( column2 ),         -- агрегатные функции, содержащие в аргументах любые колонки,
    Aggr_Func2( key_n + column2 ), --   включая именованные выражения, заданные в GROUP BY
    ...
FROM table
GROUP BY
    column1, column2, ...,
    <expr> AS key_n           -- При группировке по выражению ему может быть задано имя через AS,
                              -- которое может быть использовано в SELECT

Запрос вида SELECT * FROM table GROUP BY k1, k2, ... вернет все колонки, перечисленные в GROUP BY, то есть эквивалентен запросу SELECT DISTINCT k1, k2, ... FROM table.

Звездочка может также применяться в качестве аргумента агрегатной функции COUNT. COUNT(*) означает "число строк в группе".

Примечание

Агрегатные функции не учитывают NULL в своих аргументах, за исключением функции COUNT.

Также в YQL доступен механизм фабрик агрегатных функций, реализованный с помощью функций AGGREGATION_FACTORY и AGGREGATE_BY.

Примеры

SELECT key, COUNT(*) FROM my_table
GROUP BY key;

SELECT double_key, COUNT(*) FROM my_table
GROUP BY key + key AS double_key;

SELECT
   double_key,                           -- ОК: ключевая колонка
   COUNT(*) AS group_size,               -- OK: COUNT(*)
   SUM(key + subkey) AS sum1,            -- ОК: агрегатная функция
   CAST(SUM(1 + 2) AS String) AS sum2,   -- ОК: агрегатная функция с константным аргументом
   SUM(SUM(1) + key) AS sum3,            -- ОШИБКА: вложенные агрегации не допускаются
   key AS k1,                            -- ОШИБКА: использование неключевой колонки key без агрегации
   key * 2 AS dk1,                       -- ОШИБКА в YQL: использование неключевой колонки key без агрегации
FROM my_table
GROUP BY
  key * 2 AS double_key,
  subkey as sk,

Важно

Возможность указывать имя для колонки или выражения в GROUP BY .. AS foo является расширением YQL. Такое имя становится видимым в WHERE несмотря на то, что фильтрация по WHERE выполняется раньше группировки. В частности, если в таблице T есть две колонки foo и bar, то в запросе SELECT foo FROM T WHERE foo > 0 GROUP BY bar AS foo фильтрация фактически произойдет по колонке bar из исходной таблицы.

GROUP BY ... SessionWindow()

В YQL поддерживаются группировки по сессиям. К обычным выражениям в GROUP BY можно добавить специальную функцию SessionWindow:

SELECT
  user,
  session_start,
  SessionStart() AS same_session_start, -- то же что и session_start
  COUNT(*) AS session_size,
  SUM(value) AS sum_over_session,
FROM my_table
GROUP BY user, SessionWindow(<time_expr>, <timeout_expr>) AS session_start

При этом происходит следующее:

Входная таблица партиционируется по ключам группировки, указанным в GROUP BY, без учета SessionWindow (в данном случае по user). Если кроме SessionWindow в GROUP BY ничего нет, то входная таблица попадает в одну партицию
Каждая партиция делится на непересекающие подмножества строк (сессии). Для этого партиция сортируется по возрастанию значения выражения time_expr. Границы сессий проводятся между соседними элементами партиции, разница значений time_expr для которых превышает timeout_expr
Полученные таким образом сессии и являются финальными партициями, на которых вычисляются агрегатные функции.

Ключевая колонка SessionWindow() (в примере session_start) имеет значение "минимальный time_expr в сессии".
Кроме того, при наличии SessionWindow() в GROUP BY может использоваться специальная агрегатная функция
SessionStart.

Поддерживается также расширенный вариант SessionWindow с четырьмя аргументами:

SessionWindow(<order_expr>, <init_lambda>, <update_lambda>, <calculate_lambda>)

Здесь:

<order_expr> – выражение по которому сортируется исходная партиция
<init_lambda> – лямбда-функция для инициализации состояния расчета сессий. Имеет сигнатуру (TableRow())->State. Вызывается один раз на первом (по порядку сортировки) элементе исходной партиции
<update_lambda> – лямбда-функция для обновления состояния расчета сессий и определения границ сессий. Имеет сигнатуру (TableRow(), State)->Tuple<Bool, State>. Вызывается на каждом элементе исходной партиции, кроме первого. Новое значения состояния вычисляется на основе текущей строки таблицы и предыдущего состояния. Если первый элемент возвращенного кортежа имеет значение True, то с текущей строки начнется новая сессия. Ключ новой сессии получается путем применения <calculate_lambda> ко второму элементу кортежа.
<calculate_lambda> – лямбда-функция для вычисления ключа сессии ("значения" SessionWindow(), которое также доступно через SessionStart()). Функция имеет сигнатуру (TableRow(), State)->SessionKey. Вызывается на первом элемента партиции (после <init_lambda>) и на тех элементах, для которых <update_lambda> вернула True в качестве первого элемента кортежа. Стоит отметить, что для начала новой сессии необходимо, чтобы <calculate_lambda> вернула значение, которое отличается от предыдущего ключа сессии. При этом сессии с одинаковыми ключами не объединяются. Например, если <calculate_lambda> последовательно возвращает 0, 1, 0, 1, то это будут четыре различные сессии.

С помощью расширенного варианта SessionWindow можно решить, например, такую задачу: разделить партицию на сессии как в варианте SessionWindow с двумя аргументами, но с ограничением максимальной длины сессии некоторой константой:

Пример

$max_len = 1000; -- максимальная длина сессии
$timeout = 100; -- таймаут (timeout_expr в упрощенном варианте SessionWindow)

$init = ($row) -> (AsTuple($row.ts, $row.ts)); -- состояние сессии - тапл из 1) значения временной колонки ts на первой строчке сессии и 2) на текущей строчке
$update = ($row, $state) -> {
  $is_end_session = $row.ts - $state.0 > $max_len OR $row.ts - $state.1 > $timeout;
  $new_state = AsTuple(IF($is_end_session, $row.ts, $state.0), $row.ts);
  return AsTuple($is_end_session, $new_state);
};
$calculate = ($row, $state) -> ($row.ts);
SELECT
  user,
  session_start,
  SessionStart() AS same_session_start, -- то же что и session_start
  COUNT(*) AS session_size,
  SUM(value) AS sum_over_session,
FROM my_table
GROUP BY user, SessionWindow(ts, $init, $update, $calculate) AS session_start

SessionWindow может использоваться в GROUP BY только один раз.

ROLLUP, CUBE и GROUPING SETS

Результаты вычисления агрегатной функции в виде промежуточных итогов для групп и общих итогов для отдельных столбцов или всей таблицы.

Синтаксис

SELECT
    c1, c2,                          -- столбцы, по которым производится группировка

AGGREGATE_FUNCTION(c3) AS outcome_c  -- агрегатная функция (SUM, AVG, MIN, MAX, COUNT)

FROM table_name

GROUP BY
    GROUP_BY_EXTENSION(c1, c2)       -- расширение GROUP BY: ROLLUP, CUBE или GROUPING SETS

ROLLUP — группирует значения столбцов в порядке их перечисления в аргументах (строго слева направо), формирует промежуточные итоги для каждой группы и общий итог.
CUBE — группирует значения для всех возможных комбинаций столбцов, формирует промежуточные итоги для каждой группы и общий итог.
GROUPING SETS — задает группы для промежуточных итогов.

ROLLUP, CUBE и GROUPING SETS можно комбинировать через запятую.

GROUPING

В промежуточном итоге значения столбцов, которые не участвуют в вычислениях, заменяются на NULL. В общем итоге на NULL заменяются значения всех столбцов. GROUPING — функция, которая позволяет отличить исходные значения NULL от NULL, которые были добавлены при формировании общих и промежуточных итогов.

GROUPING возвращает битовую маску:

0 — NULL для исходного пустого значения.
1 — NULL, добавленный для промежуточного или общего итога.

Пример

SELECT
    column1,
    column2,
    column3,

    CASE GROUPING(
        column1,
        column2,
        column3,
    )
        WHEN 1  THEN "Subtotal: column1 and column2"
        WHEN 3  THEN "Subtotal: column1"
        WHEN 4  THEN "Subtotal: column2 and column3"
        WHEN 6  THEN "Subtotal: column3"
        WHEN 7  THEN "Grand total"
        ELSE         "Individual group"
    END AS subtotal,

    COUNT(*) AS rows_count

FROM my_table

GROUP BY
    ROLLUP(
        column1,
        column2,
        column3
    ),
    GROUPING SETS(
        (column2, column3),
        (column3)
        -- если добавить сюда ещё (column2), то в сумме
        -- эти ROLLUP и GROUPING SETS дали бы результат,
        -- аналогичный CUBE
    )
;

DISTINCT

Применение агрегатных функций только к уникальным значениям столбца.

Примечание

Применение DISTINCT к вычислимым значениям на данный момент не реализовано. С этой целью можно использовать подзапрос или выражение GROUP BY ... AS ....

Пример

SELECT
  key,
  COUNT(DISTINCT value) AS count -- топ-3 ключей по количеству уникальных значений
FROM my_table
GROUP BY key
ORDER BY count DESC
LIMIT 3;

Также ключевое слово DISTINCT может использоваться для выборки уникальных строк через SELECT DISTINCT.

COMPACT

Наличие SQL хинта COMPACT непосредственно после ключевого слова GROUP позволяет более эффективно выполнять агрегацию в тех случаях, когда автору запроса заранее известно, что ни по одному из ключей агрегации не найдется большого количества данных (порядка гигабайта или миллиона строк). Если это предположение не оправдается, то операция может упасть с ошибкой Out of Memory или начать работать значительно медленнее по сравнению с обычным GROUP BY.

В отличие от обычного GROUP BY, отключается стадия Map-side combiner и дополнительные Reduce для каждого поля с DISTINCT агрегацией.

Пример

SELECT
  key,
  COUNT(DISTINCT value) AS count -- топ-3 ключей по количеству уникальных значений
FROM my_table
GROUP /*+ COMPACT() */ BY key
ORDER BY count DESC
LIMIT 3;

GROUP BY ... HOP

HOP группирует данные по перекрывающимся временным окнам (hopping windows). Поддерживается как в аналитических запросах к таблицам, так и в потоковых запросах к топикам.

HOP(time_extractor, hop, interval, delay)

Где:

time_extractor — SQL выражение типа Timestamp, определяющее время события. Из каждой входной строки вычисляется временная метка, по которой определяется принадлежность к окнам.
hop — шаг между началами соседних окон в формате ISO 8601, например "PT10S" (10 секунд).
interval — размер (длительность) каждого окна в формате ISO 8601, например "PT30S" (30 секунд).
delay — задержка закрытия окна после его завершения в формате ISO 8601. Используется только в потоковых запросах (при работе с таблицами игнорируется). Для потоковых запросов рекомендуется использовать HoppingWindow с watermarks вместо delay.

Также доступны агрегатные функции HOP_START() и HOP_END(), которые возвращают временную метку начала и конца текущего окна типа Timestamp соответственно.

Описание

Разберём алгоритм на примере.

GROUP BY HOP(CAST(ts AS Timestamp), "PT10S", "PT30S", "PT20S")

В этом примере CAST(ts AS Timestamp) извлекает время события из столбца ts. Параметр hop равен 10 секундам, interval равен 30 секундам, delay равен 20 секундам.

Окна строятся по следующему правилу:

Начала окон выравниваются по моментам, кратным hop (10 секунд), начиная с 0: 0, 10, 20 и так далее.
Длительность каждого окна равна interval (30 секунд). Получаются окна: [0; 30), [10; 40), [20; 50) и так далее.
Событие попадает во все окна, временной диапазон которых включает его время. Например, событие с временем 25 секунд попадает в окна [0; 30), [10; 40) и [20; 50).
Окно считается завершённым при получении события с временной меткой не меньше, чем конец этого окна + delay (20 секунд). Например, окно [10; 40) закрывается при получении события с меткой 60 и более.

Аналитический `HOP`поверх таблицы

При работе с таблицами данные группируются по ключам GROUP BY (без учёта HOP), образуя группы строк (далее группы). Внутри каждой группы:

Строки сортируются по возрастанию time_extractor.
Каждая строка назначается в одно или несколько перекрывающихся окон.
На каждом окне вычисляются заданные агрегатные функции.

Параметр delay при аналитической обработке таблицы не используется: данные уже доступны целиком, порядок обхода задаётся сортировкой по time_extractor, а завершение окна определяется алгоритмом полного прохода по группе (см. правило закрытия в описании выше).

Потоковый `HOP`поверх топика

При работе с топиками данные группируются по ключам GROUP BY (без учёта HOP), образуя группы. Внутри каждой группы:

События обрабатываются в порядке, близком к возрастанию time_extractor. Допускаются небольшие отклонения от строгого порядка.
Каждое событие назначается в одно или несколько перекрывающихся окон.
На каждом окне вычисляются заданные агрегатные функции.

В потоковых запросах события могут приходить не в строгом хронологическом порядке. Параметр delay задаёт время ожидания после формального завершения окна: окно закрывается не сразу, а через delay секунд, чтобы дать задержавшимся событиям время на поступление. События, поступившие после закрытия окна, игнорируются.

Ограничения

time_extractor — это SQL выражение, зависящее только от входных значений столбцов, должно иметь тип Timestamp.

Для задания hop, interval и delay используется строковое выражение, соответствующее стандарту ISO 8601, например, PT10S — 10 секунд, PT1M — 1 минута. Это формат, который используется для конструирования встроенного типа Interval из строки.

Значения параметров interval и delay должны делиться на значение параметра hop. Это требование обеспечивает выравнивание границ окон: каждое окно начинается в момент, кратный hop, и заканчивается ровно через interval, что гарантирует равномерное покрытие временной оси без пропусков. Параметры hop и interval должны быть положительными.

Примеры

SELECT
    sensor_id,
    HOP_END() AS window_end,
    AVG(temperature) AS avg_temp,
    COUNT(*) AS event_count
FROM sensor_data
GROUP BY
    sensor_id,
    HOP(CAST(event_time AS Timestamp), "PT10S", "PT1M", "PT30S");

GROUP BY ... HoppingWindow

HoppingWindow группирует события по перекрывающимся временным окнам (hopping windows), аналогично GROUP BY HOP. Поддерживается как в аналитических запросах к таблицам, так и в потоковых запросах к топикам. Основное отличие от HOP: в потоковых запросах HoppingWindow использует механизм watermarks для определения момента закрытия окна вместо фиксированного параметра delay.

HoppingWindow(time_extractor, hop, interval)

Где:

time_extractor — SQL выражение типа Timestamp, определяющее время события. Должно зависеть только от входных столбцов.
hop — шаг (период сдвига) между началами соседних окон в формате ISO 8601, например "PT10S" (10 секунд).
interval — размер (длительность) каждого окна в формате ISO 8601, например "PT1M" (1 минута). Значение interval должно делиться на hop, так как окна выравниваются по кратным интервалам шага.

Также доступны функции HOP_START() и HOP_END(), возвращающие временные метки начала и конца текущего окна.

Алгоритм построения окон совпадает с GROUP BY HOP: окна начинаются в моменты, кратные hop, и имеют длительность interval. Событие попадает во все окна, временной диапазон которых включает его время.

Аналитический `HoppingWindow`поверх таблицы

При работе с таблицами HoppingWindow выполняет группировку по временным окнам аналогично HOP, но без параметра delay, который при аналитическом использовании всегда игнорировался (данные в таблице уже отсортированы).

Входная таблица партиционируется по ключам группировки, указанным в GROUP BY, без учёта HoppingWindow.
Каждая партиция сортируется по возрастанию time_extractor.
Каждая партиция делится на перекрывающиеся подмножества событий (окна).
На каждом подмножестве вычисляются заданные агрегатные функции.

Потоковый `HoppingWindow`поверх топика

При работе с топиками HoppingWindow использует watermarks для определения момента закрытия окна. Окно закрывается, когда значение watermark не меньше конца окна. Это обеспечивает более точные результаты агрегации по сравнению с HOP, где окно закрывается по фиксированному delay.

Входной топик партиционируется по ключам группировки, указанным в GROUP BY, без учёта HoppingWindow.
В каждой партиции окно продвигается независимо от других.
События обрабатываются в порядке, близком к возрастанию time_extractor. Допускаются небольшие перестановки порядка входного потока.
Каждая партиция делится на перекрывающиеся подмножества событий (окна).
Окно закрывается при получении watermark, значение которого не меньше конца окна. После закрытия результат агрегации выдаётся.
События, поступившие после закрытия окна, не учитываются в результатах.

Для корректной работы HoppingWindow в потоковом режиме необходимо настроить watermark в секции WITH источника. Подробнее: Настройка.

Пример

Ниже — потоковое чтение из топика: в SELECT удобно выводить конец окна через HOP_END(). Для таблиц в аналитическом запросе чаще используют HOP_START() или HOP_END() в зависимости от того, какую границу окна нужно показать в результате; смысл окон при этом тот же, отличается только выбираемая метка.

SELECT
    key,
    HOP_END() AS window_end,
    COUNT(*) AS event_count
FROM
    my_topic
WITH (
    FORMAT = json_each_row,
    SCHEMA = (
        key String,
        event_time String
    ),
    WATERMARK = __ydb_write_time - Interval("PT5S")
)
GROUP BY
    key,
    HoppingWindow(__ydb_write_time, "PT10S", "PT1M");

HAVING

Фильтрация выборки SELECT по результатам вычисления агрегатных функций. Синтаксис аналогичен конструкции WHERE.

Пример

SELECT
    key
FROM my_table
GROUP BY key
HAVING COUNT(value) > 100;

Была ли статья полезна?

FLATTEN

JOIN

GROUP BY

Синтаксис

Примеры

GROUP BY ... SessionWindow()

Пример

ROLLUP, CUBE и GROUPING SETS

Синтаксис

GROUPING

Пример

DISTINCT

Пример

COMPACT

Пример

GROUP BY ... HOP

Описание

Аналитический HOPповерх таблицы

Потоковый HOPповерх топика

Ограничения

Примеры

GROUP BY ... HoppingWindow

Аналитический HoppingWindowповерх таблицы

Потоковый HoppingWindowповерх топика

Пример

HAVING

Пример

Была ли статья полезна?

Аналитический `HOP`поверх таблицы

Потоковый `HOP`поверх топика

Аналитический `HoppingWindow`поверх таблицы

Потоковый `HoppingWindow`поверх топика