Netflix Movies and TV Shows

Примечание

Эта страница является частью раздела Импорт датасетов, где описаны примеры загрузки популярных наборов данных в YDB. Перед началом работы ознакомьтесь с общей информацией о требованиях и процессе импорта.

Данные о фильмах и сериалах на платформе Netflix.

Источник: Kaggle - Netflix Movies and TV Shows

Размер: 3.4 MB

Пример загрузки

  1. Скачайте и разархивируйте файл netflix_titles.csv с Kaggle

  2. Создайте таблицу в YDB одним из следующих способов:

Подробнее про Embedded UI.

CREATE TABLE `netflix` (
    `show_id` Text NOT NULL,
    `type` Text NOT NULL,
    `title` Text NOT NULL,
    `director` Text NOT NULL,
    `cast` Text,
    `country` Text NOT NULL,
    `date_added` Text NOT NULL,
    `release_year` Uint64 NOT NULL,
    `rating` Text NOT NULL,
    `duration` Text NOT NULL,
    `listed_in` Text NOT NULL,
    `description` Text NOT NULL,
    PRIMARY KEY (`show_id`)
)
WITH (
    STORE = COLUMN
);
ydb sql -s \
'CREATE TABLE `netflix` (
    `show_id` Text NOT NULL,
    `type` Text NOT NULL,
    `title` Text NOT NULL,
    `director` Text NOT NULL,
    `cast` Text,
    `country` Text NOT NULL,
    `date_added` Text NOT NULL,
    `release_year` Uint64 NOT NULL,
    `rating` Text NOT NULL,
    `duration` Text NOT NULL,
    `listed_in` Text NOT NULL,
    `description` Text NOT NULL,
    PRIMARY KEY (`show_id`)
)
WITH (
    STORE = COLUMN
);'
  1. Выполните команду импорта:
ydb import file csv --header --null-value "" --path netflix netflix_titles.csv

Пример аналитического запроса

Определим три страны, из которых было добавлено больше всего контента на Netflix в 2020 году:

SELECT
    country,
    COUNT(*) AS count
FROM netflix
WHERE
    CAST(SUBSTRING(CAST(date_added AS String), 7, 4) AS Int32) = 2020
    AND date_added IS NOT NULL
GROUP BY country
ORDER BY count DESC
LIMIT 3;
ydb sql -s \
'SELECT
    country,
    COUNT(*) AS count
FROM netflix
WHERE
    CAST(SUBSTRING(CAST(date_added AS String), 7, 4) AS Int32) = 2020
    AND date_added IS NOT NULL
GROUP BY country
ORDER BY count DESC
LIMIT 3;'

Результат:

┌─────────────────┬───────┐
│ country         │ count │
├─────────────────┼───────┤
│ "United States" │ 22    │
├─────────────────┼───────┤
│ ""              │ 7     │
├─────────────────┼───────┤
│ "Canada"        │ 3     │
└─────────────────┴───────┘