Initial commit

shnikd · shnikd · commit a6fb589bc653 · 2025-06-05T22:37:14.000+03:00
diff --git a/ydb/docs/en/core/yql/reference/types/index.md b/ydb/docs/en/core/yql/reference/types/index.md
@@ -3,6 +3,7 @@
 This section contains articles on YQL data types:
 
 - [Simple/Primitive types](primitive.md)
+{% if feature_serial %}- [Serial types](serial.md){% endif %}
 - [Optional types](optional.md)
 - [Containers](containers.md)
 - [Special types](special.md)
diff --git a/ydb/docs/en/core/yql/reference/types/serial.md b/ydb/docs/en/core/yql/reference/types/serial.md
@@ -0,0 +1,86 @@
+# Serial Types
+
+Serial types are integer types with an associated value-generation mechanism. These types are used to create auto-increment columns: for each new row inserted into a table, a unique value for this column is generated automatically (similar to the [SERIAL](https://www.postgresql.org/docs/current/datatype-numeric.html#DATATYPE-SERIAL) type in PostgreSQL or the [AUTO_INCREMENT](https://dev.mysql.com/doc/refman/9.0/en/example-auto-increment.html) property in MySQL).
+
+## Description
+
+When a column of a serial type is defined, a separate schema object called a `Sequence` is created and bound to this column. This object is a private sequence generator and is hidden from the user. The `Sequence` will be destroyed together with the table.
+
+Values generated by the sequence start from one, are incremented by one with each new value, and are limited according to the chosen type.
+
+> **Note:**
+> Serial columns are supported both for columns included in the primary key and for non-key columns.
+>
+> However, such columns cannot be [altered](../syntax/alter_table/family#mod-column-groups) or [dropped](../syntax/alter_table/columns.md) from the table —
+> attempting to perform these operations will result in an error.
+
+| Type        | Maximum Value         | YDB Type |
+|-------------|----------------------|----------|
+| SmallSerial | 2^15–1                | Int16    |
+| Serial2     | 2^15–1                | Int16    |
+| Serial      | 2^31–1                | Int32    |
+| Serial4     | 2^31–1                | Int32    |
+| Serial8     | 2^63–1                | Int64    |
+| BigSerial   | 2^63–1                | Int64    |
+
+If the sequence reaches its maximum value, insertion will result in an error:
+
+```text
+Error: Failed to get next val for sequence: /dev/test/users/_serial_column_user_id, status: SCHEME_ERROR
+    <main>: Error: sequence [OwnerId: <some>, LocalPathId: <some>] doesn't have any more values available, code: 200503
+```
+
+**Note:** The next value is allocated by the generator before the actual insertion into the table and is considered used even if the row is not successfully inserted (for example, in case of transaction rollback).
+As a result, the values in such a column may have gaps and may not form a continuous sequence.
+
+Tables with `Serial` columns support [copy](../../../reference/ydb-cli/tools-copy.md), [rename](../../../reference/ydb-cli/commands/tools/rename.md), [dump](../../../reference/ydb-cli/export-import/tools-dump.md), [restore](../../../reference/ydb-cli/export-import/import-file.md), and [import](../../../reference/ydb-cli/export-import/import-s3.md)/[export](../../../reference/ydb-cli/export-import/export-s3.md) operations.
+
+## Usage Example
+
+You should carefully choose the columns for your [PRIMARY KEY](../../../dev/primary-key/row-oriented.md). For scalability and high performance, you should avoid writing rows with monotonically increasing primary keys. In this case, all records will go to the last partition, and all the load will target a single server.
+
+As a recommended approach, use a hash (for example, from the whole or a part of the primary key) as the first key element, which will help evenly distribute data across cluster partitions.
+
+```yql
+CREATE TABLE users (
+    user_hash Uint64,
+    user_id Serial,
+    name Utf8,
+    email Utf8,
+    PRIMARY KEY (user_hash, user_id)
+);
+
+The `user_hash` field can be calculated on the application side, for example, by applying a hash function to the `email`.
+
+``` yql
+UPSERT INTO users (user_hash, name, email) VALUES (123456789, 'Alice', 'alice@example.com');
+INSERT INTO users (user_hash, name, email) VALUES (987654321, 'Bob', 'bob@example.com');
+REPLACE INTO users (user_hash, name, email) VALUES (111111111, 'John', 'john@example.com');
+```
+
+Result (example `user_hash` values are used):
+
+| user_hash   | email               | name  | user_id |
+|-------------|---------------------|-------|---------|
+| 123456789   | alice@example.com   | Alice | 1       |
+| 987654321   | bob@example.com     | Bob   | 2       |
+| 111111111   | john@example.com    | John  | 3       |
+
+You can also explicitly specify a value for the `Serial` column during insertion, for example, when restoring data. In this case, the insertion will work like with a regular integer column, and the `Sequence` will not be affected:
+
+``` yql
+UPSERT INTO users (user_hash, user_id, name, email) VALUES (222222222, 10, 'Peter', 'peter@example.com');
+```
+
+### Suboptimal Schema Example
+
+```yql
+CREATE TABLE users_bad (
+    user_id Serial,
+    name Utf8,
+    email Utf8,
+    PRIMARY KEY (user_id)
+);
+```
+
+In this example, the auto-increment column is the first and only element of the primary key. This leads to an uneven load and a bottleneck on the last partition.
diff --git a/ydb/docs/en/core/yql/reference/types/toc_i.yaml b/ydb/docs/en/core/yql/reference/types/toc_i.yaml
@@ -3,6 +3,9 @@ items:
   href: index.md
 - name: Simple
   href: primitive.md
+- name: Serial
+  href: serial.md
+  when: feature_serial
 - name: Optional
   href: optional.md
 - name: Containers
diff --git a/ydb/docs/ru/core/yql/reference/types/serial.md b/ydb/docs/ru/core/yql/reference/types/serial.md
@@ -1,66 +1,92 @@
 
 # Серийные типы данных
 
-Серийные типы данных представляют собой целые числа, но с дополнительным механизмом генерации значений. Эти типы данных используются для создания автоинкрементных колонок, а именно для каждой новой строки, добавляемой в таблицу, будет автоматически генерироваться уникальное значение для такой колонки (подобно типу [SERIAL](https://www.postgresql.org/docs/current/datatype-numeric.html#DATATYPE-SERIAL) в PostgreSQL или свойству [AUTO_INCREMENT](https://dev.mysql.com/doc/refman/9.0/en/example-auto-increment.html) в MySQL).
+Серийные типы данных представляют собой целые числа, но с дополнительным механизмом генерации значений. Эти типы данных используются для создания автоинкрементных колонок, а именно - для каждой новой строки, добавляемой в таблицу, будет автоматически генерироваться уникальное значение для такой колонки (подобно типу [SERIAL](https://www.postgresql.org/docs/current/datatype-numeric.html#DATATYPE-SERIAL) в PostgreSQL или свойству [AUTO_INCREMENT](https://dev.mysql.com/doc/refman/9.0/en/example-auto-increment.html) в MySQL).
+
+## Описание
+
+При определении такого типа для колонки создаётся отдельный схемный объект `Sequence`, привязанный к этой колонке и являющийся генератором последовательности, из которого извлекаются значения. Этот объект является приватным и скрыт от пользователя. `Sequence` будет уничтожен вместе с таблицей.
+
+Значения последовательности начинаются с единицы, выдаются с шагом, равным единице, и ограничены в зависимости от используемого типа.
+
+> **Примечание:**
+> Колонки типа `Serial` поддерживаются как для колонок, входящих в состав первичного ключа, так и для неключевых колонок.
+>
+> Однако такие колонки нельзя [изменить](../syntax/alter_table/family#mod-column-groups) или [удалить](../syntax/alter_table/columns.md) из таблицы —
+> при попытке выполнить эти операции будет возвращена ошибка.
+
+| Тип           | Максимальное значение | Тип значения |
+|---------------|-----------------------|--------------|
+| `SmallSerial` | $2^{15}–1$            | `Int16`      |
+| `Serial2`     | $2^{15}–1$            | `Int16`      |
+| `Serial`      | $2^{31}–1$            | `Int32`      |
+| `Serial4`     | $2^{31}–1$            | `Int32`      |
+| `Serial8`     | $2^{63}–1$            | `Int64`      |
+|  `BigSerial`  | $2^{63}–1$            | `Int64`      |
+
+При переполнении `Sequence` на вставке будет возвращаться ошибка:
+
+```text
+Error: Failed to get next val for sequence: /dev/test/users/_serial_column_user_id, status: SCHEME_ERROR
+    <main>: Error: sequence [OwnerId: <some>, LocalPathId: <some>] doesn't have any more values available, code: 200503
+```
+
+Отметим, что следующее значение выдаётся генератором до непосредственной вставки в таблицу и уже будет считаться использованным, даже если строка, содержащая это значение, не была успешно вставлена, например, при откате транзакции. Поэтому множество значений такой колонки может содержать пропуски и состоять из нескольких промежутков.
+
+Для таблиц с автоинкрементными колонками поддержаны операции [copy](../../../reference/ydb-cli/tools-copy.md), [rename](../../../reference/ydb-cli/commands/tools/rename.md), [dump](../../../reference/ydb-cli/export-import/tools-dump.md), [restore](../../../reference/ydb-cli/export-import/import-file.md) и [import](../../../reference/ydb-cli/export-import/import-s3.md)/[export](../../../reference/ydb-cli/export-import/export-s3.md).
 
 ## Пример использования
 
+Cледует обратить внимание на правильный выбор колонок для [PRIMARY KEY](../../../dev/primary-key/row-oriented.md). Для масштабируемости нагрузки и высокой производительности стоит избегать записи строк с монотонно возрастающими первичными ключами. В этом случае все записи будут попадать в последнюю партицию, и вся нагрузка будет приходиться на один сервер.
+
+Например, в качестве первого элемента ключа использовать можно хеш от всего первичного ключа либо его части, чтобы равномерно распределять данные по партициям кластера.
+
 ``` yql
 CREATE TABLE users (
+    user_hash Uint64,
     user_id Serial,
     name Utf8,
     email Utf8,
-    PRIMARY KEY (user_id)
+    PRIMARY KEY (user_hash, user_id)
 );
 ```
 
+Хеш для поля `user_hash` можно рассчитать на стороне приложения, например, используя хеш-функцию от `email`.
+
 ``` yql
-UPSERT INTO users (name, email) VALUES ('Alice', 'alice@example.com');
-INSERT INTO users (name, email) VALUES ('Bob', 'bob@example.com');
-REPLACE INTO users (name, email) VALUES ('John', 'john@example.com');
+UPSERT INTO users (user_hash, name, email) VALUES (123456789, 'Alice', 'alice@example.com');
+INSERT INTO users (user_hash, name, email) VALUES (987654321, 'Bob', 'bob@example.com');
+REPLACE INTO users (user_hash, name, email) VALUES (111111111, 'John', 'john@example.com');
 ```
 
 ``` yql
 SELECT * FROM users;
 ```
 
-| email               | name  | user_id |
-|---------------------|-------|---------|
-| `alice@example.com` | Alice | 1       |
-| `bob@example.com`   | Bob   | 2       |
-|  `john@example.com` | John  | 3       |
+Результат (значения `user_hash` приведены для примера):
 
-Можно самостоятельно указать значение `Serial` колонки при вставке, в этом случае вставка будет выполняться, как с обычной целочисленной колонкой, и `Sequence` затрагиваться при таком запросе никак не будет:
+| user_hash   | email               | name  | user_id |
+|-------------|---------------------|-------|---------|
+| 123456789   | alice@example.com   | Alice | 1       |
+| 987654321   | bob@example.com     | Bob   | 2       |
+| 111111111   | john@example.com    | John  | 3       |
+
+Можно самостоятельно указать значение `Serial`-колонки при вставке, например для восстановления данных. В этом случае вставка будет выполняться, как с обычной целочисленной колонкой, и `Sequence` затрагиваться при таком запросе никак не будет:
 
 ``` yql
-UPSERT INTO users (user_id, name, email) VALUES (4, 'Peter', 'peter@example.com');
+UPSERT INTO users (user_hash, user_id, name, email) VALUES (222222222, 10, 'Peter', 'peter@example.com');
 ```
 
-## Описание
-
-Только колонки, участвующие в первичном ключе таблиц, могут иметь тип `Serial`.
-
-При определении такого типа для колонки создаётся отдельный схемный объект `Sequence`, привязанный к этой колонке и являющийся генератором последовательности, из которого извлекаются значения. Этот объект является приватным и скрыт от пользователя. `Sequence` будет уничтожен вместе с таблицей.
-
-Значения последовательности начинаются с единицы, выдаются с шагом, равным единице, и ограничены в зависимости от используемого типа.
+### Пример неудачной схемы
 
-| Тип           | Максимальное значение | Тип значения |
-|---------------|-----------------------|--------------|
-| `SmallSerial` | $2^{15}–1$            | `Int16`      |
-| `Serial2`     | $2^{15}–1$            | `Int16`      |
-| `Serial`      | $2^{31}–1$            | `Int32`      |
-| `Serial4`     | $2^{31}–1$            | `Int32`      |
-| `Serial8`     | $2^{63}–1$            | `Int64`      |
-|  `BigSerial`  | $2^{63}–1$            | `Int64`      |
-
-При переполнении `Sequence` на вставке будет возвращаться ошибка:
-
-```text
-Error: Failed to get next val for sequence: /dev/test/users/_serial_column_user_id, status: SCHEME_ERROR
-    <main>: Error: sequence [OwnerId: <some>, LocalPathId: <some>] doesn't have any more values available, code: 200503
+``` yql
+CREATE TABLE users_bad (
+    user_id Serial,
+    name Utf8,
+    email Utf8,
+    PRIMARY KEY (user_id)
+);
 ```
 
-Отметим, что следующее значение выдаётся генератором до непосредственной вставки в таблицу и уже будет считаться использованным, даже если строка, содержащая это значение, не была успешно вставлена, например, при откате транзакции. Поэтому множество значений такой колонки может содержать пропуски и состоять из нескольких промежутков.
-
-Для таблиц с автоинкрементными колонками поддержаны операции [copy](../../../reference/ydb-cli/tools-copy.md), [dump](../../../reference/ydb-cli/export-import/tools-dump.md), [restore](../../../reference/ydb-cli/export-import/import-file.md) и [import](../../../reference/ydb-cli/export-import/import-s3.md)/[export](../../../reference/ydb-cli/export-import/export-s3.md).
+В следующем примере автоинкрементная колонка является единственным и первым элементом ключа — это приведёт к неравномерной нагрузке и узкому месту на последней партиции.