keras-team · mattdangerw · May 28, 2025 · May 2, 2025 · May 3, 2025 · May 8, 2025
diff --git a/keras_hub/src/layers/preprocessing/multi_segment_packer.py b/keras_hub/src/layers/preprocessing/multi_segment_packer.py
@@ -3,6 +3,7 @@
     PreprocessingLayer,
 )
 from keras_hub.src.utils.tensor_utils import convert_to_ragged_batch
+from keras_hub.src.utils.tensor_utils import pad
 from keras_hub.src.utils.tensor_utils import preprocessing_function
 
 try:
@@ -124,6 +125,7 @@ def __init__(
         sep_value=None,
         pad_value=None,
         truncate="round_robin",
+        padding_side="right",
         **kwargs,
     ):
         super().__init__(**kwargs)
@@ -163,6 +165,8 @@ def check_special_value_type(value, value_name):
 
         self.pad_value = pad_value
 
+        self.padding_side = padding_side
+
     def get_config(self):
         config = super().get_config()
         config.update(
@@ -173,6 +177,7 @@ def get_config(self):
                 "sep_value": self._sep_value,
                 "pad_value": self.pad_value,
                 "truncate": self.truncate,
+                "padding_side": self.padding_side,
             }
         )
         return config
@@ -287,10 +292,18 @@ def call(
         # Pad to dense tensor output.
         sequence_length = sequence_length or self.sequence_length
         shape = tf.cast([-1, sequence_length], "int64")
-        token_ids = token_ids.to_tensor(
-            shape=shape, default_value=self.pad_value
+        token_ids = pad(
+            token_ids,
+            shape=shape,
+            padding_side=self.padding_side,
+            pad_value=self.pad_value,
+        )
+        segment_ids = pad(
+            segment_ids,
+            shape=shape,
+            padding_side=self.padding_side,
+            pad_value=0,
         )
-        segment_ids = segment_ids.to_tensor(shape=shape)
         # Remove the batch dim if added.
         if unbatched:
             token_ids = tf.squeeze(token_ids, 0)

diff --git a/keras_hub/src/layers/preprocessing/multi_segment_packer_test.py b/keras_hub/src/layers/preprocessing/multi_segment_packer_test.py
@@ -8,6 +8,7 @@
 
 class MultiSegmentPackerTest(TestCase):
     def test_trim_single_input_ints(self):
+        # right padding
         input_data = np.arange(3, 10)
         packer = MultiSegmentPacker(
             sequence_length=8, start_value=1, end_value=2
@@ -16,7 +17,20 @@ def test_trim_single_input_ints(self):
         self.assertAllEqual(token_ids, [1, 3, 4, 5, 6, 7, 8, 2])
         self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0, 0, 0, 0])
 
+        # left padding
+        input_data = np.arange(3, 10)
+        packer = MultiSegmentPacker(
+            sequence_length=8,
+            start_value=1,
+            end_value=2,
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer(input_data)
+        self.assertAllEqual(token_ids, [1, 3, 4, 5, 6, 7, 8, 2])
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0, 0, 0, 0])
+
     def test_trim_single_input_strings(self):
+        # right padding
         input_data = ["a", "b", "c", "d"]
         packer = MultiSegmentPacker(
             sequence_length=5, start_value="[CLS]", end_value="[SEP]"
@@ -25,7 +39,19 @@ def test_trim_single_input_strings(self):
         self.assertAllEqual(token_ids, ["[CLS]", "a", "b", "c", "[SEP]"])
         self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0])
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=5,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer(input_data)
+        self.assertAllEqual(token_ids, ["[CLS]", "a", "b", "c", "[SEP]"])
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0])
+
     def test_trim_multiple_inputs_round_robin(self):
+        # right padding
         seq1 = ["a", "b", "c"]
         seq2 = ["x", "y", "z"]
         packer = MultiSegmentPacker(
@@ -40,7 +66,22 @@ def test_trim_multiple_inputs_round_robin(self):
         )
         self.assertAllEqual(segment_ids, [0, 0, 0, 0, 1, 1, 1])
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            truncate="round_robin",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids, ["[CLS]", "a", "b", "[SEP]", "x", "y", "[SEP]"]
+        )
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 1, 1, 1])
+
     def test_trim_multiple_inputs_waterfall(self):
+        # right padding
         seq1 = ["a", "b", "c"]
         seq2 = ["x", "y", "z"]
         packer = MultiSegmentPacker(
@@ -55,7 +96,22 @@ def test_trim_multiple_inputs_waterfall(self):
         )
         self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0, 1, 1])
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            truncate="waterfall",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids, ["[CLS]", "a", "b", "c", "[SEP]", "x", "[SEP]"]
+        )
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0, 1, 1])
+
     def test_trim_batched_inputs_round_robin(self):
+        # right padding
         seq1 = [["a", "b", "c"], ["a", "b", "c"]]
         seq2 = [["x", "y", "z"], ["x", "y", "z"]]
         packer = MultiSegmentPacker(
@@ -80,7 +136,32 @@ def test_trim_batched_inputs_round_robin(self):
             ],
         )
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            truncate="round_robin",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            [
+                ["[CLS]", "a", "b", "[SEP]", "x", "y", "[SEP]"],
+                ["[CLS]", "a", "b", "[SEP]", "x", "y", "[SEP]"],
+            ],
+        )
+        self.assertAllEqual(
+            segment_ids,
+            [
+                [0, 0, 0, 0, 1, 1, 1],
+                [0, 0, 0, 0, 1, 1, 1],
+            ],
+        )
+
     def test_trim_batched_inputs_waterfall(self):
+        # right padding
         seq1 = [["a", "b", "c"], ["a", "b"]]
         seq2 = [["x", "y", "z"], ["x", "y", "z"]]
         packer = MultiSegmentPacker(
@@ -105,7 +186,32 @@ def test_trim_batched_inputs_waterfall(self):
             ],
         )
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            truncate="waterfall",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            [
+                ["[CLS]", "a", "b", "c", "[SEP]", "x", "[SEP]"],
+                ["[CLS]", "a", "b", "[SEP]", "x", "y", "[SEP]"],
+            ],
+        )
+        self.assertAllEqual(
+            segment_ids,
+            [
+                [0, 0, 0, 0, 0, 1, 1],
+                [0, 0, 0, 0, 1, 1, 1],
+            ],
+        )
+
     def test_pad_inputs(self):
+        # right padding
         seq1 = ["a"]
         seq2 = ["x"]
         packer = MultiSegmentPacker(
@@ -118,7 +224,23 @@ def test_pad_inputs(self):
         )
         self.assertAllEqual(segment_ids, [0, 0, 0, 1, 1, 0])
 
+        # left padding
+        packer = MultiSegmentPacker(
+            6,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            pad_value="[PAD]",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            ["[PAD]", "[CLS]", "a", "[SEP]", "x", "[SEP]"],
+        )
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 1, 1])
+
     def test_pad_batched_inputs(self):
+        # right padding
         seq1 = [["a"], ["a"]]
         seq2 = [["x"], ["x", "y"]]
         packer = MultiSegmentPacker(
@@ -143,7 +265,32 @@ def test_pad_batched_inputs(self):
             ],
         )
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            pad_value="[PAD]",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            [
+                ["[PAD]", "[PAD]", "[CLS]", "a", "[SEP]", "x", "[SEP]"],
+                ["[PAD]", "[CLS]", "a", "[SEP]", "x", "y", "[SEP]"],
+            ],
+        )
+        self.assertAllEqual(
+            segment_ids,
+            [
+                [0, 0, 0, 0, 0, 1, 1],
+                [0, 0, 0, 0, 1, 1, 1],
+            ],
+        )
+
     def test_list_special_tokens(self):
+        # right padding
         seq1 = [["a", "b"], ["a", "b"]]
         seq2 = [["x", "y"], ["x"]]
         packer = MultiSegmentPacker(
@@ -170,6 +317,32 @@ def test_list_special_tokens(self):
             ],
         )
 
+        # left padding
+        packer = MultiSegmentPacker(
+            8,
+            start_value="<s>",
+            end_value="</s>",
+            sep_value=["</s>", "</s>"],
+            pad_value="<pad>",
+            truncate="round_robin",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            [
+                ["<s>", "a", "b", "</s>", "</s>", "x", "y", "</s>"],
+                ["<pad>", "<s>", "a", "b", "</s>", "</s>", "x", "</s>"],
+            ],
+        )
+        self.assertAllEqual(
+            segment_ids,
+            [
+                [0, 0, 0, 0, 0, 1, 1, 1],
+                [0, 0, 0, 0, 0, 0, 1, 1],
+            ],
+        )
+
     def test_config(self):
         seq1 = [["a", "b", "c"], ["a", "b"]]
         seq2 = [["x", "y", "z"], ["x", "y", "z"]]

diff --git a/keras_hub/src/layers/preprocessing/start_end_packer.py b/keras_hub/src/layers/preprocessing/start_end_packer.py
@@ -3,6 +3,7 @@
     PreprocessingLayer,
 )
 from keras_hub.src.utils.tensor_utils import convert_to_ragged_batch
+from keras_hub.src.utils.tensor_utils import pad
 from keras_hub.src.utils.tensor_utils import preprocessing_function
 
 try:
@@ -39,6 +40,8 @@ class StartEndPacker(PreprocessingLayer):
             0 or "" will be added depending on the dtype of the input tensor.
         return_padding_mask: bool. Whether to return a boolean padding mask of
             all locations that are filled in with the `pad_value`.
+        padding_side: str. Whether to pad the input on the "left" or "right".
+            Defaults to "right".
 
     Call arguments:
         inputs: A `tf.Tensor`, `tf.RaggedTensor`, or list of python strings.
@@ -111,6 +114,7 @@ def __init__(
         pad_value=None,
         return_padding_mask=False,
         name=None,
+        padding_side="right",
         **kwargs,
     ):
         super().__init__(name=name, **kwargs)
@@ -139,6 +143,7 @@ def check_special_value_type(value, value_name):
 
         self.pad_value = pad_value
         self.return_padding_mask = return_padding_mask
+        self.padding_side = padding_side
 
     @preprocessing_function
     def call(
@@ -154,6 +159,13 @@ def call(
         batch_size = tf.shape(x)[0]
         sequence_length = sequence_length or self.sequence_length
         dtype = inputs.dtype
+        # Truncate.
+        truncation_length = sequence_length
+        if add_start_value and self.start_value is not None:
+            truncation_length -= len(self.start_value)
+        if add_end_value and self.end_value is not None:
+            truncation_length -= len(self.end_value)
+        x = x[..., :truncation_length]
 
         # Concatenate start and end tokens.
         if add_start_value and self.start_value is not None:
@@ -167,23 +179,28 @@ def call(
             end_token_id_tensor = tf.repeat(
                 end_value[tf.newaxis, :], repeats=batch_size, axis=0
             )
-            # Trim to leave room for end token.
-            x = x[..., : sequence_length - len(self.end_value)]
             x = tf.concat([x, end_token_id_tensor], axis=-1)
 
         # Pad to desired length.
-        outputs = x.to_tensor(
-            default_value=self.pad_value,
+        outputs = pad(
+            x,
+            pad_value=self.pad_value,
+            padding_side=self.padding_side,
             shape=(batch_size, sequence_length),
         )
         outputs = tf.squeeze(outputs, axis=0) if unbatched else outputs
 
         if self.return_padding_mask:
             mask = tf.ones_like(x, dtype="bool")
-            mask = mask.to_tensor(shape=(batch_size, sequence_length))
+
+            mask = pad(
+                mask,
+                pad_value=False,
+                padding_side=self.padding_side,
+                shape=(batch_size, sequence_length),
+            )
             mask = tf.squeeze(mask, axis=0) if unbatched else mask
             return outputs, mask
-
         return outputs
 
     def get_config(self):
@@ -195,6 +212,7 @@ def get_config(self):
                 "end_value": self._end_value,
                 "pad_value": self.pad_value,
                 "return_padding_mask": self.return_padding_mask,
+                "padding_side": self.padding_side,
             }
         )
         return config