[WIP] add ModernBERT #2256

SauravMaheshkar · 2025-05-17T03:02:18Z

Ref: #2027

SauravMaheshkar · 2025-05-17T15:05:05Z

Hey folks 👋🏼 , could I get some help on this failing test, it's failing when using the mixed_float16 dtype policy.

🐕 ❯ pytest keras_hub/src/models/modernbert/modernbert_backbone_test.py
=================================================================================================== test session starts ===================================================================================================
platform darwin -- Python 3.11.11, pytest-8.3.5, pluggy-1.6.0 -- /Users/sauravmaheshkar/dev/keras-hub/.venv/bin/python3
cachedir: .pytest_cache
rootdir: /Users/sauravmaheshkar/dev/keras-hub
configfile: pyproject.toml
plugins: cov-6.1.1
collected 4 items                                                                                                                                                                                                         

keras_hub/src/models/modernbert/modernbert_backbone_test.py::TestCase::test_session <- .venv/lib/python3.11/site-packages/tensorflow/python/framework/test_util.py SKIPPED (Not a test.)                            [ 25%]
keras_hub/src/models/modernbert/modernbert_backbone_test.py::ModernBertBackboneTest::test_backbone_basics FAILED                                                                                                    [ 50%]
keras_hub/src/models/modernbert/modernbert_backbone_test.py::ModernBertBackboneTest::test_saved_model SKIPPED (need --run_large option to run)                                                                      [ 75%]
keras_hub/src/models/modernbert/modernbert_backbone_test.py::ModernBertBackboneTest::test_session <- .venv/lib/python3.11/site-packages/tensorflow/python/framework/test_util.py PASSED                             [100%]

======================================================================================================== FAILURES =========================================================================================================
_______________________________________________________________________________________ ModernBertBackboneTest.test_backbone_basics _______________________________________________________________________________________

self = <keras_hub.src.models.modernbert.modernbert_backbone_test.ModernBertBackboneTest testMethod=test_backbone_basics>

    def test_backbone_basics(self):
>       self.run_backbone_test(
            cls=ModernBertBackbone,
            init_kwargs=self.init_kwargs,
            input_data=self.input_data,
            expected_output_shape=(2, 5, 8),
        )

keras_hub/src/models/modernbert/modernbert_backbone_test.py:25: 
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
keras_hub/src/tests/test_case.py:490: in run_backbone_test
    self.run_precision_test(cls, init_kwargs, input_data)
keras_hub/src/tests/test_case.py:355: in run_precision_test
    self.assertEqual(policy.compute_dtype, sublayer.compute_dtype)
keras_hub/src/tests/test_case.py:57: in assertEqual
    super().assertEqual(x1, x2, msg=msg)
E   AssertionError: 
E   - float16
E   + float32
-------------------------------------------------------------------------------------------------- Captured stdout call ---------------------------------------------------------------------------------------------------
1/1 ━━━━━━━━━━━━━━━━━━━━ 0s 298ms/step
1/1 ━━━━━━━━━━━━━━━━━━━━ 0s 8ms/step
================================================================================================= short test summary info =================================================================================================
FAILED keras_hub/src/models/modernbert/modernbert_backbone_test.py::ModernBertBackboneTest::test_backbone_basics - AssertionError: 
- float16
+ float32
========================================================================================= 1 failed, 1 passed, 2 skipped in 3.88s ==========================================================================================

mattdangerw

Thanks! Excited for modernbert! Great fit for the library.

mattdangerw · 2025-05-20T00:47:10Z

keras_hub/src/models/modernbert/modernbert_backbone.py

+
+@keras_hub_export("keras_hub.models.ModernBertBackbone")
+class ModernBertBackbone(Backbone):
+    def __init__(


Please add docstrings.

mattdangerw · 2025-05-20T00:50:22Z

keras_hub/src/models/modernbert/modernbert_backbone.py

+        )
+        self.transformer_layers = []
+        for i in range(num_layers):
+            layer = ModernBERTEncoderLayer(


ModernBERTEncoderLayer -> ModernBertEncoderLayer

mattdangerw · 2025-05-20T00:54:58Z

keras_hub/src/models/modernbert/modernbert_backbone.py

+            dtype=dtype,
+            name="token_embedding",
+        )
+        self.position_embedding = RotaryEmbedding(


I don't think we cache the rotary tensor or anything, so there's probably no advantage to using a shared layer here. Instead I would just create a RotaryEmbedding inside inside the encoder layer, same as other models that using rotary embeddings in this repo.

mattdangerw · 2025-05-20T00:55:43Z

keras_hub/src/models/modernbert/modernbert_backbone.py

+        num_heads,
+        hidden_dim,
+        intermediate_dim,
+        max_sequence_length=8192,


Unused? If this doesn't actually do anything, no need for it. We don't need config to track pretraining params (though we can document on Kaggle the longest sequence length checkpoints were trained on).

mattdangerw · 2025-05-20T00:57:19Z

keras_hub/src/models/modernbert/modernbert_tokenizer.py

+    ]
+)
+class ModernBertTokenizer(BytePairTokenizer):
+    backbone_cls = ModernBertBackbone


docstring for all public symbols.

mattdangerw · 2025-05-20T01:00:36Z