Support Data Parallel MOE on HPU #1022

xinyu-intel · 2025-04-08T07:32:32Z

Based on #947

Test CML:

PT_HPU_LAZY_MODE=1 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_USE_V1=0 VLLM_SKIP_WARMUP=true python examples/offline_inference/data_parallel.py --model="ibm-research/PowerMoE-3b" --dp-size=2 --tp-size=2

xinyu-intel · 2025-04-29T10:54:56Z

/run-gaudi-tests

michalkuligowski · 2025-04-29T12:51:57Z

/run-gaudi-tests

Signed-off-by: Xinyu Chen <xichen@habana.ai>

jikunshang · 2025-05-06T04:06:29Z

/run-gaudi-tests

jikunshang · 2025-06-04T01:44:25Z

/run-gaudi-tests

xuechendi · 2025-06-11T23:15:54Z

@xinyu-intel , please add docstring to hacked codes in llm_engine.py, in that case, when hababa_team doing rebase, they can avoid to somehow break the DP path.
And please rebase this PR

vllm/worker/tpu_model_runner.py

vllm/worker/model_runner_base.py

vllm/worker/worker_base.py

vllm/forward_context.py

xuechendi · 2025-06-11T23:27:22Z

@xinyu-intel , please also add UT, I think once this PR merged, it will be quite easy to get broken during rebase.

jikunshang · 2025-06-12T00:25:49Z

@xinyu-intel , please also add UT, I think once this PR merged, it will be quite easy to get broken during rebase.

it's hard to add UT. There is known hang issue for mix batch scenario.

xinyu-intel · 2025-06-12T07:05:30Z

@jikunshang @xuechendi added test here https://github.com/habana-internal/pytorch-training-tests/pull/1963

vllm/worker/hpu_model_runner.py

vllm/engine/llm_engine.py

xuechendi

LGTM

xuechendi · 2025-06-19T01:56:27Z

/run-gaudi-tests

upstream code do not support DP for v0 and we implement it

xinyu-intel requested review from kzawora-intel, madamczyk-intel, michalkuligowski, mgawarkiewicz, vivekgoe and afierka-intel as code owners April 8, 2025 07:32

xinyu-intel force-pushed the dev/xinyu/dpmoe-pr branch 7 times, most recently from 1b3558b to 820ad1d Compare April 11, 2025 10:46

Base automatically changed from private/kzawora/rebase_mar_24 to habana_main April 18, 2025 17:21

michalkuligowski requested a review from mgawarkiewicz-intel as a code owner April 18, 2025 17:21

xinyu-intel force-pushed the dev/xinyu/dpmoe-pr branch 3 times, most recently from b718e34 to 455cf52 Compare April 29, 2025 10:42

xinyu-intel force-pushed the dev/xinyu/dpmoe-pr branch from 455cf52 to 915c389 Compare May 6, 2025 03:41

xinyu-intel requested review from xuechendi and jikunshang as code owners May 6, 2025 03:41

xinyu-intel added 5 commits May 6, 2025 11:51

Support DP Attention + TP/EP MOE for v0

66c9d53

Signed-off-by: Xinyu Chen <xichen@habana.ai>

Enable DP in HPU worker/runner

26156f0

Signed-off-by: Xinyu Chen <xichen@habana.ai>

DP Awared Padding

6051b0a

Signed-off-by: Xinyu Chen <xichen@habana.ai>

Fix native_multicast for 3d input

c3ef5aa

Signed-off-by: Xinyu Chen <xichen@habana.ai>

Optimize DP communication with allgather

915c389

Merge branch 'habana_main' into dev/xinyu/dpmoe-pr

23b5942

Merge remote-tracking branch 'ssh/habana_main' into HEAD

39eb1eb

xinyu-intel and others added 3 commits June 4, 2025 09:44

Merge remote-tracking branch 'ssh/habana_main' into dev/xinyu/dpmoe-pr

cbb0cb6

Merge remote-tracking branch 'ssh/habana_main' into dev/xinyu/dpmoe-pr

0ef3aba

Merge branch 'habana_main' into dev/xinyu/dpmoe-pr

ccd1832

xuechendi reviewed Jun 11, 2025

View reviewed changes

vllm/worker/tpu_model_runner.py Outdated Show resolved Hide resolved

xuechendi reviewed Jun 11, 2025

View reviewed changes

vllm/worker/model_runner_base.py Show resolved Hide resolved

xuechendi reviewed Jun 11, 2025

View reviewed changes

vllm/worker/worker_base.py Show resolved Hide resolved

xuechendi reviewed Jun 11, 2025

View reviewed changes

vllm/forward_context.py Show resolved Hide resolved

zhenwei-intel mentioned this pull request Jun 12, 2025

[P/D] cherry-pick opts and bugfixs of deepseek r1 #1411

Merged

4 tasks

xinyu-intel added 3 commits June 12, 2025 15:08

Merge remote-tracking branch 'ssh/habana_main' into dev/xinyu/dpmoe-pr

2fd2726

Add some docstrings

a762460

Merge remote-tracking branch 'ssh/master_next' into dev/xinyu/dpmoe-pr

9514c6c

xuechendi reviewed Jun 16, 2025

View reviewed changes

vllm/worker/hpu_model_runner.py Show resolved Hide resolved

xuechendi reviewed Jun 16, 2025

View reviewed changes

vllm/engine/llm_engine.py Show resolved Hide resolved

xinyu-intel added 4 commits June 17, 2025 10:52

Merge remote-tracking branch 'ssh/habana_main' into dev/xinyu/dpmoe-pr

99fcdf7

ignore mypy for _dummy_run

98cd804

Fix granitemoe

b474177

Fix dummy_run and barrier

f182288

xuechendi approved these changes Jun 19, 2025

View reviewed changes

Merge remote-tracking branch 'ssh/habana_main' into dev/xinyu/dpmoe-pr

e03d775

xuechendi enabled auto-merge (squash) June 19, 2025 01:56

xuechendi merged commit 316f3dd into habana_main Jun 23, 2025
52 checks passed

xuechendi deleted the dev/xinyu/dpmoe-pr branch June 23, 2025 02:14

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Support Data Parallel MOE on HPU #1022

Support Data Parallel MOE on HPU #1022

xinyu-intel commented Apr 8, 2025 •

edited by github-actions bot

Loading

Uh oh!

xinyu-intel commented Apr 29, 2025

Uh oh!

michalkuligowski commented Apr 29, 2025

Uh oh!

jikunshang commented May 6, 2025

Uh oh!

jikunshang commented Jun 4, 2025

Uh oh!

xuechendi commented Jun 11, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

xuechendi commented Jun 11, 2025

Uh oh!

jikunshang commented Jun 12, 2025

Uh oh!

xinyu-intel commented Jun 12, 2025

Uh oh!

Uh oh!

Uh oh!

xuechendi left a comment

Uh oh!

xuechendi commented Jun 19, 2025

Uh oh!

Uh oh!

Uh oh!

Support Data Parallel MOE on HPU #1022

Support Data Parallel MOE on HPU #1022

Conversation

xinyu-intel commented Apr 8, 2025 • edited by github-actions bot Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

xinyu-intel commented Apr 29, 2025

Uh oh!

michalkuligowski commented Apr 29, 2025

Uh oh!

jikunshang commented May 6, 2025

Uh oh!

jikunshang commented Jun 4, 2025

Uh oh!

xuechendi commented Jun 11, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

xuechendi commented Jun 11, 2025

Uh oh!

jikunshang commented Jun 12, 2025

Uh oh!

xinyu-intel commented Jun 12, 2025

Uh oh!

Uh oh!

Uh oh!

xuechendi left a comment

Choose a reason for hiding this comment

Uh oh!

xuechendi commented Jun 19, 2025

Uh oh!

Uh oh!

Uh oh!

xinyu-intel commented Apr 8, 2025 •

edited by github-actions bot

Loading