From dc27fa1d0ba99c3ffeadc1777b6fe18f9542096e Mon Sep 17 00:00:00 2001
From: Kedar Potdar <115327600+kedarpotdar-nv@users.noreply.github.com>
Date: Wed, 25 Mar 2026 18:10:12 -0700
Subject: [PATCH 01/16] Update nvidia-master.yaml

---
 .github/configs/nvidia-master.yaml | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index f4570fd2c..b98d8ad37 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3208,18 +3208,18 @@ minimaxm2.5-fp8-b200-vllm:
   - isl: 1024
     osl: 1024
     search-space:
-    - { tp: 2, conc-start: 4, conc-end: 64 }
-    - { tp: 4, conc-start: 4, conc-end: 64 }
+    - { tp: 2, conc-start: 4, conc-end: 256 }
+    - { tp: 4, conc-start: 4, conc-end: 256 }
   - isl: 1024
     osl: 8192
     search-space:
-    - { tp: 2, conc-start: 4, conc-end: 64 }
-    - { tp: 4, conc-start: 4, conc-end: 64 }
+    - { tp: 2, conc-start: 4, conc-end: 256 }
+    - { tp: 4, conc-start: 4, conc-end: 256 }
   - isl: 8192
     osl: 1024
     search-space:
-    - { tp: 2, conc-start: 4, conc-end: 64 }
-    - { tp: 4, conc-start: 4, conc-end: 64 }
+    - { tp: 2, conc-start: 4, conc-end: 256 }
+    - { tp: 4, conc-start: 4, conc-end: 256 }
 
 gptoss-fp4-h100-vllm:
   image: vllm/vllm-openai:v0.15.1

From 9ee612f268f99be712ecdb23c5dedd0354c23885 Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Wed, 25 Mar 2026 18:18:54 -0700
Subject: [PATCH 02/16] vllm version bump

---
 .github/configs/nvidia-master.yaml | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index b98d8ad37..d990b3ae1 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3197,7 +3197,7 @@ gptoss-fp4-b200-vllm:
     - { tp: 8, conc-start: 4, conc-end: 4 }
 
 minimaxm2.5-fp8-b200-vllm:
-  image: vllm/vllm-openai:v0.17.0-cu130
+  image: vllm/vllm-openai:v0.18.0-cu130
   model: MiniMaxAI/MiniMax-M2.5
   model-prefix: minimaxm2.5
   runner: b200
@@ -3210,16 +3210,19 @@ minimaxm2.5-fp8-b200-vllm:
     search-space:
     - { tp: 2, conc-start: 4, conc-end: 256 }
     - { tp: 4, conc-start: 4, conc-end: 256 }
+    - { tp: 4, ep: 4, conc-start: 32, conc-end: 256 }
   - isl: 1024
     osl: 8192
     search-space:
     - { tp: 2, conc-start: 4, conc-end: 256 }
     - { tp: 4, conc-start: 4, conc-end: 256 }
+    - { tp: 4, ep: 4, conc-start: 32, conc-end: 256 }
   - isl: 8192
     osl: 1024
     search-space:
     - { tp: 2, conc-start: 4, conc-end: 256 }
     - { tp: 4, conc-start: 4, conc-end: 256 }
+    - { tp: 4, ep: 4, conc-start: 32, conc-end: 256 }
 
 gptoss-fp4-h100-vllm:
   image: vllm/vllm-openai:v0.15.1

From a27edeecd6821374f0bf80a1a50b15ca2132161c Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Wed, 25 Mar 2026 18:20:09 -0700
Subject: [PATCH 03/16] add perf changelog

---
 perf-changelog.yaml | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/perf-changelog.yaml b/perf-changelog.yaml
index 03fb6e082..afce65264 100644
--- a/perf-changelog.yaml
+++ b/perf-changelog.yaml
@@ -1068,3 +1068,10 @@
     - "dsr1-fp8-h200-sglang: v0.5.9-cu129-amd64 → v0.5.9-cu130"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/943
 
+- config-keys:
+    - minimaxm2.5-fp8-b200-vllm
+  description:
+    - "Update vLLM image from v0.17.0 to v0.18.0 for MiniMax-M2.5 FP8 B200"
+    - "Add tp4 ep4 search-space entries (conc 32-256) for all seq-len configs"
+  pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/947
+

From a33dc21986e2f1f9fe0940d42df104ad439b60fd Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Fri, 27 Mar 2026 12:19:32 -0700
Subject: [PATCH 04/16] update search space and configs

---
 .github/configs/nvidia-master.yaml             | 5 ++---
 benchmarks/single_node/minimaxm2.5_fp8_b200.sh | 4 +++-
 2 files changed, 5 insertions(+), 4 deletions(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index d990b3ae1..e9f7f7603 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3210,19 +3210,18 @@ minimaxm2.5-fp8-b200-vllm:
     search-space:
     - { tp: 2, conc-start: 4, conc-end: 256 }
     - { tp: 4, conc-start: 4, conc-end: 256 }
-    - { tp: 4, ep: 4, conc-start: 32, conc-end: 256 }
+    - { tp: 4, ep: 4, conc-start: 64, conc-end: 64 }
+    - { tp: 8, conc-start: 4, conc-end: 8 }
   - isl: 1024
     osl: 8192
     search-space:
     - { tp: 2, conc-start: 4, conc-end: 256 }
     - { tp: 4, conc-start: 4, conc-end: 256 }
-    - { tp: 4, ep: 4, conc-start: 32, conc-end: 256 }
   - isl: 8192
     osl: 1024
     search-space:
     - { tp: 2, conc-start: 4, conc-end: 256 }
     - { tp: 4, conc-start: 4, conc-end: 256 }
-    - { tp: 4, ep: 4, conc-start: 32, conc-end: 256 }
 
 gptoss-fp4-h100-vllm:
   image: vllm/vllm-openai:v0.15.1
diff --git a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
index 2e5aa4b24..066a870fd 100755
--- a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
+++ b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
@@ -24,8 +24,8 @@ hf download "$MODEL"
 SERVER_LOG=/workspace/server.log
 PORT=${PORT:-8888}
 
-export VLLM_USE_FLASHINFER_MOE_FP8=0
 export VLLM_MOE_USE_DEEP_GEMM=0
+export VLLM_FLASHINFER_ALLREDUCE_BACKEND=mnnvl
 
 if [ "$EP_SIZE" -ge 1 ]; then
   EP=" --enable-expert-parallel"
@@ -43,6 +43,8 @@ $EP \
 --gpu-memory-utilization 0.95 \
 --max-model-len $MAX_MODEL_LEN \
 --block-size=32 \
+--kv-cache-dtype fp8 \
+--stream-interval 20 --no-enable-prefix-caching \
 --trust-remote-code > $SERVER_LOG 2>&1 &
 
 SERVER_PID=$!

From 89acdf2ff13f6ca69f5794c8998e7b5c87636584 Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Fri, 27 Mar 2026 13:01:29 -0700
Subject: [PATCH 05/16] fix typo in VLLM_USE_DEEP_GEMM

---
 benchmarks/single_node/minimaxm2.5_fp8_b200.sh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
index 066a870fd..0b4151e17 100755
--- a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
+++ b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
@@ -24,7 +24,7 @@ hf download "$MODEL"
 SERVER_LOG=/workspace/server.log
 PORT=${PORT:-8888}
 
-export VLLM_MOE_USE_DEEP_GEMM=0
+export VLLM_USE_DEEP_GEMM=0
 export VLLM_FLASHINFER_ALLREDUCE_BACKEND=mnnvl
 
 if [ "$EP_SIZE" -ge 1 ]; then

From 83706aee88e68d72e7ba21d8ce9d96f1c5a13e0e Mon Sep 17 00:00:00 2001
From: "claude[bot]" <41898282+claude[bot]@users.noreply.github.com>
Date: Sun, 29 Mar 2026 02:26:13 +0000
Subject: [PATCH 06/16] Remove ISL 1024 / OSL 8192 seq-len config for
 minimaxm2.5-fp8-b200-vllm

Co-authored-by: functionstackx <functionstackx@users.noreply.github.com>
---
 .github/configs/nvidia-master.yaml | 5 -----
 perf-changelog.yaml                | 1 +
 2 files changed, 1 insertion(+), 5 deletions(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index 2309314c6..292169457 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3098,11 +3098,6 @@ minimaxm2.5-fp8-b200-vllm:
     - { tp: 4, conc-start: 4, conc-end: 256 }
     - { tp: 4, ep: 4, conc-start: 64, conc-end: 64 }
     - { tp: 8, conc-start: 4, conc-end: 8 }
-  - isl: 1024
-    osl: 8192
-    search-space:
-    - { tp: 2, conc-start: 4, conc-end: 256 }
-    - { tp: 4, conc-start: 4, conc-end: 256 }
   - isl: 8192
     osl: 1024
     search-space:
diff --git a/perf-changelog.yaml b/perf-changelog.yaml
index 7e0ccf97b..90d1035c0 100644
--- a/perf-changelog.yaml
+++ b/perf-changelog.yaml
@@ -1195,4 +1195,5 @@
   description:
     - "Update vLLM image from v0.17.0 to v0.18.0 for MiniMax-M2.5 FP8 B200"
     - "Add tp4 ep4 search-space entries (conc 32-256) for all seq-len configs"
+    - "Remove ISL 1024 / OSL 8192 seq-len config"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/947

From e405b60d816399032fa44593503e2bdc4110dda6 Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Sun, 29 Mar 2026 23:03:12 -0700
Subject: [PATCH 07/16] update image

---
 .github/configs/nvidia-master.yaml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index 292169457..2ea513a26 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3329,7 +3329,7 @@ gptoss-fp4-h200-vllm:
     - { tp: 8, conc-start: 4, conc-end: 32 }
 
 minimaxm2.5-fp8-h200-vllm:
-  image: vllm/vllm-openai:v0.18.0
+  image: vllm/vllm-openai:nightly-5b8c30d62b754b575e043ce2fc0dcbf8a64f6306
   model: MiniMaxAI/MiniMax-M2.5
   model-prefix: minimaxm2.5
   runner: h200

From 534927b2f1a5b38ff6779179097a182e73754535 Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Wed, 1 Apr 2026 10:38:20 -0700
Subject: [PATCH 08/16] update config and remove DEEPGEMM flag

---
 .github/configs/nvidia-master.yaml             | 2 +-
 benchmarks/single_node/minimaxm2.5_fp8_b200.sh | 1 -
 2 files changed, 1 insertion(+), 2 deletions(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index c81fe00b1..7c57d267c 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3101,7 +3101,7 @@ gptoss-fp4-b200-vllm:
     - { tp: 8, conc-start: 4, conc-end: 4 }
 
 minimaxm2.5-fp8-b200-vllm:
-  image: vllm/vllm-openai:v0.18.0-cu130
+  image: vllm/vllm-openai:nightly-5b8c30d62b754b575e043ce2fc0dcbf8a64f6306
   model: MiniMaxAI/MiniMax-M2.5
   model-prefix: minimaxm2.5
   runner: b200
diff --git a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
index 11e9ce65e..67269571c 100755
--- a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
+++ b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
@@ -24,7 +24,6 @@ hf download "$MODEL"
 SERVER_LOG=/workspace/server.log
 PORT=${PORT:-8888}
 
-export VLLM_USE_DEEP_GEMM=0
 export VLLM_FLASHINFER_ALLREDUCE_BACKEND=mnnvl
 
 if [ "$EP_SIZE" -ge 1 ]; then

From 6073a5ed16c31ba6a0b773caf57c51e947366fe7 Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Wed, 1 Apr 2026 16:11:54 -0700
Subject: [PATCH 09/16] test tep

---
 .github/configs/nvidia-master.yaml | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index 7c57d267c..1ddeb4d31 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3113,14 +3113,15 @@ minimaxm2.5-fp8-b200-vllm:
     osl: 1024
     search-space:
     - { tp: 2, conc-start: 4, conc-end: 256 }
+    - { tp: 2, ep: 2, conc-start: 4, conc-end: 256 }
     - { tp: 4, conc-start: 4, conc-end: 256 }
-    - { tp: 4, ep: 4, conc-start: 64, conc-end: 64 }
-    - { tp: 8, conc-start: 4, conc-end: 8 }
-  - isl: 8192
-    osl: 1024
-    search-space:
-    - { tp: 2, conc-start: 4, conc-end: 256 }
-    - { tp: 4, conc-start: 4, conc-end: 256 }
+    - { tp: 4, ep: 4, conc-start: 16, conc-end: 64 }
+  # - { tp: 8, conc-start: 4, conc-end: 8 }
+  # - isl: 8192
+  #   osl: 1024
+  #   search-space:
+  #   - { tp: 2, conc-start: 4, conc-end: 256 }
+  #   - { tp: 4, conc-start: 4, conc-end: 256 }
 
 gptoss-fp4-h100-vllm:
   image: vllm/vllm-openai:v0.18.0

From f6d81f78dc94a5359d8f94d58fd6effd1a519353 Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Wed, 1 Apr 2026 18:13:21 -0700
Subject: [PATCH 10/16] fix typo in ep bash script

---
 benchmarks/single_node/minimaxm2.5_fp8_b200.sh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
index 67269571c..5604b553c 100755
--- a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
+++ b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
@@ -26,7 +26,7 @@ PORT=${PORT:-8888}
 
 export VLLM_FLASHINFER_ALLREDUCE_BACKEND=mnnvl
 
-if [ "$EP_SIZE" -ge 1 ]; then
+if [ "$EP_SIZE" -gt 1 ]; then
   EP=" --enable-expert-parallel"
 else
   EP=" "

From d172646bda46052a6743fb7b0075292ba617dbc4 Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Thu, 2 Apr 2026 19:32:16 -0700
Subject: [PATCH 11/16] add max cudagraph size

---
 benchmarks/single_node/minimaxm2.5_fp8_b200.sh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
index 5604b553c..d892d72f1 100755
--- a/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
+++ b/benchmarks/single_node/minimaxm2.5_fp8_b200.sh
@@ -43,10 +43,12 @@ set -x
 vllm serve $MODEL --port $PORT \
 --tensor-parallel-size=$TP \
 $EP \
---gpu-memory-utilization 0.95 \
+--gpu-memory-utilization 0.90 \
 --max-model-len $MAX_MODEL_LEN \
 --block-size=32 \
 --kv-cache-dtype fp8 \
+--max-cudagraph-capture-size 2048 \
+--max-num-batched-tokens "$((ISL * 2 ))" \
 --stream-interval 20 --no-enable-prefix-caching \
 --trust-remote-code > $SERVER_LOG 2>&1 &
 

From 97b25f16d41bc9ff7951845849951f1219561cdf Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Thu, 2 Apr 2026 19:34:10 -0700
Subject: [PATCH 12/16] upgrade to vllm 0.19

---
 .github/configs/nvidia-master.yaml | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index 1ddeb4d31..fc38bf490 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3101,7 +3101,7 @@ gptoss-fp4-b200-vllm:
     - { tp: 8, conc-start: 4, conc-end: 4 }
 
 minimaxm2.5-fp8-b200-vllm:
-  image: vllm/vllm-openai:nightly-5b8c30d62b754b575e043ce2fc0dcbf8a64f6306
+  image: vllm/vllm-openai:0.19.0-aarch64-cu130-ubuntu2404
   model: MiniMaxAI/MiniMax-M2.5
   model-prefix: minimaxm2.5
   runner: b200
@@ -3117,11 +3117,11 @@ minimaxm2.5-fp8-b200-vllm:
     - { tp: 4, conc-start: 4, conc-end: 256 }
     - { tp: 4, ep: 4, conc-start: 16, conc-end: 64 }
   # - { tp: 8, conc-start: 4, conc-end: 8 }
-  # - isl: 8192
-  #   osl: 1024
-  #   search-space:
-  #   - { tp: 2, conc-start: 4, conc-end: 256 }
-  #   - { tp: 4, conc-start: 4, conc-end: 256 }
+  - isl: 8192
+    osl: 1024
+    search-space:
+    - { tp: 2, conc-start: 4, conc-end: 256 }
+    - { tp: 4, conc-start: 4, conc-end: 256 }
 
 gptoss-fp4-h100-vllm:
   image: vllm/vllm-openai:v0.18.0

From beb6a6b1845cfca445527175db8c11d51c81da00 Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Thu, 2 Apr 2026 19:34:46 -0700
Subject: [PATCH 13/16] typo

---
 .github/configs/nvidia-master.yaml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index fc38bf490..6866c4087 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3101,7 +3101,7 @@ gptoss-fp4-b200-vllm:
     - { tp: 8, conc-start: 4, conc-end: 4 }
 
 minimaxm2.5-fp8-b200-vllm:
-  image: vllm/vllm-openai:0.19.0-aarch64-cu130-ubuntu2404
+  image: vllm/vllm-openai:v0.19.0-cu130
   model: MiniMaxAI/MiniMax-M2.5
   model-prefix: minimaxm2.5
   runner: b200

From 9af9992aa5c09160c2e7a560f34911f6a1309261 Mon Sep 17 00:00:00 2001
From: Kedar Potdar <kepotdar@nvidia.com>
Date: Fri, 3 Apr 2026 09:09:14 -0700
Subject: [PATCH 14/16] revert h200 change

---
 .github/configs/nvidia-master.yaml | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index 6866c4087..f514157ef 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3112,9 +3112,9 @@ minimaxm2.5-fp8-b200-vllm:
   - isl: 1024
     osl: 1024
     search-space:
-    - { tp: 2, conc-start: 4, conc-end: 256 }
+    - { tp: 2, conc-start: 4, conc-end: 512 }
     - { tp: 2, ep: 2, conc-start: 4, conc-end: 256 }
-    - { tp: 4, conc-start: 4, conc-end: 256 }
+    - { tp: 4, conc-start: 4, conc-end: 512 }
     - { tp: 4, ep: 4, conc-start: 16, conc-end: 64 }
   # - { tp: 8, conc-start: 4, conc-end: 8 }
   - isl: 8192
@@ -3348,7 +3348,7 @@ gptoss-fp4-h200-vllm:
     - { tp: 8, conc-start: 4, conc-end: 32 }
 
 minimaxm2.5-fp8-h200-vllm:
-  image: vllm/vllm-openai:nightly-5b8c30d62b754b575e043ce2fc0dcbf8a64f6306
+  image: vllm/vllm-openai:v0.18.0
   model: MiniMaxAI/MiniMax-M2.5
   model-prefix: minimaxm2.5
   runner: h200

From 0d734c18efe9c23648fa24742091ca8913f59195 Mon Sep 17 00:00:00 2001
From: "claude[bot]" <41898282+claude[bot]@users.noreply.github.com>
Date: Fri, 3 Apr 2026 16:27:22 +0000
Subject: [PATCH 15/16] fix: update perf-changelog version to v0.19.0

Co-authored-by: Cameron Quilici <cquil11@users.noreply.github.com>
---
 perf-changelog.yaml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/perf-changelog.yaml b/perf-changelog.yaml
index d041d897e..c490922a4 100644
--- a/perf-changelog.yaml
+++ b/perf-changelog.yaml
@@ -1239,7 +1239,7 @@
 - config-keys:
     - minimaxm2.5-fp8-b200-vllm
   description:
-    - "Update vLLM image from v0.17.0 to v0.18.0 for MiniMax-M2.5 FP8 B200"
+    - "Update vLLM image from v0.17.0 to v0.19.0 for MiniMax-M2.5 FP8 B200"
     - "Add tp4 ep4 search-space entries (conc 32-256) for all seq-len configs"
     - "Remove ISL 1024 / OSL 8192 seq-len config"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/947

From 4f150049ca231e3efc2b63c0c7df9b7e2027a2a5 Mon Sep 17 00:00:00 2001
From: "claude[bot]" <41898282+claude[bot]@users.noreply.github.com>
Date: Fri, 3 Apr 2026 16:27:38 +0000
Subject: [PATCH 16/16] Remove commented-out tp:8 search-space entry

Co-authored-by: Cameron Quilici <cquil11@users.noreply.github.com>
---
 .github/configs/nvidia-master.yaml | 1 -
 1 file changed, 1 deletion(-)

diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
index fe32ea6b9..7a8d94326 100644
--- a/.github/configs/nvidia-master.yaml
+++ b/.github/configs/nvidia-master.yaml
@@ -3116,7 +3116,6 @@ minimaxm2.5-fp8-b200-vllm:
     - { tp: 2, ep: 2, conc-start: 4, conc-end: 256 }
     - { tp: 4, conc-start: 4, conc-end: 512 }
     - { tp: 4, ep: 4, conc-start: 16, conc-end: 64 }
-  # - { tp: 8, conc-start: 4, conc-end: 8 }
   - isl: 8192
     osl: 1024
     search-space: