← Back to community benchmarks

gemma-3-4b-it-qat

M3 Max (40c) · 128 GB · 4bit · 2026-04-03

Performance

128k

tokens

607.0

PP tok/s

11.5

TG tok/s

215937

TTFT (ms)

8.2

Peak mem (GB)

Hardware

Chip M3 Max (40c)

Memory 128 GB

GPU Cores 40

Software

oMLX v0.3.1

macOS macOS 26.4

Context 131,072

Performance by Context Length

Context	PP tok/s	TG tok/s	Peak Mem
1k	738.8	77.2	3.2 GB	view
4k	860.5	71.9	3.4 GB	view
8k	890.1	65.7	3.6 GB	view
16k	865.5	57.3	3.9 GB	view
32k	806.5	44.6	4.4 GB	view
64k	733.2	19.6	5.6 GB	view
128k	607.0	11.5	8.2 GB	current
195k	527.4	10.6	29.6 GB	view

Batching Results

Batch Size	TG tok/s	Speedup
1×	77.2	1.00×
2×	53.4	0.69×
4×	63.6	0.82×
8×	145.3	1.88×