Provider · automatic caching

Fireworks AI

Open-weights serving with speculative decoding and dedicated tiers.

Fireworks AI caching guide Browse all models

−74%

Cache-read discount

40%

Batch discount

242

Models on Zumik

Yes

BYOK supported

How caching works here

Fireworks serves open-weights models (DeepSeek, Llama, Kimi, Qwen, GLM, GPT-OSS) with prompt caching and speculative decoding. Dedicated deployments hold caches longer and give predictable latency, which is the bridge toward a full BYOC hot lane.

What Zumik sees

Fireworks is where managed serving meets BYOC. When a workload concentrates on one or two open-weights paths with strong locality, our replay runs frequently justify moving that lane to dedicated capacity or BYOC.

Pitfall

Running a hot, reuse-heavy lane on serverless and blaming the model for cold-cache latency, when a dedicated deployment would hold the prefix warm.

Profile

Min cache size512 tok

RetentionServerless idle window; dedicated holds longer

Service tiersserverless, dedicated

BYOCAvailable

Models

Fireworks AI models in the catalog.

Model	Context	Input	Output	Cache read	Reuse-adj
Qwen3 4B	128K	$0.03	$0.03	$0.03	$0.03
Gemma 3 12B Instruct	131K	$0.05	$0.10	$0.05	$0.06
OpenAI gpt-oss-20b	131K	$0.07	$0.30	$0.04 −50%	$0.11
OpenAI gpt-oss-safeguard-20b	131K	$0.07	$0.30	$0.04 −51%	$0.12
Qwen3-VL-8B-Instruct	131K	$0.08	$0.50	$0.08	$0.18
MythoMax L2 13B	4K	$0.09	$0.09	$0.09	$0.09
Qwen3 235B A22B Instruct 2507	131K	$0.09	$0.58	$0.09	$0.21
Qwen3 30B-A3B	41K	$0.09	$0.45	$0.09	$0.18
Devstral-Small-2505	128K	$0.10	$0.30	$0.10	$0.15
Qwen3 30B A3B Instruct 2507	128K	$0.10	$0.30	$0.01 −90%	$0.11
Gemma 3 27B Instruct	98K	$0.12	$0.20	$0.12	$0.14
DeepSeek-V4-Flash	1M	$0.14	$0.28	$0.03 −79%	$0.13
DeepSeek R1 Distill Qwen 14B	33K	$0.15	$0.15	$0.15	$0.15
OpenAI gpt-oss-120b	131K	$0.15	$0.60	$0.01 −90%	$0.21
Qwen3 8B	131K	$0.18	$0.70	$0.18	$0.31
Qwen3 VL 30B A3B Instruct	131K	$0.20	$0.70	$0.20	$0.33
Qwen3 VL 30B A3B Thinking	131K	$0.20	$1.00	$0.20	$0.40
Qwen3 Omni 30B A3B Instruct	66K	$0.25	$0.97	$0.25	$0.43
Deepseek V3 03-24	164K	$0.27	$1.12	$0.14 −50%	$0.43
DeepSeek R1 Distill Qwen 32B	64K	$0.30	$0.30	$0.30	$0.30
MiniMax M2.7	197K	$0.30	$1.20	$0.06 −80%	$0.43
Minimax M3	512K	$0.30	$1.20	$0.06 −80%	$0.43
MiniMax-M2	205K	$0.30	$1.20	$0.03 −90%	$0.41
NVIDIA Nemotron 3 Super 120B A12B BF16	256K	$0.30	$0.90	$0.30	$0.45
NVIDIA Nemotron 3 Super 120B A12B FP8	256K	$0.30	$0.90	$0.30	$0.45
Qwen3 235B A22B Thinking 2507	131K	$0.30	$3.00	$0.30	$0.97
Qwen3 VL 235B A22B Instruct	131K	$0.30	$1.50	$0.30	$0.60
Qwen3 14B	131K	$0.35	$1.40	$0.35	$0.61
Qwen3 Coder 30B A3B Instruct	262K	$0.45	$2.25	$0.45	$0.90
Deepseek R1 05/28	164K	$0.50	$2.15	$0.35 −30%	$0.85
Kimi K2 Instruct	131K	$0.57	$2.30	$0.57	$1.00
Kimi K2 Instruct 0905	131K	$0.57	$2.30	$0.57	$1.00
Kimi K2 Thinking	262K	$0.60	$2.50	$0.15 −75%	$0.89
Qwen3 235B A22B	131K	$0.70	$2.80	$0.70	$1.22
Qwen3 32B	131K	$0.70	$2.80	$0.70	$1.22
DeepSeek R1 Distill Llama 70B	8K	$0.80	$0.80	$0.80	$0.80
Kimi K2.6	262K	$0.95	$4.00	$0.16 −83%	$1.39
Kimi K2.7 Code	262K	$0.95	$4.00	$0.19 −80%	$1.40
Qwen3 VL 235B A22B Thinking	131K	$0.98	$3.95	$0.98	$1.72
GLM-5	205K	$1.00	$3.20	$0.20 −80%	$1.22
DeepSeek V3	131K	$1.25	$1.25	$1.25	$1.25
GLM 5.1	203K	$1.40	$4.40	$0.26 −81%	$1.68
Qwen3 Coder 480B A35B Instruct	262K	$1.50	$7.50	$1.50	$3.00
DeepSeek-V4-Pro	1M	$1.74	$3.48	$0.14 −92%	$1.52
DeepSeek R1 (Fast)	164K	$3.00	$7.00	$3.00	$4.00
Chronos Hermes 13B v2	4K	—	—	—	—
Code Llama 13B	16K	—	—	—	—
Code Llama 13B Instruct	16K	—	—	—	—
Code Llama 13B Python	16K	—	—	—	—
Code Llama 34B	16K	—	—	—	—
Code Llama 34B Instruct	16K	—	—	—	—
Code Llama 34B Python	16K	—	—	—	—
Code Llama 70B	4K	—	—	—	—
Code Llama 70B Instruct	4K	—	—	—	—
Code Llama 70B Python	4K	—	—	—	—
Code Llama 7B	16K	—	—	—	—
Code Llama 7B Instruct	16K	—	—	—	—
CodeGemma 2B	8K	—	—	—	—
CodeGemma 7B	8K	—	—	—	—
CodeQwen 1.5 7B	66K	—	—	—	—
Cogito v1 Preview Llama 3B	131K	—	—	—	—
Cogito v1 Preview Llama 70B	131K	—	—	—	—
Cogito v1 Preview Llama 8B	131K	—	—	—	—
Cogito v1 Preview Qwen 14B	131K	—	—	—	—
Cogito v1 Preview Qwen 32B	131K	—	—	—	—
DeepSeek Coder 1.3B Base	16K	—	—	—	—
DeepSeek Coder 33B Instruct	16K	—	—	—	—
DeepSeek Coder 7B Base	4K	—	—	—	—
DeepSeek Coder 7B Base v1.5	4K	—	—	—	—
DeepSeek Coder 7B Instruct v1.5	4K	—	—	—	—
DeepSeek Coder V2 Lite Base	164K	—	—	—	—
DeepSeek Coder V2 Lite Instruct	164K	—	—	—	—
DeepSeek Prover V2	164K	—	—	—	—
DeepSeek R1 (Basic)	164K	—	—	—	—
DeepSeek R1 0528 Distill Qwen3 8B	131K	—	—	—	—
DeepSeek R1 Distill Llama 8B	131K	—	—	—	—
DeepSeek R1 Distill Qwen 1.5B	131K	—	—	—	—
DeepSeek R1 Distill Qwen 7B	131K	—	—	—	—
DeepSeek V2 Lite Chat	164K	—	—	—	—
DeepSeek V2.5	33K	—	—	—	—
DeepSeek V3.1	164K	—	—	—	—
DeepSeek V3.1 Terminus	164K	—	—	—	—
Deepseek v3.2	164K	—	—	—	—
Dolphin 2.6 Mixtral 8x7b	33K	—	—	—	—
Dolphin 2.9.2 Qwen2 72B	131K	—	—	—	—
ERNIE-4.5-21B-A3B-PT	131K	—	—	—	—
FARE-20B	131K	—	—	—	—
Firesearch OCR V6	8K	—	—	—	—
Gemma 2 9B Instruct	8K	—	—	—	—
Gemma 2B Instruct	8K	—	—	—	—
Gemma 3 4B Instruct	131K	—	—	—	—
Gemma 4 31B IT NVFP4	262K	—	—	—	—
Gemma 4 E4B	131K	—	—	—	—
Gemma 7B	8K	—	—	—	—
Gemma 7B Instruct	8K	—	—	—	—
GLM-4.5	131K	—	—	—	—
GLM-4.5-Air	131K	—	—	—	—
GLM-4.5V	131K	—	—	—	—
GLM-4.6	203K	—	—	—	—
GLM-4.7	203K	—	—	—	—
GLM-4.7 Flash	203K	—	—	—	—
GLM-5.2	200K	—	—	—	—
Hermes 2 Pro Mistral 7B	33K	—	—	—	—
InternVL3 38B	16K	—	—	—	—
InternVL3 78B	16K	—	—	—	—
InternVL3 8B	16K	—	—	—	—
KAT Dev 32B	131K	—	—	—	—
KAT Dev 72B Exp	131K	—	—	—	—
Kimi K2.5	262K	—	—	—	—
Llama 2 13B	4K	—	—	—	—
Llama 2 13B Chat	4K	—	—	—	—
Llama 2 70B	4K	—	—	—	—
Llama 2 7B	4K	—	—	—	—
Llama 2 7B Chat	4K	—	—	—	—
Llama 3 70B Instruct	8K	—	—	—	—
Llama 3 70B Instruct (HF version)	8K	—	—	—	—
Llama 3 8B	8K	—	—	—	—
Llama 3 8B Instruct	8K	—	—	—	—
Llama 3 8B Instruct (HF version)	8K	—	—	—	—
Llama 3.1 405B Instruct	131K	—	—	—	—
Llama 3.1 70B Instruct	131K	—	—	—	—
Llama 3.1 8B Instruct	131K	—	—	—	—
Llama 3.1 Nemotron 70B	131K	—	—	—	—
Llama 3.2 11B Vision Instruct	131K	—	—	—	—
Llama 3.2 1B	131K	—	—	—	—
Llama 3.2 1B Instruct	131K	—	—	—	—
Llama 3.2 3B	131K	—	—	—	—
Llama 3.2 3B Instruct	131K	—	—	—	—
Llama 3.2 90B Vision Instruct	131K	—	—	—	—
Llama 3.3 70B Instruct	131K	—	—	—	—
Llama 4 Maverick Instruct (Basic)	1M	—	—	—	—
Llama 4 Scout Instruct (Basic)	1M	—	—	—	—
Llama Guard 3 8B	131K	—	—	—	—
Llama Guard 7B	4K	—	—	—	—
Llama Guard v2 8B	8K	—	—	—	—
Llama Guard v3 1B	131K	—	—	—	—
LongCat-Flash-Chat	256K	—	—	—	—
MiMo-V2.5-Pro	256K	—	—	—	—
MiniMax-M2.1	197K	—	—	—	—
MiniMax-M2.5	197K	—	—	—	—
Ministral 3 14B Instruct 2512	256K	—	—	—	—
Ministral 3 3B Instruct 2512	256K	—	—	—	—
Ministral 3 8B Instruct 2512	256K	—	—	—	—
MiroThinker-1.7	262K	—	—	—	—
Mistral 7B	33K	—	—	—	—
Mistral 7B Instruct v0.2	33K	—	—	—	—
Mistral 7B Instruct v0.3	33K	—	—	—	—
Mistral 7B OpenOrca	33K	—	—	—	—
Mistral 7B v0.2	33K	—	—	—	—
Mistral Large 3 675B Instruct 2512	256K	—	—	—	—
Mistral Nemo Base 2407	128K	—	—	—	—
Mistral Nemo Instruct 2407	128K	—	—	—	—
Mistral Small 24B Instruct 2501	33K	—	—	—	—
Mixtral 8x7B v0.1	33K	—	—	—	—
Mixtral Moe 8x22B	66K	—	—	—	—
Mixtral MoE 8x22B Instruct	66K	—	—	—	—
Mixtral MoE 8x7B Instruct	33K	—	—	—	—
Mixtral MoE 8x7B Instruct (HF version)	33K	—	—	—	—
Molmo2-4B	37K	—	—	—	—
Molmo2-8B	37K	—	—	—	—
Nous Capybara 7B V1.9	33K	—	—	—	—
Nous Hermes Llama2 13B	4K	—	—	—	—
Nous Hermes Llama2 70B	4K	—	—	—	—
Nous Hermes Llama2 7B	4K	—	—	—	—
Nouse Hermes 2 Mixtral 8x7B DPO	33K	—	—	—	—
NVIDIA Nemotron 3 Nano Omni 30B A3B	262K	—	—	—	—
NVIDIA Nemotron 3 Super 120B A12B NVFP4	262K	—	—	—	—
NVIDIA Nemotron 3 Ultra BF16	262K	—	—	—	—
NVIDIA Nemotron 3 Ultra NVFP4	262K	—	—	—	—
NVIDIA Nemotron Nano 12B v2	128K	—	—	—	—
NVIDIA Nemotron Nano 2 VL	131K	—	—	—	—
NVIDIA Nemotron Nano 9B v2	128K	—	—	—	—
OpenAI gpt-oss-safeguard-120b	131K	—	—	—	—
OpenChat 3.5 0106	8K	—	—	—	—
OpenHermes 2 Mistral 7B	33K	—	—	—	—
OpenHermes 2.5 Mistral 7B	33K	—	—	—	—
Phi-3 Mini 128k Instruct	131K	—	—	—	—
Phi-3.5 Vision Instruct	32K	—	—	—	—
Phind CodeLlama 34B Python v1	16K	—	—	—	—
Phind CodeLlama 34B v1	16K	—	—	—	—
Phind CodeLlama 34B v2	16K	—	—	—	—
Pythia 12B	2K	—	—	—	—
Qwen 3 4B Instruct 2507	262K	—	—	—	—
Qwen 3.5 122B A10B	262K	—	—	—	—
Qwen 3.5 35B A3B	262K	—	—	—	—
Qwen QWQ 32B Preview	33K	—	—	—	—
Qwen1.5 72B Chat	33K	—	—	—	—
Qwen2 72B Instruct	33K	—	—	—	—
Qwen2 7B Instruct	33K	—	—	—	—
Qwen2-VL 2B Instruct	33K	—	—	—	—
Qwen2-VL 72B Instruct	33K	—	—	—	—
Qwen2-VL 7B Instruct	33K	—	—	—	—
Qwen2.5 0.5B Instruct	33K	—	—	—	—
Qwen2.5 1.5B Instruct	33K	—	—	—	—
Qwen2.5 14B	131K	—	—	—	—
Qwen2.5 14B Instruct	33K	—	—	—	—
Qwen2.5 14B Instruct	33K	—	—	—	—
Qwen2.5 32B	131K	—	—	—	—
Qwen2.5 32B Instruct	33K	—	—	—	—
Qwen2.5 72B	131K	—	—	—	—
Qwen2.5 72B Instruct	33K	—	—	—	—
Qwen2.5 7B	131K	—	—	—	—
Qwen2.5 7B	131K	—	—	—	—
Qwen2.5 7B Instruct	33K	—	—	—	—
Qwen2.5-Coder 0.5B	33K	—	—	—	—
Qwen2.5-Coder 0.5B Instruct	33K	—	—	—	—
Qwen2.5-Coder 1.5B	33K	—	—	—	—
Qwen2.5-Coder 1.5B Instruct	33K	—	—	—	—
Qwen2.5-Coder 14B	33K	—	—	—	—
Qwen2.5-Coder 14B Instruct	33K	—	—	—	—
Qwen2.5-Coder 32B	33K	—	—	—	—
Qwen2.5-Coder 32B Instruct	33K	—	—	—	—
Qwen2.5-Coder 32B Instruct 128K	131K	—	—	—	—
Qwen2.5-Coder 32B Instruct 32K RoPE	33K	—	—	—	—
Qwen2.5-Coder 32B Instruct 64k	66K	—	—	—	—
Qwen2.5-Coder 3B	33K	—	—	—	—
Qwen2.5-Coder 3B Instruct	33K	—	—	—	—
Qwen2.5-Coder 7B	33K	—	—	—	—
Qwen2.5-Coder 7B Instruct	33K	—	—	—	—
Qwen2.5-Math 72B Instruct	4K	—	—	—	—
Qwen2.5-VL 32B Instruct	128K	—	—	—	—
Qwen2.5-VL 3B Instruct	128K	—	—	—	—
Qwen2.5-VL 72B Instruct	128K	—	—	—	—
Qwen2.5-VL 7B Instruct	128K	—	—	—	—
Qwen3 0.6B	41K	—	—	—	—
Qwen3 1.7B	131K	—	—	—	—
Qwen3 30B A3B Thinking 2507	262K	—	—	—	—
Qwen3 Coder 480B Instruct BF16	262K	—	—	—	—
Qwen3-Next-80B-A3B-Instruct	262K	—	—	—	—
Qwen3.5 27B	262K	—	—	—	—
Qwen3.5 397B A17B	262K	—	—	—	—
Qwen3.5 9B	262K	—	—	—	—
Qwen3.6 27B	262K	—	—	—	—
Qwen3.6-35B-A3B	262K	—	—	—	—
QWQ 32B	131K	—	—	—	—
Ring-2.6-1T	262K	—	—	—	—
Rolm OCR	128K	—	—	—	—
Seed OSS 36B Instruct	524K	—	—	—	—
Snorkel Mistral PairRM DPO	33K	—	—	—	—
Step-3.7-Flash-NVFP4	262K	—	—	—	—
Toppy M 7B	33K	—	—	—	—
Zephyr 7B Beta	33K	—	—	—	—

Frequently asked

Fireworks AI, answered.

How does Fireworks AI prompt caching work?

What discount does Fireworks AI caching give?

Cache reads on Fireworks AI are about 74% cheaper than list input price.

Does Fireworks AI support BYOK on Zumik?

Yes. You can bring your own Fireworks AI key, and provider-native caching, batch, and service tiers stay active under your account.

What is the common Fireworks AI caching mistake?

Running a hot, reuse-heavy lane on serverless and blaming the model for cold-cache latency, when a dedicated deployment would hold the prefix warm.

Route Fireworks AI the smart way.

Capture Fireworks AI's 74% cache-read discount and batch tier automatically through Zumik.

Fireworks AI caching guide Compare providers