Open Weight Bench

Diagram → SVG

Photo of a hand-drawn diagram (architecture, flowchart, sequence, quadrant) → model emits inline SVG. Original and render sit side-by-side; an LLM judge rates visual fidelity.

Task & test logic in detail
Task: Photo of a hand-drawn diagram (architecture, sequence, quadrant matrix) → model must produce an inline-SVG representation of the same diagram. Two score signals: (1) Deterministic — SVG is parseable, has an <svg> root, enough elements and at least one <text>; all expected terms (boxes, labels) appear in the text content. Validity and term coverage each count for 15% of the final score. (2) Qualitative — the `diagram-svg-judge` skill screenshots the SVG and visually compares it to the original along fixed axes (completeness, connections, arrow direction, grouping, layout readability, diagram-type fidelity, aesthetics). The judge counts 70%; aesthetics is double-weighted within the judge. Why models fail: SVG generation requires spatial reasoning (positioning boxes, computing paths, setting viewBox) — noticeably harder than declarative Mermaid syntax. Weak VLMs often produce only an empty <svg> or an element salad without topology.
Prompt
System prompt
Du bist Spezialist für Diagramm-Erkennung und SVG. Du gibst sauberes, parsbares SVG zurück, das jeder Browser ohne externe Ressourcen rendern kann.
Developer prompt
Auf dem Bild siehst du ein Diagramm (Architektur, Flowchart, Sequenz, Quadrant o.ä.). Erstelle eine SVG-Repräsentation des Diagramms.

Anforderungen:
- Antworte ausschließlich mit dem rohen SVG-Code, beginnend mit <svg ...> und endend mit </svg>. Keine Erklärungen, keine Markdown-Fences.
- Setze ein viewBox-Attribut (z.B. viewBox="0 0 1200 800"), damit das Bild skaliert.
- Nur Inline-Inhalt, keine externen Referenzen (kein <image href>, kein @import, kein xlink:href auf URLs).
- Alle im Diagramm sichtbaren Beschriftungen müssen als <text>-Elemente vorhanden und lesbar (Font-Size ≥ 12) sein.
- Verbindungen als <line>, <polyline> oder <path> mit deutlichem stroke. Pfeilspitzen via <marker>.
- Gruppiere zusammengehörige Teile mit <g>-Tags und sinnvollen id-Attributen.
- Wähle ausreichend Kontrast: dunkler Stroke auf weißem/hellem Hintergrund.
- Vermeide Überlappungen — plane das Layout so, dass Boxen nicht über Pfeilen liegen und Texte nicht aus ihren Boxen herausragen.
- Behalte die Struktur des Originals bei: Anzahl der Boxen, ihre Verbindungen und ihre Anordnung sollen vergleichbar sein.

Wall-time vs. quality

X = wall-time for this bench · Y = score (0–100 %) in this bench. Optimum is top-left — fast and good. RAM estimate for 64k context: 4 GB system + model weights + max(2 GB, 40% of weights) for KV cache.

Colour = vendor · Number = total parameters (B) dense MoE

0% 25% 50% 75% 100% 0s 180s 360s 540s 720s Wall-time (s) → Score 27 35 26 31 35 26 9 9 35 9 8 8 30 12 122 5 27 5 14 4 9 30 30 4 8 4 2
Models in this bench
27 visible
  1. 1. qwen3.6-27b gguf 4bit 91% · 689s · 21 t/s · 27 GB
  2. 2. qwen3.5-35b-a3b gguf 4bit 87% · 261s · 77 t/s · 33 GB
  3. 3. gemma-4-26b-a4b gguf 8bit 87% · 265s · 72 t/s · 41 GB
  4. 4. gemma-4-31b gguf 4bit 84% · 710s · 20 t/s · 30 GB
  5. 5. qwen3.6-35b-a3b gguf 8bit 84% · 236s · 67 t/s · 53 GB
  6. 6. gemma-4-26b-a4b gguf 4bit 82% · 172s · 89 t/s · 27 GB
  7. 7. qwen3.5-9b gguf 4bit 82% · 246s · 58 t/s · 13 GB
  8. 8. qwen3.5-9b gguf 8bit 81% · 295s · 44 t/s · 18 GB
  9. 9. qwen3.6-35b-a3b gguf 4bit 80% · 187s · 80 t/s · 33 GB
  10. 10. qwen3.5-9b-mlx mlx 4bit 75% · 216s · 83 t/s · 12 GB
  11. 11. qwen3-vl-8b mlx 4bit 75% · 122s · 76 t/s · 12 GB
  12. 12. gemma-4-e4b gguf 8bit 74% · 154s · 67 t/s · 16 GB
  13. 13. nemotron-3-nano-omni gguf 8bit 64% · 313s · 76 t/s · 50 GB
  14. 14. gemma-3-12b mlx 4bit 61% · 101s · 56 t/s · 15 GB
  15. 15. qwen3.5-122b-a10b gguf 4bit 60% · 563s · 39 t/s · 102 GB
  16. 16. gemma-4-e2b gguf 8bit 59% · 67s · 110 t/s · 12 GB
  17. 17. gemma-3-27b mlx 4bit 57% · 188s · 27 t/s · 26 GB
  18. 18. gemma-4-e2b gguf 4bit 55% · 74s · 129 t/s · 10 GB
  19. 19. ministral-3-14b-reasoning gguf 4bit 49% · 136s · 47 t/s · 16 GB
  20. 20. qwen3.5-4b gguf 4bit 49% · 180s · 85 t/s · 9 GB
  21. 21. glm-4.6v-flash mlx 4bit 47% · 288s · 62 t/s · 13 GB
  22. 22. qwen3-vl-30b mlx 4bit 46% · 247s · 74 t/s · 28 GB
  23. 23. nemotron-3-nano-omni gguf 4bit 46% · 370s · 84 t/s · 38 GB
  24. 24. gemma-3-4b mlx 4bit 41% · 42s · 140 t/s · 9 GB
  25. 25. gemma-4-e4b gguf 4bit 22% · 127s · 88 t/s · 12 GB
  26. 26. gemma-3n-e4b mlx 4bit 21% · 69s · 79 t/s · 12 GB
  27. 27. qwen3.5-2b gguf 4bit 0% · 232s · 160 t/s · 8 GB
Model Vendor Quant Ctx Released RAM tok/s Tokens Wall Score

Click a row to open the model detail page. Hover shows available render previews. Column headers are sortable.