import { $ } from "../core/ui.js"; let currentUrl = "http://localhost:8000"; function render() { const c = document.querySelector(".view[data-view='guides']"); if (!c) return; c.innerHTML = `

Guides & Integrationen

Cline / Cursor (Juni 2026)

Nutze deine lokalen Modelle kostenlos in der Cursor IDE und Cline.

In Cline: Wähle "OpenAI Compatible" als Provider.

OpenWebUI (Pipes & Connections)

Verbinde llama-swap nativ in OpenWebUI.

OpenWebUI erkennt nun vollautomatisch, wenn ein Modell ausgetauscht wird.

Python / LangChain (OpenAI SDK)

Nutze das offizielle openai Package, um mit llama-swap zu sprechen.

from openai import OpenAI

client = OpenAI(
    base_url="${currentUrl}/v1",
    api_key="Dein_Token" # Optional
)

response = client.chat.completions.create(
    model="coder", # Alias aus deinem Cookbook
    messages=[{"role": "user", "content": "Hallo Modell!"}]
)

print(response.choices[0].message.content)
n8n (AI Agent Nodes)

Nutze den "OpenAI Chat Model" Node in n8n Advanced AI.

Einfach den Node verbinden, "coder" als Modell-ID (Expression) eintippen und loslegen.

Begrifflichkeiten (Glossar)

LLM-Engine (llama-swap): Der Server im Hintergrund, der die Sprachmodelle (LLMs) lädt und OpenAI-kompatible Schnittstellen bereitstellt.

VRAM: Der Grafikkarten-Speicher. KI-Modelle sind extrem groß und benötigen viel VRAM, um schnell zu laufen.

Quantisierung (z.B. Q4_K_M): Ein Verfahren, das die Genauigkeit der Modellgewichte leicht reduziert (von 16-Bit auf 4-Bit), damit sie in den VRAM passen, ohne signifikant dümmer zu werden.

Context-Window: Wie viel Text ("Tokens") sich das Modell gleichzeitig "merken" kann. Ein Buchstabe ist ~0.3 Tokens. Mehr Kontext braucht drastisch mehr VRAM.

`; } function mount() { render(); } function onStatus(s) { if (s && s.swap_url) { if (currentUrl !== s.swap_url) { currentUrl = s.swap_url; render(); // Neu rendern, wenn sich die URL ändert } } } export default { id: "guides", mount, onStatus };