Cline / Cursor (Juni 2026)

Nutze deine lokalen Modelle kostenlos in der Cursor IDE und Cline.

Cursor: Settings -> Models -> Add Custom Model Base URL (OpenAI API) API Key

In Cline: Wähle "OpenAI Compatible" als Provider.

OpenWebUI (Pipes & Connections)

Verbinde llama-swap nativ in OpenWebUI.

Settings -> Admin Settings -> Connections API Key

OpenWebUI erkennt nun vollautomatisch, wenn ein Modell ausgetauscht wird.

Python / LangChain (OpenAI SDK)

Nutze das offizielle openai Package, um mit llama-swap zu sprechen.

from openai import OpenAI

client = OpenAI(
    base_url="${currentUrl}/v1",
    api_key="Dein_Token" # Optional
)

response = client.chat.completions.create(
    model="coder", # Alias aus deinem Cookbook
    messages=[{"role": "user", "content": "Hallo Modell!"}]
)

print(response.choices[0].message.content)

n8n (AI Agent Nodes)

Nutze den "OpenAI Chat Model" Node in n8n Advanced AI.

Credentials -> OpenAI API -> Custom URL

Einfach den Node verbinden, "coder" als Modell-ID (Expression) eintippen und loslegen.

Begrifflichkeiten (Glossar)

LLM-Engine (llama-swap): Der Server im Hintergrund, der die Sprachmodelle (LLMs) lädt und OpenAI-kompatible Schnittstellen bereitstellt.

VRAM: Der Grafikkarten-Speicher. KI-Modelle sind extrem groß und benötigen viel VRAM, um schnell zu laufen.

Quantisierung (z.B. Q4_K_M): Ein Verfahren, das die Genauigkeit der Modellgewichte leicht reduziert (von 16-Bit auf 4-Bit), damit sie in den VRAM passen, ohne signifikant dümmer zu werden.

Context-Window: Wie viel Text ("Tokens") sich das Modell gleichzeitig "merken" kann. Ein Buchstabe ist ~0.3 Tokens. Mehr Kontext braucht drastisch mehr VRAM.

Guides & Integrationen