(06) Lokale KI

Intelligenz auf
deinem Rechner.

Die verbreiteten Cloud-KI-Dienste verarbeiten jede Eingabe auf Servern in den USA. Ihre Modelle sind proprietär: du hast keinen Einblick, keine Kontrolle, keine Wahl. Ollama bringt quelloffene Sprachmodelle auf deine eigene Hardware. Deine Eingaben verlassen das Gerät nicht.

Das Problem

Was passiert, wenn du Cloud-KI nutzt.

Daten

Deine Eingaben auf fremden Servern

OpenAI, Google und andere Cloud-KI-Anbieter verarbeiten jede Eingabe auf eigenen Servern in den USA. Per Nutzungsbedingungen können Eingaben für das Training neuer Modelle genutzt werden, sofern man nicht aktiv widerspricht. Wer vertrauliche Texte, Kundendaten, interne Dokumente oder persönliche Informationen eingibt, gibt diese an Dritte weiter, ob bewusst oder nicht.

Kosten

Abo-Pflicht für brauchbare Modelle

Kostenlose Zugänge zu Cloud-KI-Diensten setzen auf gedrosselte oder ältere Modelle. Wer aktuelle Leistung braucht, zahlt 20 Euro pro Monat und mehr, pro Person. Bei einem kleinen Team summiert sich das schnell auf mehrere hundert Euro pro Jahr für ein einziges Werkzeug, das du weder kontrollierst noch besitzt.

Abhängigkeit

Kein Dienst, kein Workflow

Wer KI-Werkzeuge in produktive Abläufe integriert hat, ist auf deren Verfügbarkeit angewiesen. Wartungsfenster, Störungen und API-Ausfälle unterbrechen den Betrieb. Wer keinen Einfluss auf die Infrastruktur hat, hat keinen Einfluss auf die Verfügbarkeit. Und wer einen API-Schlüssel hat, hat auch eine Rechnung, die mit jedem Aufruf wächst.

Filter

Zensur und weichgespülte Antworten

Cloud-Modelle werden auf kommerzielle Verwertbarkeit hin optimiert. Heikle Themen werden abgelehnt oder mit ausweichenden Antworten bedacht. Inhalte, die im amerikanischen Markt als problematisch gelten, sind auch für deutsche Nutzer*innen unzugänglich. Ein lokal laufendes Modell kennt keine Content-Policy eines US-Konzerns.

Die Lösung

Ollama: Ein Befehl. Das Modell läuft.

Ollama ist ein freies, quelloffenes Werkzeug, das große Sprachmodelle auf deiner eigenen Hardware ausführt. Es läuft unter Linux, macOS und Windows, braucht keine API-Schlüssel, keine Anmeldung und kein Abonnement. Du lädst ein Modell herunter, und es läuft. Lokal, offline, ohne dass eine Verbindung nach außen geht.

Open WebUI ist eine Browser-Oberfläche für Ollama: Gesprächsverläufe, mehrere Modelle, Dokumenten-Upload, System-Prompts, Benutzerkonten. Alles selbst gehostet, alles privat, kein Account bei einem Drittanbieter.

Die verfügbaren quelloffenen Modelle reichen von kleinen, schnellen Modellen für einfache Aufgaben bis zu großen Modellen, die sich für viele Alltagsaufgaben mit kommerziellen Diensten messen, wenn die Hardware es erlaubt. Entscheidend: Die Modellgewichte sind frei verfügbar, du kannst sie herunterladen, behalten und ohne Internetverbindung nutzen. Kein Anbieter kann sie dir entziehen oder die Konditionen ändern.

0 €

Lizenzkosten für Llama, Mistral, Qwen, Gemma, Phi und dutzende weitere Modelle

offline

Ollama funktioniert vollständig ohne aktive Internetverbindung

privat

Deine Eingaben verlassen das Gerät nicht

offen

Ollama und Open WebUI sind vollständig quelloffen (MIT). Die empfohlenen Modelle sind frei verfügbar und lokal nutzbar.

Modelle

Welche Modelle es gibt und was sie können.

Alle hier genannten Modelle sind kostenlos verfügbar und über Ollama installierbar. Die Auswahl richtet sich nach Hardware, Anwendungsfall und gewünschter Qualität.

Llama 3.2 3B

Metas kleines Modell: sehr schnell, läuft auf jedem modernen Laptop ohne dedizierte GPU. Gut für kurze Texte, Zusammenfassungen und schnelle Antworten. Ideal zum Einstieg.

Laptop, CPU, Einsteiger

Mistral 7B

Schnell und effizient, breite Sprachunterstützung, gut dokumentiert. Läuft auf 8 GB RAM. Guter Allrounder für Alltagsaufgaben wie Texte verfassen, zusammenfassen und umformulieren.

Alltagsnutzung, 8 GB RAM

Qwen 2.5 7B / 14B

Alibabas quelloffenes Modell: besonders stark in Deutsch und Code. Das 7B-Modell läuft auf normalem Laptop-RAM, das 14B auf einer Mittelklasse-GPU.

Deutsch, Code, 7B bis 14B

Gemma 3 12B

Google DeepMind, open weights. Sehr gute Allround-Leistung, übertrifft bei vielen Aufgaben ältere 70B-Modelle. GPU empfohlen, läuft aber auch auf Systemen mit viel RAM.

Allrounder, GPU empfohlen

Phi-4 14B

Microsoft Research: übertrifft deutlich größere Modelle bei logischen Schlussfolgerungen und Mathematik. Sparsam in der Hardware-Nutzung und präzise in der Ausgabe.

Logik, Mathe, 14B

Llama 3.3 70B

Metas Flaggschiff: vergleichbar mit GPT-4-Klasse in vielen Aufgaben. Benötigt ca. 40 GB VRAM oder ein System mit viel Arbeitsspeicher. Für anspruchsvolle Aufgaben ohne Cloud.

Beste Qualität, GPU nötig

Hardware

Was du brauchst, um loszulegen.

Ohne GPU

Jeder moderne Rechner

Für 3B bis 8B Modelle reicht ein aktueller Laptop oder Desktop ohne dedizierte GPU. Die CPU übernimmt die Berechnung: langsamer als eine GPU, aber vollständig funktional. Für die meisten Alltagsaufgaben reicht das aus. Wer nicht dringend schnelle Antworten braucht, kann auf teuere Hardware verzichten.

Mit Consumer-GPU

RTX 3060 12 GB oder besser

Eine NVIDIA RTX 3060 mit 12 GB VRAM läuft 7B und 13B Modelle schnell und flüssig. Ab RTX 4070 Ti Super oder RX 7900 XT (16 GB VRAM) sind auch 14B Modelle sehr komfortabel. AMD-GPUs werden von Ollama über ROCm unterstützt, mit ähnlicher Leistung bei vergleichbarer VRAM-Ausstattung.

Mac mit Apple Silicon

M2 Pro / M3 / M4

Apple-Silicon-Macs nutzen Unified Memory für CPU und GPU gemeinsam. Ein M3 Pro mit 36 GB läuft 14B Modelle sehr gut. Ein M3 Max mit 64 GB läuft Llama 70B komfortabel. Der Vorteil: hohe Energieeffizienz, kein separates GPU-Modul nötig.

Auf dem Server

Netzwerkzugriff über Open WebUI

Ollama lässt sich auf einem Linux-Server betreiben und über Open WebUI im lokalen Netzwerk zugänglich machen. Mehrere Personen im Heimnetz oder Büro nutzen dasselbe Modell über denselben Server: zentral, effizient, vollständig privat. Eine GPU im Server mit 12 GB VRAM reicht für den Alltagsbetrieb aus.

Automatisierung und Agenten

Wenn das Modell nicht nur antwortet, sondern arbeitet.

Ein Sprachmodell, das Fragen beantwortet, ist ein Anfang. Mit n8n und Paperclip wird die lokale KI zum Herzstück einer vollständigen Automatisierungsinfrastruktur auf eigener Hardware.

n8n

Workflows, die denken.

n8n ist ein quelloffenes Automatisierungswerkzeug mit visueller Oberfläche. Verbinde selbst gehostete Dienste miteinander: Nextcloud, Paperless, Home Assistant, E-Mail, Datenbanken, Webdienste. Über die Ollama-Integration entscheidet ein lokales Sprachmodell innerhalb des Workflows: Dokumente klassifizieren, Texte zusammenfassen, Anfragen beantworten, Inhalte generieren. Keine Cloud-API, kein API-Schlüssel, keine Kosten pro Aufruf.

Paperclip

Deine KI-Organisation.

Paperclip ist ein quelloffenes Framework, mit dem du ganze "Abteilungen" aus autonomen KI-Agenten aufbaust. Jeder Agent hat eine Rolle, Werkzeuge und einen Heartbeat: er arbeitet nicht nur auf Anfrage, sondern proaktiv nach Plan. Eine Marketing-Abteilung, die Inhalte vorbereitet. Ein Social-Media-Agent, der Posts ausarbeitet und zur Freigabe vorlegt. Ein DevOps-Agent, der Logs analysiert und bei Anomalien selbstständig handelt. Alles lokal, alles mit quelloffenen Modellen über Ollama.

Was damit möglich ist

E-Mails automatisch klassifizieren Dokumente zusammenfassen und ablegen Social-Media-Inhalte vorbereiten Server-Logs analysieren Autonome Monitoring-Reaktionen Kundenanfragen vorsortieren Berichte automatisch erstellen Texte im Hintergrund übersetzen Rechnungsverarbeitung Newsletter-Inhalte generieren Wissensbase aufbauen und befragen Wiederkehrende Aufgaben delegieren

Was ich anbiete

Von der Einrichtung bis zur täglichen Nutzung.

Beratung und Modellauswahl

Nicht jedes Modell passt zu jedem Anwendungsfall und jeder Hardware. Ich bespreche mit dir, was du erreichen möchtest: Texte verfassen, Code schreiben, Dokumente analysieren, Übersetzungen, Zusammenfassungen oder kreative Aufgaben. Auf Basis deiner Hardware und deines konkreten Bedarfs empfehle ich das Modell, das am besten passt. Wir sprechen auch über die Grenzen lokaler KI, damit die Erwartungen stimmen.

Ollama installieren und einrichten

Ich installiere Ollama auf deinem System: Linux, macOS oder Windows. Wir laden gemeinsam die passenden Modelle herunter, konfigurieren den Dienst und testen, ob alles wie gewünscht funktioniert. Wo sinnvoll, richte ich Ollama als Systemdienst ein, der beim Start automatisch läuft, damit das Modell immer verfügbar ist.

Open WebUI aufsetzen

Open WebUI ist eine vollständige Browser-Oberfläche: Gesprächsverläufe, mehrere Modelle, Dokumenten-Upload, System-Prompts, Benutzerkonten. Ich richte sie als lokalen Dienst ein, zugänglich über den Browser, ohne Cloud, ohne Anmeldung bei Dritten. Auf Wunsch auch im Heimnetz oder auf einem Server, sodass mehrere Personen darauf zugreifen können.

n8n: Automatisierung mit lokaler KI

n8n verbindet selbst gehostete Dienste miteinander und nutzt dabei ein lokales Ollama-Modell als Entscheidungsschicht. Ich richte n8n auf deinem Server ein, verbinde es mit Ollama und baue mit dir die Workflows, die du brauchst: Dokumente klassifizieren, E-Mails verarbeiten, Texte generieren, Daten aufbereiten. Alles lokal, kein Aufruf einer externen API, keine nutzungsabhängigen Kosten. Auch die Anbindung an Home Assistant, Nextcloud und Paperless ist möglich.

Prompting-Workshop

Die meisten Menschen nutzen einen Bruchteil des Potenzials von Sprachmodellen. Der Unterschied liegt in der Qualität der Eingaben. Im Workshop zeige ich, wie man klare Rollen und Kontexte formuliert, wie man Modelle zu schrittweisem Denken bringt, wie man Ausgaben strukturiert und wie man Antworten iterativ verbessert. Diese Fähigkeiten gelten für alle Modelle: lokal wie Cloud.

Paperclip: autonome Agenten-Systeme

Paperclip ermöglicht den Aufbau von KI-Abteilungen aus autonomen Agenten, die proaktiv und nach Plan arbeiten. Ich helfe dir, das Framework einzurichten und die ersten Agenten zu konfigurieren: ein Monitoring-Agent, der Systeme überwacht und selbstständig reagiert, ein Redaktions-Agent, der Inhalte vorbereitet und zur Freigabe vorlegt, oder eine eigene Mini-Organisation für wiederkehrende Aufgaben. Alles lokal, alles mit quelloffenen Modellen über Ollama.

Nachbetreuung

Nach der Einrichtung tauchen immer neue Fragen auf: ein neues Modell, das besser für eine bestimmte Aufgabe geeignet ist, ein Update von Ollama oder Open WebUI, eine neue Automatisierung in n8n oder ein weiterer Agent in Paperclip. Ich bin per E-Mail erreichbar und helfe bei allem, was nach dem ersten Setup auftaucht.

Prompting-Wissen

KI ist so gut wie der Mensch, der mit ihr arbeitet.

Ein Sprachmodell ist kein Orakel und keine Suchmaschine. Es ist ein Werkzeug, das Wahrscheinlichkeiten über Textfolgen berechnet und dabei sehr gut darin ist, plausibel klingende Antworten zu produzieren, die trotzdem falsch sein können. Das zu wissen, ist der erste Schritt zum sinnvollen Einsatz.

Gute Eingaben beschreiben den Kontext, die Rolle und das gewünschte Ergebnis. Wer einem Modell sagt, es solle wie ein erfahrener Lektor vorgehen, bekommt andere Ergebnisse als wer einfach fragt "Verbessere diesen Text". Wer das gewünschte Format vorgibt (Aufzählung, JSON, bestimmte Länge), bekommt strukturiertere Ausgaben. Wer in Schritten denkt, bekommt präzisere Antworten.

Halluzinationen sind ein strukturelles Merkmal von Sprachmodellen, kein Bug. Modelle erfinden manchmal Fakten, weil sie auf Plausibilität optimiert sind, nicht auf Wahrheit. Wichtige Fakten immer überprüfen. KI ist Assistent, nicht Autorität.

Kontext

Wer einen klaren Hintergrund und eine klare Rolle vorgibt, bekommt präzisere Antworten als wer nur eine Frage stellt.

Struktur

Gewünschtes Format vorschreiben: Liste, JSON, Fließtext, bestimmte Länge. Modelle folgen Formatvorgaben zuverlässig.

Iteration

Eine gute Antwort entsteht selten beim ersten Versuch. Nachfragen, verfeinern, Kontext ergänzen: der Dialog ist der Prozess.

Grenzen kennen

Modelle halluzinieren. Fakten immer überprüfen. KI ist Werkzeug und Assistent, nicht Entscheidungsautorität.

Für wen

Lokale KI ist kein Nischenthema mehr.

Wer bisher dachte, KI-Modelle lokal zu betreiben sei ein Projekt für Rechenzentren: Das stimmt nicht mehr. Ein moderner Laptop reicht für brauchbare 7B-Modelle. Eine Mittelklasse-GPU macht 13B-Modelle zu täglichen Werkzeugen. Besonders sinnvoll ist lokale KI überall dort, wo Datenschutz eine Rolle spielt oder Cloud-Kosten unangemessen sind.

Was nicht passt: wer nur gelegentlich eine Frage stellt und keinen Wert auf Privatsphäre legt. Für solche Fälle ist die kostenlose Tier eines Cloud-Anbieters wahrscheinlich die pragmatischere Wahl. Das bespreche ich ehrlich in der Beratung.

Selbstständige und Freiberufler

Die vertrauliche Dokumente bearbeiten und keine Lust auf ein weiteres Abo haben.

Berufe mit Datenschutzpflicht

Arztpraxen, Kanzleien, Steuerberater, Beratungsunternehmen: wo Mandantendaten nicht auf fremde Server dürfen.

Technikinteressierte

Die verstehen wollen, wie Sprachmodelle wirklich funktionieren und damit experimentieren möchten.

Alle mit Cloud-Abo

Die für Cloud-KI-Abos zahlen und wissen wollen, ob das lokal ebenso funktioniert und was es kostet.

Häufige Fragen

Was ich oft höre.

"Ist lokale KI wirklich so gut wie ChatGPT?"

Das hängt vom Modell und der Aufgabe ab. Für viele Alltagsaufgaben (Texte umformulieren, Zusammenfassungen, einfache Code-Aufgaben, Fragen beantworten) sind 7B bis 14B Modelle vollständig ausreichend. Für sehr komplexe Analysen oder kreative Aufgaben, die viel Kontext und Nuancen erfordern, haben große Cloud-Modelle noch Vorteile. Das klären wir in der Beratung konkret für deine Anwendungsfälle.

"Mein Rechner ist zu alt oder zu schwach."

Für einfache Modelle wie Llama 3.2 3B reicht ein moderner Bürorechner mit 8 GB RAM. Die Antworten kommen langsamer als auf einer GPU, aber sie kommen. Wir schauen uns gemeinsam an, welches Modell auf deiner Hardware sinnvoll läuft, bevor wir loslegen. In vielen Fällen reicht das vorhandene System bereits aus.

"Ich habe keine IT-Kenntnisse."

Ollama ist bewusst für einfache Bedienung gebaut. Open WebUI läuft danach im Browser wie jede andere Webanwendung. Die Einrichtung erkläre ich Schritt für Schritt, und danach ist die tägliche Nutzung nicht komplizierter als ein Browser-Tab öffnen und tippen.

"Wofür soll ich das konkret einsetzen?"

Texte umformulieren, Dokumente zusammenfassen, Ideen strukturieren, Code-Schnipsel schreiben, E-Mail-Entwürfe, Übersetzungen, Recherche-Zusammenfassungen. Quelloffene Modelle können das alles lokal, ohne dass Eingaben das Gerät verlassen und ohne Abhängigkeit von einem Anbieter.

Loslegen

KI auf deiner Hardware einrichten.

Schreib mir kurz, was du vorhast: welches Gerät du hast, wofür du KI nutzen möchtest und was du bisher verwendet hast. Ich melde mich in der Regel am selben Werktag mit einer ehrlichen Einschätzung, was bei dir möglich ist und was es kostet.

Gespräch anfragen

Intelligenz aufdeinem Rechner.