KI lokal auf dem PC nutzen: So geht´s mit Ollama ganz einfach

15. Juni 2025

IDG Als Alternative zu den großen KI-Anbietern wie OpenAI haben sich Entwickler aus dem akademischen Bereich und aus der Open-Source-Szene um freie KI-Modelle gekümmert. Mittlerweile sind viele Large Language Models für Aufgabenbereiche wie natürliche Sprache und Programmierung kostenlos verfügbar und auf leistungsfähigen Rechnern lokal installierbar. Die Übertragung eventuell vertraulicher Daten zu einem Clouddienst entfällt damit und für eine API auf dem gleichen Rechner oder im LAN fallen keine Gebühren an. Die potenziell sehr mächtige und effiziente LLM Deep Seek aus China läuft auf den Servern des Anbieters nur mit eingeschalteter Zensur, die KI-Abfragen zu politisch unliebsamen Themen blockiert. Wird Deep Seek hingegen mit Ollama lokal ausgeführt, so ist die Zensur dabei einfach abgeschaltet und die LLM kann ihr volles Potenzial ausspielen. Die Installation von LLMs ist unter Linux vergleichsweise einfach, weil die benötigten Python- und anderen Programmbibliotheken von Haus aus vorliegen. Beim Testen und Wechseln mehrerer LLMs ist ein Verwaltungstool wie Ollama aber trotzdem von Vorteil. Denn damit ist ein Modell aus einem Onlineverzeichnis schnell mal installiert und auch wieder flott entfernt. LLMs sind üblicherweise mehrere Gigabyte groß und auf Rechnern mit kleineren NVME-Laufwerken sind hin und wieder Aufräumarbeiten nach Tests von KI-Modellen nötig. Ollama: Voraussetzungen und Modelle Die KI-Verwaltung Ollama ist zunächst ein reines Kommandozeilenprogramm. Es läuft als Systemd-Dienst im Hintergrund und stellt lokal einen Webserver für Anfragen per schlichtem Eingabeprompt bereit. Als Erweiterung gibt es aber zusätzlich eine nettere Weboberfläche, die separat installiert wird. Modelle holen und ausführen: Ollama ist ein Kommandozeilentool und verwaltet je nach Platzangebot auf dem Datenträger beliebig viele LLMs aus seinem Onlineverzeichnis.IDG Falls eine geeignete Nvidia-Grafikkarte ab 8 GB Video-RAM und die Cuda-Runtime Nvidias (Download für Linux) vorhanden sind, spannt Ollama automatisch diesen KI-Beschleuniger ein. Dies verspricht einen ordentlichen Performanceschub, bleibt aber erfreulicherweise optional. Ollama und die verfügbaren Modelle laufen auch nur mit der CPU, wenn auch langsamer. Arbeitsspeicher verlangen die Modelle aber alle in rauen Mengen. Es gibt zwar einige abgespeckte Modelle für Testzwecke, die schon mit 4 GB RAM zufrieden sind, doch ein sinnvolles Minimum sind eher 8 bis 16 GB. Und je nach Modell und gewünschter Anzahl sind natürlich etliche Gigabyte Platz auf dem Datenträger im Home-Verzeichnis vonnöten. Mit kleinen Modellen kann Ollama aber auch auf einem Raspberry Pi 4/5 laufen. Die Zahl der verfügbaren Modelle (LLMs) ist in den letzten Wochen stark angewachsen: Rund 240 Modelle kann Ollama inzwischen aus seinem Onlineverzeichnis beziehen. Einige Modelle gibt es in verschiedenen Größen und auch abgespeckt, und zu den Highlights gehören neben dem eingangs erwähnten Deep Seek das neue Deep Seek 2.5 als Programmierhilfe, das französische Mistral in mehreren Varianten und die Llama-Modelle von Meta/Facebook, Phi von Microsoft, Gemma3 von Google und Gwen3 von Alibaba. Speziell für die Arbeit mit natürlichen Sprachen aus dem europäischen Sprachraum sowie Deutsch steht Stablelm2 in einer kleinen Variante (1,6 GB) und in vollem Umfang (12 GB) bereit. Eine durchsuchbare Übersicht findet sich auf ollama.com/search. Installation: Rahmenwerk und LLMs Die Einrichtung des Ollama-Rahmenwerks gelingt mit einem vorbereiteten Installations-Script, das mit dem Kommando wget https://ollama.com/install.sh ins aktuelle Verzeichnis heruntergeladen wird. Das Script verlangt als Voraussetzung nur das Downloadtool curl, das über das gleichnamige Paket bei Bedarf in allen Linux-Distributionen schnell nachinstalliert ist. Der Aufruf sh install.sh startet dann die Einrichtung von Ollama. Das Script fragt das sudo-Passwort ab und startet dann einen Systemd-Dienst für Ollama sowie einen lokalen, integrierten Webserver, der auf Port 11434 startet. Der Webserver ist daher auf dem lokalen System im Browser über die Adresse localhost:11434 aufrufbar. Browseroberfläche für Ollama: Open-Web-UI ist als Python-Programm oder auch in einem Docker-Container flott eingerichtet und liefert eine Bedienoberfläche nach.IDG Dort steht erst mal nur „Ollama is running“, denn es fehlen noch LLMs. Auf Wunsch gibt es auch eine hübschere Weboberfläche. Zunächst geht es also wieder in das Terminal, um mit „ollama pull [Modell]“ ein Modell lokal herunterzuladen, also beispielsweise mit dem Kommando ollama pull llama3 das rund 4,7 GB große LLM „llama3“. Anschließend führt der Befehl ollama run llama3 dieses Modell aus. Auf diese Weise sind mehrere Modelle installierbar und der Befehl „ollama list“ zeigt eine Liste der lokal installierten LLMs an. Das Kommando ollama rm llama3 würde das Modell „llama3“ später wieder komplett entfernen. Nun aber erst mal an die Arbeit mit dem gerade ausgeführten LLM: Im Terminal zeigt sich nach dem Run-Befehl aus dem vorherigen Schritt ein Eingabeprompt, das eine Frage im Stil eines Chatbots erwartet. Je nach Modell kann die Eingabe in Englisch oder auch in Deutsch erfolgen und auch die Antwort erfolgt dann im Terminal darunter. Open-Web-UI: Schönere Oberfläche Ein KI-Chat im Terminal ist erst mal nicht sehr komfortabel. Der schon gestartete interne Webserver des Ollama tut erst mal nicht viel, sondern stellt anderen Programmen lediglich eine API per HTTP bereit. An diese kann sich nun die extern verfügbare Open-Web-UI klemmen und eine Verwaltungs- und Chatbot-Oberfläche bereitstellen. Zur Installation von Open-Web-UI gibt es mehrere Wege, etwa auch als Container mit Docker oder dem neueren Podman. Es handelt sich dabei um ein Python-Projekt, das auch ohne Container-Runtimes direkt mit Python funktioniert. Auch für Open-Web-UI gibt es ein Bash-Installations-Script, welches der Befehl wget https://astral.sh/uv/install.sh herunterlädt und die nachfolgende Eingabe sh install.sh ausführt. Danach ist eine Abmeldung und Neuanmeldung am System nötig, damit der neu angelegte Ordner im Home-Verzeichnis „/.local/bin/“ in der Pfad-Variable verfügbar ist. Danach schließt die weitere Eingabe von DATA_DIR=~/.open-webui uvx --python 3.11 open-webui@latest serve im Terminal die Installation ab, wobei das Installations-Script nochmal rund 2,4 GB Daten herunterladen muss. Diese Weboberfläche läuft dann auch mit einem internen, automatisch gestarteten Webserver, allerdings auf dem Port 8080, welcher in der Adresszeile eines Browsers dann über http://localhost:8080 erreichbar ist. Es ist nach einem Neustart immer nötig, den Webserver neu zu starten, doch ein erneuter Download der Dateien entfällt. Beim Besuch der lokalen Seite ist es pro forma zuerst nötig, einen Benutzeraccount (Administrator) zu erstellen. Diese Daten verlassen den lokalen Computer jedoch nicht. Danach ist über die Menüleiste links oben eines der installierten Modelle wählbar und im Hauptfenster kann das KI-Modell mit Fragen gefüttert werden. (PC-Welt)

KI lokal auf dem PC nutzen: So geht´s mit Ollama ganz einfach IDG Als Alternative zu den großen KI-Anbietern wie OpenAI haben sich Entwickler aus dem akademischen Bereich und aus der Open-Source-Szene um freie KI-Modelle gekümmert. Mittlerweile sind viele Large Language Models für Aufgabenbereiche wie natürliche Sprache und Programmierung kostenlos verfügbar und auf leistungsfähigen Rechnern lokal installierbar. Die Übertragung eventuell vertraulicher Daten zu einem Clouddienst entfällt damit und für eine API auf dem gleichen Rechner oder im LAN fallen keine Gebühren an. Die potenziell sehr mächtige und effiziente LLM Deep Seek aus China läuft auf den Servern des Anbieters nur mit eingeschalteter Zensur, die KI-Abfragen zu politisch unliebsamen Themen blockiert. Wird Deep Seek hingegen mit Ollama lokal ausgeführt, so ist die Zensur dabei einfach abgeschaltet und die LLM kann ihr volles Potenzial ausspielen. Die Installation von LLMs ist unter Linux vergleichsweise einfach, weil die benötigten Python- und anderen Programmbibliotheken von Haus aus vorliegen. Beim Testen und Wechseln mehrerer LLMs ist ein Verwaltungstool wie Ollama aber trotzdem von Vorteil. Denn damit ist ein Modell aus einem Onlineverzeichnis schnell mal installiert und auch wieder flott entfernt. LLMs sind üblicherweise mehrere Gigabyte groß und auf Rechnern mit kleineren NVME-Laufwerken sind hin und wieder Aufräumarbeiten nach Tests von KI-Modellen nötig. Ollama: Voraussetzungen und Modelle Die KI-Verwaltung Ollama ist zunächst ein reines Kommandozeilenprogramm. Es läuft als Systemd-Dienst im Hintergrund und stellt lokal einen Webserver für Anfragen per schlichtem Eingabeprompt bereit. Als Erweiterung gibt es aber zusätzlich eine nettere Weboberfläche, die separat installiert wird. Modelle holen und ausführen: Ollama ist ein Kommandozeilentool und verwaltet je nach Platzangebot auf dem Datenträger beliebig viele LLMs aus seinem Onlineverzeichnis.IDG Falls eine geeignete Nvidia-Grafikkarte ab 8 GB Video-RAM und die Cuda-Runtime Nvidias (Download für Linux) vorhanden sind, spannt Ollama automatisch diesen KI-Beschleuniger ein. Dies verspricht einen ordentlichen Performanceschub, bleibt aber erfreulicherweise optional. Ollama und die verfügbaren Modelle laufen auch nur mit der CPU, wenn auch langsamer. Arbeitsspeicher verlangen die Modelle aber alle in rauen Mengen. Es gibt zwar einige abgespeckte Modelle für Testzwecke, die schon mit 4 GB RAM zufrieden sind, doch ein sinnvolles Minimum sind eher 8 bis 16 GB. Und je nach Modell und gewünschter Anzahl sind natürlich etliche Gigabyte Platz auf dem Datenträger im Home-Verzeichnis vonnöten. Mit kleinen Modellen kann Ollama aber auch auf einem Raspberry Pi 4/5 laufen. Die Zahl der verfügbaren Modelle (LLMs) ist in den letzten Wochen stark angewachsen: Rund 240 Modelle kann Ollama inzwischen aus seinem Onlineverzeichnis beziehen. Einige Modelle gibt es in verschiedenen Größen und auch abgespeckt, und zu den Highlights gehören neben dem eingangs erwähnten Deep Seek das neue Deep Seek 2.5 als Programmierhilfe, das französische Mistral in mehreren Varianten und die Llama-Modelle von Meta/Facebook, Phi von Microsoft, Gemma3 von Google und Gwen3 von Alibaba. Speziell für die Arbeit mit natürlichen Sprachen aus dem europäischen Sprachraum sowie Deutsch steht Stablelm2 in einer kleinen Variante (1,6 GB) und in vollem Umfang (12 GB) bereit. Eine durchsuchbare Übersicht findet sich auf ollama.com/search. Installation: Rahmenwerk und LLMs Die Einrichtung des Ollama-Rahmenwerks gelingt mit einem vorbereiteten Installations-Script, das mit dem Kommando wget https://ollama.com/install.sh ins aktuelle Verzeichnis heruntergeladen wird. Das Script verlangt als Voraussetzung nur das Downloadtool curl, das über das gleichnamige Paket bei Bedarf in allen Linux-Distributionen schnell nachinstalliert ist. Der Aufruf sh install.sh startet dann die Einrichtung von Ollama. Das Script fragt das sudo-Passwort ab und startet dann einen Systemd-Dienst für Ollama sowie einen lokalen, integrierten Webserver, der auf Port 11434 startet. Der Webserver ist daher auf dem lokalen System im Browser über die Adresse localhost:11434 aufrufbar. Browseroberfläche für Ollama: Open-Web-UI ist als Python-Programm oder auch in einem Docker-Container flott eingerichtet und liefert eine Bedienoberfläche nach.IDG Dort steht erst mal nur „Ollama is running“, denn es fehlen noch LLMs. Auf Wunsch gibt es auch eine hübschere Weboberfläche. Zunächst geht es also wieder in das Terminal, um mit „ollama pull [Modell]“ ein Modell lokal herunterzuladen, also beispielsweise mit dem Kommando ollama pull llama3 das rund 4,7 GB große LLM „llama3“. Anschließend führt der Befehl ollama run llama3 dieses Modell aus. Auf diese Weise sind mehrere Modelle installierbar und der Befehl „ollama list“ zeigt eine Liste der lokal installierten LLMs an. Das Kommando ollama rm llama3 würde das Modell „llama3“ später wieder komplett entfernen. Nun aber erst mal an die Arbeit mit dem gerade ausgeführten LLM: Im Terminal zeigt sich nach dem Run-Befehl aus dem vorherigen Schritt ein Eingabeprompt, das eine Frage im Stil eines Chatbots erwartet. Je nach Modell kann die Eingabe in Englisch oder auch in Deutsch erfolgen und auch die Antwort erfolgt dann im Terminal darunter. Open-Web-UI: Schönere Oberfläche Ein KI-Chat im Terminal ist erst mal nicht sehr komfortabel. Der schon gestartete interne Webserver des Ollama tut erst mal nicht viel, sondern stellt anderen Programmen lediglich eine API per HTTP bereit. An diese kann sich nun die extern verfügbare Open-Web-UI klemmen und eine Verwaltungs- und Chatbot-Oberfläche bereitstellen. Zur Installation von Open-Web-UI gibt es mehrere Wege, etwa auch als Container mit Docker oder dem neueren Podman. Es handelt sich dabei um ein Python-Projekt, das auch ohne Container-Runtimes direkt mit Python funktioniert. Auch für Open-Web-UI gibt es ein Bash-Installations-Script, welches der Befehl wget https://astral.sh/uv/install.sh herunterlädt und die nachfolgende Eingabe sh install.sh ausführt. Danach ist eine Abmeldung und Neuanmeldung am System nötig, damit der neu angelegte Ordner im Home-Verzeichnis „/.local/bin/“ in der Pfad-Variable verfügbar ist. Danach schließt die weitere Eingabe von DATA_DIR=~/.open-webui uvx --python 3.11 open-webui@latest serve im Terminal die Installation ab, wobei das Installations-Script nochmal rund 2,4 GB Daten herunterladen muss. Diese Weboberfläche läuft dann auch mit einem internen, automatisch gestarteten Webserver, allerdings auf dem Port 8080, welcher in der Adresszeile eines Browsers dann über http://localhost:8080 erreichbar ist. Es ist nach einem Neustart immer nötig, den Webserver neu zu starten, doch ein erneuter Download der Dateien entfällt. Beim Besuch der lokalen Seite ist es pro forma zuerst nötig, einen Benutzeraccount (Administrator) zu erstellen. Diese Daten verlassen den lokalen Computer jedoch nicht. Danach ist über die Menüleiste links oben eines der installierten Modelle wählbar und im Hauptfenster kann das KI-Modell mit Fragen gefüttert werden. (PC-Welt)

IDG Als Alternative zu den großen KI-Anbietern wie OpenAI haben sich Entwickler aus dem akademischen Bereich und aus der Open-Source-Szene um freie KI-Modelle gekümmert. Mittlerweile sind viele Large Language Models für Aufgabenbereiche wie natürliche Sprache und Programmierung kostenlos verfügbar und auf leistungsfähigen Rechnern lokal installierbar. Die Übertragung eventuell vertraulicher Daten zu einem Clouddienst entfällt damit und für eine API auf dem gleichen Rechner oder im LAN fallen keine Gebühren an. Die potenziell sehr mächtige und effiziente LLM Deep Seek aus China läuft auf den Servern des Anbieters nur mit eingeschalteter Zensur, die KI-Abfragen zu politisch unliebsamen Themen blockiert. Wird Deep Seek hingegen mit Ollama lokal ausgeführt, so ist die Zensur dabei einfach abgeschaltet und die LLM kann ihr volles Potenzial ausspielen. Die Installation von LLMs ist unter Linux vergleichsweise einfach, weil die benötigten Python- und anderen Programmbibliotheken von Haus aus vorliegen. Beim Testen und Wechseln mehrerer LLMs ist ein Verwaltungstool wie Ollama aber trotzdem von Vorteil. Denn damit ist ein Modell aus einem Onlineverzeichnis schnell mal installiert und auch wieder flott entfernt. LLMs sind üblicherweise mehrere Gigabyte groß und auf Rechnern mit kleineren NVME-Laufwerken sind hin und wieder Aufräumarbeiten nach Tests von KI-Modellen nötig. Ollama: Voraussetzungen und Modelle Die KI-Verwaltung Ollama ist zunächst ein reines Kommandozeilenprogramm. Es läuft als Systemd-Dienst im Hintergrund und stellt lokal einen Webserver für Anfragen per schlichtem Eingabeprompt bereit. Als Erweiterung gibt es aber zusätzlich eine nettere Weboberfläche, die separat installiert wird. Modelle holen und ausführen: Ollama ist ein Kommandozeilentool und verwaltet je nach Platzangebot auf dem Datenträger beliebig viele LLMs aus seinem Onlineverzeichnis.IDG Falls eine geeignete Nvidia-Grafikkarte ab 8 GB Video-RAM und die Cuda-Runtime Nvidias (Download für Linux) vorhanden sind, spannt Ollama automatisch diesen KI-Beschleuniger ein. Dies verspricht einen ordentlichen Performanceschub, bleibt aber erfreulicherweise optional. Ollama und die verfügbaren Modelle laufen auch nur mit der CPU, wenn auch langsamer. Arbeitsspeicher verlangen die Modelle aber alle in rauen Mengen. Es gibt zwar einige abgespeckte Modelle für Testzwecke, die schon mit 4 GB RAM zufrieden sind, doch ein sinnvolles Minimum sind eher 8 bis 16 GB. Und je nach Modell und gewünschter Anzahl sind natürlich etliche Gigabyte Platz auf dem Datenträger im Home-Verzeichnis vonnöten. Mit kleinen Modellen kann Ollama aber auch auf einem Raspberry Pi 4/5 laufen. Die Zahl der verfügbaren Modelle (LLMs) ist in den letzten Wochen stark angewachsen: Rund 240 Modelle kann Ollama inzwischen aus seinem Onlineverzeichnis beziehen. Einige Modelle gibt es in verschiedenen Größen und auch abgespeckt, und zu den Highlights gehören neben dem eingangs erwähnten Deep Seek das neue Deep Seek 2.5 als Programmierhilfe, das französische Mistral in mehreren Varianten und die Llama-Modelle von Meta/Facebook, Phi von Microsoft, Gemma3 von Google und Gwen3 von Alibaba. Speziell für die Arbeit mit natürlichen Sprachen aus dem europäischen Sprachraum sowie Deutsch steht Stablelm2 in einer kleinen Variante (1,6 GB) und in vollem Umfang (12 GB) bereit. Eine durchsuchbare Übersicht findet sich auf ollama.com/search. Installation: Rahmenwerk und LLMs Die Einrichtung des Ollama-Rahmenwerks gelingt mit einem vorbereiteten Installations-Script, das mit dem Kommando wget https://ollama.com/install.sh ins aktuelle Verzeichnis heruntergeladen wird. Das Script verlangt als Voraussetzung nur das Downloadtool curl, das über das gleichnamige Paket bei Bedarf in allen Linux-Distributionen schnell nachinstalliert ist. Der Aufruf sh install.sh startet dann die Einrichtung von Ollama. Das Script fragt das sudo-Passwort ab und startet dann einen Systemd-Dienst für Ollama sowie einen lokalen, integrierten Webserver, der auf Port 11434 startet. Der Webserver ist daher auf dem lokalen System im Browser über die Adresse localhost:11434 aufrufbar. Browseroberfläche für Ollama: Open-Web-UI ist als Python-Programm oder auch in einem Docker-Container flott eingerichtet und liefert eine Bedienoberfläche nach.IDG Dort steht erst mal nur „Ollama is running“, denn es fehlen noch LLMs. Auf Wunsch gibt es auch eine hübschere Weboberfläche. Zunächst geht es also wieder in das Terminal, um mit „ollama pull [Modell]“ ein Modell lokal herunterzuladen, also beispielsweise mit dem Kommando ollama pull llama3 das rund 4,7 GB große LLM „llama3“. Anschließend führt der Befehl ollama run llama3 dieses Modell aus. Auf diese Weise sind mehrere Modelle installierbar und der Befehl „ollama list“ zeigt eine Liste der lokal installierten LLMs an. Das Kommando ollama rm llama3 würde das Modell „llama3“ später wieder komplett entfernen. Nun aber erst mal an die Arbeit mit dem gerade ausgeführten LLM: Im Terminal zeigt sich nach dem Run-Befehl aus dem vorherigen Schritt ein Eingabeprompt, das eine Frage im Stil eines Chatbots erwartet. Je nach Modell kann die Eingabe in Englisch oder auch in Deutsch erfolgen und auch die Antwort erfolgt dann im Terminal darunter. Open-Web-UI: Schönere Oberfläche Ein KI-Chat im Terminal ist erst mal nicht sehr komfortabel. Der schon gestartete interne Webserver des Ollama tut erst mal nicht viel, sondern stellt anderen Programmen lediglich eine API per HTTP bereit. An diese kann sich nun die extern verfügbare Open-Web-UI klemmen und eine Verwaltungs- und Chatbot-Oberfläche bereitstellen. Zur Installation von Open-Web-UI gibt es mehrere Wege, etwa auch als Container mit Docker oder dem neueren Podman. Es handelt sich dabei um ein Python-Projekt, das auch ohne Container-Runtimes direkt mit Python funktioniert. Auch für Open-Web-UI gibt es ein Bash-Installations-Script, welches der Befehl wget https://astral.sh/uv/install.sh herunterlädt und die nachfolgende Eingabe sh install.sh ausführt. Danach ist eine Abmeldung und Neuanmeldung am System nötig, damit der neu angelegte Ordner im Home-Verzeichnis „/.local/bin/“ in der Pfad-Variable verfügbar ist. Danach schließt die weitere Eingabe von DATA_DIR=~/.open-webui uvx –python 3.11 open-webui@latest serve im Terminal die Installation ab, wobei das Installations-Script nochmal rund 2,4 GB Daten herunterladen muss. Diese Weboberfläche läuft dann auch mit einem internen, automatisch gestarteten Webserver, allerdings auf dem Port 8080, welcher in der Adresszeile eines Browsers dann über http://localhost:8080 erreichbar ist. Es ist nach einem Neustart immer nötig, den Webserver neu zu starten, doch ein erneuter Download der Dateien entfällt. Beim Besuch der lokalen Seite ist es pro forma zuerst nötig, einen Benutzeraccount (Administrator) zu erstellen. Diese Daten verlassen den lokalen Computer jedoch nicht. Danach ist über die Menüleiste links oben eines der installierten Modelle wählbar und im Hauptfenster kann das KI-Modell mit Fragen gefüttert werden. (PC-Welt)

Ähnliche Beiträge