Final 2x Seit mit ChatGPT die erste populäre KI-Anwendung veröffentlicht wurde, denkt man beim Stichwort Künstliche Intelligenz (KI) automatisch an die Cloud. Nur dort stehen scheinbar die Rechen- und Speicherkapazitäten zur Verfügung, die es für eine flüssige Verarbeitung von Anfragen braucht. Doch durch den Boom, den ChatGPT ausgelöst hat, sind zahlreiche weitere KI-Anwendungen entstanden. Und viele davon benötigen weder eine Verbindung in die Cloud noch einen für KI optimierten PC, um ihre Aufgaben zu erfüllen. Als Hardwarebasis genügt ihnen der lokale PC – eine Verbindung in die Cloud oder auch nur ins Internet ist nicht erforderlich. Die Vorteile lokaler KI Für den Anwender haben solche lokalen KI-Anwendungen gleich mehrere Vorteile. An erster Stelle steht dabei der Datenschutz. Nahezu alle Cloudanwendungen speichern die eingehenden Anfragen, nutzen sie für die Erweiterung ihrer Datenbasis und eventuell zum Erstellen eines Benutzerprofils. Verlangt die KI-Anwendung nach einer Registrierung, lassen sich die Anfragen sehr leicht einer Person zuordnen. Ein zweiter Vorteil besteht in den kalkulierbaren Kosten. Die Betreiber von KI-Anwendungen in der Cloud verlangen häufig Gebühren, die sich nach der Zahl der Anfragen oder auch der generierten Bilder berechnen. Bei lokalen Anwendungen zahlen die Kunden entweder einen Preis für den Kauf der Software oder sie entrichten festgelegte Abogebühren. Der größte Nachteil einer lokal installierten KI-Software sei allerdings auch nicht verschwiegen: Die Hardwareanforderungen. Sie benötigt oft einen großzügig ausgebauten Arbeitsspeicher, eine schnelle CPU aus der aktuellen Generation und eine moderne Grafikkarte. Und selbst wenn der Benutzer über einen schnellen PC mit CPU und Grafikkarte der neuesten Generation verfügt, muss er damit rechnen, dass es beim Beantworten seiner Anfragen zu Verzögerungen kommt. Im Folgenden stellen wir Ihnen fünf lokal arbeitende KI-Anwendungen vor. LM Studio – KI-Chat Man hat sich daran gewöhnt, dass auf ChatGPT & Co. nur übers Internet zugegriffen werden kann, und nimmt es als gegeben an. Tatsächlich jedoch lassen sich viele der Large Language Models (LLMs), mit denen die KI-Chatbots arbeiten, herunterladen und auf dem lokalen PC installieren. Bevor Sie nun anfangen, das Internet abzusuchen und Downloads über die Kommandozeile zu starten, installieren Sie lieber LM Studio. Die Oberfläche von LM Studio ist technischnüchtern gehalten. Über das Zahnradsymbol unten rechts erreichen Sie ein Menü, in dem Sie die Sprache des Programms auf Deutsch umstellen können.IDG Dabei handelt es sich um eine kostenlose Software, mit der Sie über eine einheitliche Oberfläche mehrere LLMs verwalten und nutzen können. Bei der Installation des Programms können Sie sich gleich auch die Daten des chinesischen Neulings Deepseek holen und in LM Studio integrieren. Anschließend stellen Sie Deepseek Fragen oder geben dem LLM Anweisungen. Über das Feld „System-Prompt“ können Sie Ihre Wünsche präzisieren und beispielsweise angeben, dass die Antwort von Deepseek gereimt sein soll. Außerdem können Sie Ihrer Frage Textdokumente in den Formaten TXT, DOCX oder PDF mitgeben und auf diese Weise versuchen, bessere Ergebnisse zu erzielen. Auf einer Webseite finden Sie eine Liste mit LLMs, die für den Download und die Nutzung in LM Studio zur Verfügung stehen, darunter Modelle von Google, Meta und IBM.IDG Neben Deepseek stellt LM Studio auf der Seite lmstudio.ai/models eine Reihe weiterer LLMs zum Download bereit, darunter Gemma von Google, Llama von der Facebook-Mutter Meta und Granite von IBM GPT4All – KI-Chat Genauso wie LM Studio bietet auch GPT4All Zugriff auf verschiedene LLMs, die es auf Wunsch auch gleich herunterlädt. Das Besondere an dieser Software ist zum einen, dass es sich um das erste Open-Source-LLM handelt: GPT4All ist kein Produkt aus der ChatGPT-Reihe von Open AI, sondern stammt von der Firma Nomic. GPT4All führt eine Liste mit verfügbaren Large Language Models und bietet an, sie direkt aus dem Programm heraus herunterzuladen und zu installieren.IDG Zum anderen bietet Ihnen die Software ein spezielles Feature an: Sie können im Register „LocalDocs“ einen oder mehrere Ordner angeben, die GPT4All anschließend indexiert und als eigene Datenbasis verwendet. Die Software verarbeitet dabei Dateien mit den Endungen DOCX, TXT, PDF, MD und RST. Achtung: Der Vorgang nimmt in der Regel mehrere Stunden in Anspruch. Mit der GPT4All-Funktion Localdocs können Sie Ihre eigenen Ordner und Dokumente in eine Art Large Language Model verwandeln, aus dem Sie mit gezielten Fragen Informationen ziehen können.IDG Anschließend können Sie jedoch dieses neue Modell gezielt auswählen und Fragen stellen, die ausschließlich mit dessen Inhalt beantwortet werden. Kurz: Es handelt sich um die intelligente Form eines Archivs, das sich per Textbefehl nutzen lässt. Klicken Sie dazu unter „Chats“ auf „LocalDocs“ und markieren Sie die Bezeichnung, die Sie Ihrer lokalen Dokumentensammlung gegeben haben. Dann tippen Sie Ihre Frage ein. Sobald GPT4All die Antwort liefert, können Sie sich auch die Textdateien anzeigen lassen, auf deren Basis sie entstanden ist. GPT4All durchsucht auf Wunsch gezielt Ihre eigenen lokal gespeicherten Textdateien nach den gesuchten Informationen. Die Indexierung und Verarbeitung dauert jedoch mehrere Stunden.IDG Stable Diffusion – Bilder generieren Bildgeneratoren wie Midjourney oder Dall-E haben es mittlerweile zu einiger Bekanntheit gebracht. Die lokal installierbare Alternative für Windows-Anwender heißt Stable Diffusion GUI und kommt von der Firma N00MKD, kurz NMKD. Die Basis bildet das an der Ludwig-Maximilians-Universität in München entwickelte Text-zu-Image-Modell Stable Diffusion, das mit dieser Software eine grafische Bedienoberfläche bekommt. Die Entwickler haben den Code von Stable Diffusion offengelegt, das Modell darf frei benutzt werden. Die Aufgabe hieß „a castle on a high mountain“, daraus hat Stable Diffusion GUI das gezeigte Bild erzeugt. Auf einem Durchschnittsrechner benötigte die Software dafür etwas mehr als vier Minuten.IDG Stable Diffusion GUI kann sowohl aus Textbeschreibungen Bilder generieren wie auch Bilddateien einlesen und daraus neue Aufnahmen generieren. Das Programm reagierte im Test sowohl auf englische wie auch auf deutsche Befehle, erbrachte allerdings bei englischen Eingaben bessere Ergebnisse. Als Ausgabeformat verwendet es PNG. Über ein Zusatzmodul können Sie ein Post-Processing einrichten, um die Auflösung der erzeugten Bilder zu erhöhen. Mit einem zusätzlich erhältlichen Post-Processing- Modul können Sie die Auflösung der Bilder erhöhen und Porträts überarbeiten.IDG Waifu 2x – Bilder skalieren Bitmap-Grafiken und Fotos aus dem Internet besitzen oft eine schlechte Auflösung von 200 x 400 Pixeln oder noch weniger. Sobald Sie sie mit einem Grafikprogramm vergrößern, sinkt die Qualität, und die einzelnen Pixel werden sichtbar. Vermeiden lässt sich das mit der Software Waifu 2x Extension GUI, die Fotos und Grafiken zunächst analysiert und sie anschließend mithilfe von KI-Algorithmen vergrößert. Die typischen Treppchen an den Objektkanten werden geglättet, das fertige Bild wirkt deutlich schärfer als ein Bild, das Sie mit einer herkömmlichen Bildbearbeitung vergrößert haben. Die Oberfläche von Waifu 2x wirkt mit ihren zahlreichen Schaltern und Einstellungen zunächst verwirrend. Schon recht bald findet man sich jedoch zurecht.IDG Die Bedienung ist einfach: Waifu 2x ist eine Open-Source-Software, die Sie kostenlos bei Github oder Sourceforge herunterladen können. Eine Installation ist nicht erforderlich. Entpacken Sie die 7z-Datei mit dem Packprogramm 7-Zip und öffnen Sie den dabei entstandenen Ordner „waifu2x-extension-gui“. Klicken Sie dort doppelt auf die Datei „Waifu2x-Extension-GUI.exe“. Beim ersten Start führt das Tool einen Kompatibilitätstest durch. Sobald der Vorgang abgeschlossen ist, wechseln Sie zum Register „Home“. Dort können Sie nun Dateien aus dem Explorer hineinziehen. Waifu 2x verarbeitet Grafik-Files in den Formaten JPG und PNG, Animated GIFs und Videos. Die Software bietet eine Fülle von Optionen, was am Anfang verwirrend wirken kann. Für den Anfang brauchen Sie allerdings nur zu wissen, dass Sie die gewünschte Zielauflösung im Register „Home“ unter „Custom resolution“ einstellen. Nach einem Klick auf „Start“ unten rechts beginnt Waifu2x, zu arbeiten. Das Ergebnis legt das Programm per Voreinstellung in den gleichen Ordner wie das Original und erweitert dabei den Dateinamen um den Zusatz „_waifu2x_2x_2n“. Waifu2x kann nicht nur die Auflösung von Bitmaps erhöhen, die Software ist auch in der Lage, die Qualität von Videos zu verbessern.IDG Neben Bildern kann das Tool auch Videos hochskalieren, allerdings stehen die meisten dafür notwendigen Optionen nur in der kostenpflichtigen Version bereit. Final 2x – Bilder skalieren Gut vergrößert: Final 2x läuft mit jeder beliebigen CPU und GPU. Diese pixelige Grafik (links) hat das Tool mit dem Algorithmus Waifu 2x auf die vierfache Größe (rechts) gebracht.IDG Bitmapgrafiken durch die bloße Vergrößerung ihrer Pixel zu skalieren, führt immer auch zu einem herben Qualitätsverlust. Mit Final 2x muss die Vergrößerung von Bitmaps nicht verlustreich sein. Dem Programm Final 2x gelingt es mit neuronalen Netzen und mitgelieferten Modellen, Grafiken hochzurechnen und bis ins Detail zu glätten. Mit den Algorithmen Real Cugan, Real Esrgan, Waifu 2x und SRMD liefert Final 2x vier Möglichkeiten, Bilder für die besten Ergebnisse zu skalieren. Auch verpixelte Fotos im JPG-Format mit Rauschen und starken Artefakten kann das Programm erheblich verbessern. Installation: Final 2x steht auch deshalb am Anfang unserer nützlichen Toolsammlung, weil es unter Windows sehr einfach installiert ist und dann sofort zum erfolgreichen Experimentieren einlädt. Auch gibt es keine speziellen Hardwareanforderungen, denn die verwendeten neuronalen Netze und Algorithmen von Final 2x laufen auf Nvidia-, AMD- sowie Intel-Chips. Eine integrierte GPU ist dabei auch schon genug. Wie bei allen Tools zu KI und neuronalen Netzen heißt es aber auch hier: Viel RAM hilft viel. Für Windows stellt der Entwickler auf seiner Github-Seite den bequemen Installer Final2x-windows-x64- setup.exe bereit (260 MB) welcher die Einrichtung mit wenigen Klicks erledigt. So funktioniertʼs: Nach dem Start präsentiert Final 2x ein Eingabefeld, das per Ziehen und Ablegen jene Bilddateien im Format JPG oder PNG akzeptiert, die es hochskalieren soll. Ein Klick links unten auf das Zahnradsymbol öffnet eine Seite mit Einstellungen. Unter „Device“ ist die CPU/GPU zur Berechnung auswählbar, falls mehrere vorhanden sind. Für die Bildqualität entscheidend ist das „Model“. So ist der Algorithmus Real-ESRGAN sehr gut für Fotografien geeignet, während Waifu 2x auf Zeichnungen spezialisiert ist. Den Skalierungsfaktor gibt das Feld „Custom Scale“ vor. Es empfiehlt sich zudem immer, die Option „TTA“ zu aktivieren, um gut entrauschte Ergebnisse zu erhalten. Im Hauptfenster beginnt mit „Start“ die Berechnung, die bei komplexen Bildern einige Minuten dauern kann. Meshroom – 3D-Scanner Willkommen in der dreidimensionalen Welt: Meshroom erstellt aus Fotografien realer Objekte ein 3D-Gitternetz zur Weiterverarbeitung in CAD-Programmen und 3D-Modellen wie Blender.IDG Ein 3D-Scanner tastet reale Objekte mit Laser ab und erstellt aus den Daten eine Datei für die Weiterverwendung in CAD- und Animationsprogrammen. Was sehr aufwendig klingt, ist im Kleinen sogar schon mit herkömmlichen Smartphones oder Digitalkamera und der freien Software Meshroom möglich. Sie basiert auf den fotogrammetrischen Bibliotheken der Entwicklerfirma Alicevision, steht unter einer Open-Source-Lizenz und ist für Windows (64 Bit) verfügbar. Aus der Analyse von Bildserien errechnet es die Form eines abfotografierten Objekts und erstellt eine Gitternetzdatei. Installation: Wegen der für Berechnungen erforderlichen Cuda-Schnittstelle verlangt Meshroom nach einer Nvidia-Grafikkarte mit Unterstützung von mindestens Cuda 2.0. Die Tabelle hier zeigt, auf welche Karten das zutrifft. Die Cuda-Treiber von Nvidia für Microsoft Windows haben eine Download-Größe von 3 GB. Ist die Nvidia-Hardware eingerichtet, kann es an die Installation von Meshroom gehen (1,3 GB). Mit AMD-Grafikkarten und Intel-Chips funktioniert Meshroom nur im wenig genauen Skizzenmodus. Wer Geduld bei Berechnungen mitbringt, kann eine alternative Version von Meshroom ohne Cuda testen. So funktioniertʼs: Bei der Fotografie des zu scannenden Objekts ist es wichtig, dass dieses möglichst freigestellt in einem leeren Raum steht. Es sind Dutzende Fotos von jeder Seite in verschiedenen Winkeln mit hoher Tiefenschärfe und ohne Verwackeln nötig. Wichtig ist, keine Bildgröße von mehr als 10 Megapixeln nutzen. Die Dateien werden dann in Meshroom in den linken Bereich „Images“ gezogen, um die Berechnung zu starten, welche auch auf Nvidia-Karten einige Stunden dauert. Für die weitere Optimierung des Gitternetzes empfiehlt sich dann eine 3D-Software wie das freie Programm Blender. Spleeter GUI – Musik aufspalten Neben den Desktopversionen von Spleeter ist auch ein kostenloses Onlinetool erhältlich. Für die Benutzung müssen Sie sich anmelden und Ihre Aufnahmen zu einem Cloudserver hochladen.IDG Spleeter gelingt das nahezu Unmögliche: Die Software kann aus Musikstücken einzelne Instrumente und die Singstimme herausfiltern und sie in eigenen WAV-Dateien ablegen. Das ist beispielsweise für DJs interessant, die auf diese Weise etwa die Basslinie eines Songs in ein anderes Stück hineinmixen können. Das Programm kann aber auch dazu genutzt werden, das störende Rauschen einer Interview-Aufnahme zu unterdrücken. Entwickelt wurde die Software von Deezer, einem französischen Audio-Streamingdienst, der für das Training auf seine umfangreiche Musikbibliothek zurückgreifen konnte. Spleeter ist Open Source und als Python-Anwendung geschrieben. Es greift auf die ursprünglich von Google entwickelte KI-Bibliothek Tensorflow zurück und nutzt das Tool Ffmpeg zum Separieren der einzelnen Spuren. Ursprünglich war die Software verhältnismäßig schwierig zu installieren, die einzelnen Module mussten umständlich über die Powershell von Windows eingerichtet werden. Mittlerweile gibt es unter der Bezeichnung Spleeter GUI for Windows ein vorgefertigtes Windows-Tool mit grafischer Oberfläche, das nur heruntergeladen und entpackt werden muss. Die Software Spleeter ist unter der Bezeichnung Spleeter GUI in einer Version mit grafischer Bedienoberfläche verfügbar. So kommen auch Einsteiger mit dem Programm zurecht.IDG Zunächst geben Sie bei „Parts to separate“ an, in wie viele Spuren Spleeter den Song aufspalten soll. Außerdem müssen Sie bei „Save to“ einen Ordner nennen, in dem das Programm die WAV-Dateien speichern soll. Erst danach laden Sie Ihre Musikdatei, indem Sie sie aus dem Explorer ins Programmfenster ziehen oder nach einem Klick auf den Button „Or select music file(s)“ aus einem Ordner auswählen. Die Analyse beginnt sofort und kann ein paar Sekunden dauern. Vosk – Spracherkennung IDG Vom gesprochenen, aufgezeichneten Wort zu einer sauberen Transkription ist der Weg heute nicht mehr weit. Das KI-Rahmenwerk Vosk, das auf der Spracherkennungs-Engine Kaldi aufbaut, ist ein Open-Source-Projekt der Johns Hopkins University. Installation: Vosk verlangt unter Windows nach Python 3.11. Bei der Installation muss die Checkbox „Add Python to PATH“ aktiviert sein. In der Eingabeaufforderung installieren die zwei Befehle pip install ffmpegpip install vosk die Voraussetzungen für Vosk. Als Nächstes wird der Encoder/Decoder Ffmpeg in Form der Datei „ffmpeg-git-essentials.7z“ benötigt, Der Archivinhalt kommt in das neu angelegte Verzeichnis „C:Program Filesffmpeg“, damit dort im Unterordner „bin“ die Datei „ffmpeg.exe“ liegt. Nun muss der Pfad „C:Program Filesffmpeg|bin“ noch der Windows-Umgebungsvariablen „Path“ hinzugefügt werden. Das geht über „Windowssymbol –› Einstellungen –› System –› Erweiterte Systemeinstellungen –› Umgebungsvariablen –› Path –› Bearbeiten –› Neu“. So funktioniertʼs: Anschließend geht es auf die Github-Webseite http://github.com/alphacep/vosk-api, um dort unter „Code –› Download ZIP“ einige Beispielscripts herunterzuladen, die in ein beliebiges Verzeichnis entpackt werden. Dort liegt im Unterordner „pythonvosktranscriber“ das Beispielscript „transcriber.py“. Mit dem Aufruf vosk-transcriber -l en-us -i test.mp4 -t srt -o englisch.srt erstellt es aus der Videodatei „test.mp4“ die Untertiteldatei „englisch.srt“ durch Spracherkennung mit Zeitstempeln. Ein passendes Sprachmodell lädt das Script automatisch herunter. Die fertige Datei kann dann in weiteren Übersetzungsprogrammen weiterverarbeitet werden, um deutsche Untertitel zu erzeugen. Digikam – Gesichtserkennung Digikam erkennt Gesichter: Aus den Bildern der eingelesenen Fotosammlung erstellt die Fotoverwaltung eine lokale Personendatenbank und erlaubt dann das Tagging und Suchen von Personen.iDG Das seit über 15 Jahren stetig weiterentwickelte Programm Digikam zur datenbankgestützten Organisation großer Bildbestände entstand ursprünglich für Linux und wird regelmäßig auch nach Windows portiert. Denn die Fähigkeiten von Digikam sind beachtlich: Neben der Sortierung und Kategorisierung von Aufnahmen nach Alben, Tags und Stichwörtern gibt es fortgeschrittene Sortierungsmöglichkeiten. Gesichtserkennung und die automatische Einstufung der Bildqualität von Aufnahmen sind zwei neuere Features der Fotoverwaltung, die auf KI basieren. Installation: Digikam ist in Windows mit 64 Bit über ein Setup-Programm leicht installiert (114 MB). Das Installationsprogramm fragt zur Einrichtung einige Details mit sinnvollen Voreinstellungen ab. Nach dem ersten Aufruf von Digikam schlägt das Programm dann selbstständig vor, für die enthaltene Gesichtserkennung die benötigten KI-Modelldaten herunterzuladen, die rund weitere 420 Megabyte ausmachen. So funktioniertʼs: Schon seit Ausgabe 2.0 experimentiert Digikam per Gesichtserkennung in Aufnahmen auf der Grundlage neuronaler Netze. Aber erst seit Version 7.2 kann sich diese KI-Technik in Digikam in der Praxis beweisen. Nach dem Öffnen eines Fotos zeigt die Bildanzeige das Symbol einer Person mit einem Plussymbol an. Dieses dient dazu, ein Gesicht mit Auswahlrechteck manuell zu markieren und mit einem Namen zu versehen. Dies wiederholt man für ein paar weitere Bilder mit der Person, wobei dann der Name aus der angezeigten Liste ausgewählt wird. Über den Menüpunkt „Durchsuchen –› Personen“ ist dann die ganze Fotosammlung nach der gleichen Person durchsuchbar. Hugin – Panoramen aus Fotos Fügt Bildserien per Mustererkennung weitgehend automatisch zusammen: Hugin errechnet aus Serien benachbarter Bilder eine Szenerie oder ein Panoramabild. Dabei helfen die hier gezeigten Kontrollpunkte.iDG Und noch ein Werkzeug für Fotos, das viele Stunden der mühsamen Bildbearbeitung spart und dabei ganz neue Szenerien der Landschaftsfotografie erlaubt. Das Programm Hugin erstellt Panoramafotos aus überlappenden Serien von Einzelbildern. Panoramen sind besonders in der Landschaftsfotografie reizvoll, um dramatische Stimmungen einzufangen. Dies ist auch mit Smartphone-Apps seit einigen Jahren möglich. Hugin erlaubt dabei aber eine genaue Kontrolle über das Resultat und kann zusätzlich Einzelbilder auch in vertikalen Reihen verbinden. Installation: Hugin ist ein Windows-Programm und muss einfach aus seinem ZIP-Archiv in einen beliebigen Ordner entpackt werden. Die ausführbare Datei finden sich als hugin.exe im Unterorder „bin“. So funktioniertʼs: Hugin ist ein Werkzeug für Fortgeschrittene und man darf um längere Experimente nicht verlegen sein, bis alle Funktionen des Programms ergründet sind. Empfehlenswert ist, erst mal mit kleinen Panoramen aus zwei Einzelbildern zu beginnen, die dem Reiter „Bilder“ hinzugefügt werden. Für gute Ergebnisse sollte man immer die Brennweite aus den Metadaten der Einzelaufnahmen manuell ergänzen. Hinzugefügte Kontrollpunkte zwischen überlappenden Bildern über den gleichnamigen Reiter verbessern das Ergebnis erheblich. Subsync – Untertitel synchronisieren Zeitcodes in Untertiteldateien passend zum Video berechnen: Subsync nutzt eine Spracherkennung über das integrierte Python-Modul Pocketsphinx und analysiert die angegebene Videodatei.IDG Cineasten bevorzugen Filme und Serien in der Originalfassung ohne synchronisierte Dialoge. Eine Untertitelspur ist trotzdem hilfreich – und bei unbekannten Sprachen sowieso nötig. Webseiten wie opensubtitles.org liefern Untertitel zu Serien und Filmen in Formaten, mit denen Mediaplayer wie VLC umgehen können. Die Schwierigkeit ist dabei oft, eine passende Untertiteldatei zu finden, die mit der vorliegenden Videodatei synchron läuft. Denn wenn die Untertitel zeitlich nicht zum gesprochenen Wort im Film passen, bleibt auch der Filmgenuss auf der Strecke. Das freie Tool Subsync kann es richten: Mit Spracherkennung und künstlicher Intelligenz synchronisiert es die Untertiteldatei mit einer Videodatei. Installation: Auch hier sind keine langen Exkurse in die Kommandozeile nötig. Auf der Projekt-Webseite gibt es unter https://github.com/sc0ty/subsync/releases einen Installer sowie eine portable Ausgabe für alle Windows-Versionen mit 64 Bit zum Download (gratis, 42 MB). Der Aufruf dieser EXE-Datei entpackt das Programm in einen Unterordner, in welchem sich dann die Programmdatei findet. So funktioniertʼs: In der Programmoberfläche kommt in das obere Feld „Subtitles“ der Pfad zur Untertiteldatei im SRT-Format, und daneben muss die Sprache dieser Datei angegeben werden. Darunter erwartet das Feld „References“ die Videodatei, und die Auswahl daneben wieder die Sprache. Nach einem Klick auf Start wird Subsync dann die passenden Wörterbuchdateien zu den gewählten Sprachen herunterladen, was einige Dutzend Megabyte ausmacht. Danach beginnt die Synchronisierung anhand gefundener Übereinstimmungen, und Subsync schreibt dazu die Zeitstempel der SRT-Datei neu (PC-Welt)
11 Gratis-KI-Tools, die lokal auf dem PC laufen: Die Vorteile Final 2x
Seit mit ChatGPT die erste populäre KI-Anwendung veröffentlicht wurde, denkt man beim Stichwort Künstliche Intelligenz (KI) automatisch an die Cloud.
Nur dort stehen scheinbar die Rechen- und Speicherkapazitäten zur Verfügung, die es für eine flüssige Verarbeitung von Anfragen braucht.
Doch durch den Boom, den ChatGPT ausgelöst hat, sind zahlreiche weitere KI-Anwendungen entstanden. Und viele davon benötigen weder eine Verbindung in die Cloud noch einen für KI optimierten PC, um ihre Aufgaben zu erfüllen.
Als Hardwarebasis genügt ihnen der lokale PC – eine Verbindung in die Cloud oder auch nur ins Internet ist nicht erforderlich.
Die Vorteile lokaler KI
Für den Anwender haben solche lokalen KI-Anwendungen gleich mehrere Vorteile.
An erster Stelle steht dabei der Datenschutz. Nahezu alle Cloudanwendungen speichern die eingehenden Anfragen, nutzen sie für die Erweiterung ihrer Datenbasis und eventuell zum Erstellen eines Benutzerprofils. Verlangt die KI-Anwendung nach einer Registrierung, lassen sich die Anfragen sehr leicht einer Person zuordnen.
Ein zweiter Vorteil besteht in den kalkulierbaren Kosten. Die Betreiber von KI-Anwendungen in der Cloud verlangen häufig Gebühren, die sich nach der Zahl der Anfragen oder auch der generierten Bilder berechnen. Bei lokalen Anwendungen zahlen die Kunden entweder einen Preis für den Kauf der Software oder sie entrichten festgelegte Abogebühren.
Der größte Nachteil einer lokal installierten KI-Software sei allerdings auch nicht verschwiegen: Die Hardwareanforderungen. Sie benötigt oft einen großzügig ausgebauten Arbeitsspeicher, eine schnelle CPU aus der aktuellen Generation und eine moderne Grafikkarte.
Und selbst wenn der Benutzer über einen schnellen PC mit CPU und Grafikkarte der neuesten Generation verfügt, muss er damit rechnen, dass es beim Beantworten seiner Anfragen zu Verzögerungen kommt. Im Folgenden stellen wir Ihnen fünf lokal arbeitende KI-Anwendungen vor.
LM Studio – KI-Chat
Man hat sich daran gewöhnt, dass auf ChatGPT & Co. nur übers Internet zugegriffen werden kann, und nimmt es als gegeben an.
Tatsächlich jedoch lassen sich viele der Large Language Models (LLMs), mit denen die KI-Chatbots arbeiten, herunterladen und auf dem lokalen PC installieren.
Bevor Sie nun anfangen, das Internet abzusuchen und Downloads über die Kommandozeile zu starten, installieren Sie lieber LM Studio.
Die Oberfläche von LM Studio ist technischnüchtern gehalten. Über das Zahnradsymbol unten rechts erreichen Sie ein Menü, in dem Sie die Sprache des Programms auf Deutsch umstellen können.IDG
Dabei handelt es sich um eine kostenlose Software, mit der Sie über eine einheitliche Oberfläche mehrere LLMs verwalten und nutzen können. Bei der Installation des Programms können Sie sich gleich auch die Daten des chinesischen Neulings Deepseek holen und in LM Studio integrieren.
Anschließend stellen Sie Deepseek Fragen oder geben dem LLM Anweisungen.
Über das Feld „System-Prompt“ können Sie Ihre Wünsche präzisieren und beispielsweise angeben, dass die Antwort von Deepseek gereimt sein soll. Außerdem können Sie Ihrer Frage Textdokumente in den Formaten TXT, DOCX oder PDF mitgeben und auf diese Weise versuchen, bessere Ergebnisse zu erzielen.
Auf einer Webseite finden Sie eine Liste mit LLMs, die für den Download und die Nutzung in LM Studio zur Verfügung stehen, darunter Modelle von Google, Meta und IBM.IDG
Neben Deepseek stellt LM Studio auf der Seite lmstudio.ai/models eine Reihe weiterer LLMs zum Download bereit, darunter Gemma von Google, Llama von der Facebook-Mutter Meta und Granite von IBM
GPT4All – KI-Chat
Genauso wie LM Studio bietet auch GPT4All Zugriff auf verschiedene LLMs, die es auf Wunsch auch gleich herunterlädt.
Das Besondere an dieser Software ist zum einen, dass es sich um das erste Open-Source-LLM handelt: GPT4All ist kein Produkt aus der ChatGPT-Reihe von Open AI, sondern stammt von der Firma Nomic.
GPT4All führt eine Liste mit verfügbaren Large Language Models und bietet an, sie direkt aus dem Programm heraus herunterzuladen und zu installieren.IDG
Zum anderen bietet Ihnen die Software ein spezielles Feature an: Sie können im Register „LocalDocs“ einen oder mehrere Ordner angeben, die GPT4All anschließend indexiert und als eigene Datenbasis verwendet.
Die Software verarbeitet dabei Dateien mit den Endungen DOCX, TXT, PDF, MD und RST. Achtung: Der Vorgang nimmt in der Regel mehrere Stunden in Anspruch.
Mit der GPT4All-Funktion Localdocs können Sie Ihre eigenen Ordner und Dokumente in eine Art Large Language Model verwandeln, aus dem Sie mit gezielten Fragen Informationen ziehen können.IDG
Anschließend können Sie jedoch dieses neue Modell gezielt auswählen und Fragen stellen, die ausschließlich mit dessen Inhalt beantwortet werden. Kurz: Es handelt sich um die intelligente Form eines Archivs, das sich per Textbefehl nutzen lässt.
Klicken Sie dazu unter „Chats“ auf „LocalDocs“ und markieren Sie die Bezeichnung, die Sie Ihrer lokalen Dokumentensammlung gegeben haben. Dann tippen Sie Ihre Frage ein.
Sobald GPT4All die Antwort liefert, können Sie sich auch die Textdateien anzeigen lassen, auf deren Basis sie entstanden ist.
GPT4All durchsucht auf Wunsch gezielt Ihre eigenen lokal gespeicherten Textdateien nach den gesuchten Informationen. Die Indexierung und Verarbeitung dauert jedoch mehrere Stunden.IDG
Stable Diffusion – Bilder generieren
Bildgeneratoren wie Midjourney oder Dall-E haben es mittlerweile zu einiger Bekanntheit gebracht. Die lokal installierbare Alternative für Windows-Anwender heißt Stable Diffusion GUI und kommt von der Firma N00MKD, kurz NMKD.
Die Basis bildet das an der Ludwig-Maximilians-Universität in München entwickelte Text-zu-Image-Modell Stable Diffusion, das mit dieser Software eine grafische Bedienoberfläche bekommt.
Die Entwickler haben den Code von Stable Diffusion offengelegt, das Modell darf frei benutzt werden.
Die Aufgabe hieß „a castle on a high mountain“, daraus hat Stable Diffusion GUI das gezeigte Bild erzeugt. Auf einem Durchschnittsrechner benötigte die Software dafür etwas mehr als vier Minuten.IDG
Stable Diffusion GUI kann sowohl aus Textbeschreibungen Bilder generieren wie auch Bilddateien einlesen und daraus neue Aufnahmen generieren.
Das Programm reagierte im Test sowohl auf englische wie auch auf deutsche Befehle, erbrachte allerdings bei englischen Eingaben bessere Ergebnisse.
Als Ausgabeformat verwendet es PNG. Über ein Zusatzmodul können Sie ein Post-Processing einrichten, um die Auflösung der erzeugten Bilder zu erhöhen.
Mit einem zusätzlich erhältlichen Post-Processing- Modul können Sie die Auflösung der Bilder erhöhen und Porträts überarbeiten.IDG
Waifu 2x – Bilder skalieren
Bitmap-Grafiken und Fotos aus dem Internet besitzen oft eine schlechte Auflösung von 200 x 400 Pixeln oder noch weniger. Sobald Sie sie mit einem Grafikprogramm vergrößern, sinkt die Qualität, und die einzelnen Pixel werden sichtbar.
Vermeiden lässt sich das mit der Software Waifu 2x Extension GUI, die Fotos und Grafiken zunächst analysiert und sie anschließend mithilfe von KI-Algorithmen vergrößert.
Die typischen Treppchen an den Objektkanten werden geglättet, das fertige Bild wirkt deutlich schärfer als ein Bild, das Sie mit einer herkömmlichen Bildbearbeitung vergrößert haben.
Die Oberfläche von Waifu 2x wirkt mit ihren zahlreichen Schaltern und Einstellungen zunächst verwirrend. Schon recht bald findet man sich jedoch zurecht.IDG
Die Bedienung ist einfach: Waifu 2x ist eine Open-Source-Software, die Sie kostenlos bei Github oder Sourceforge herunterladen können. Eine Installation ist nicht erforderlich.
Entpacken Sie die 7z-Datei mit dem Packprogramm 7-Zip und öffnen Sie den dabei entstandenen Ordner „waifu2x-extension-gui“. Klicken Sie dort doppelt auf die Datei „Waifu2x-Extension-GUI.exe“.
Beim ersten Start führt das Tool einen Kompatibilitätstest durch. Sobald der Vorgang abgeschlossen ist, wechseln Sie zum Register „Home“. Dort können Sie nun Dateien aus dem Explorer hineinziehen.
Waifu 2x verarbeitet Grafik-Files in den Formaten JPG und PNG, Animated GIFs und Videos. Die Software bietet eine Fülle von Optionen, was am Anfang verwirrend wirken kann.
Für den Anfang brauchen Sie allerdings nur zu wissen, dass Sie die gewünschte Zielauflösung im Register „Home“ unter „Custom resolution“ einstellen.
Nach einem Klick auf „Start“ unten rechts beginnt Waifu2x, zu arbeiten. Das Ergebnis legt das Programm per Voreinstellung in den gleichen Ordner wie das Original und erweitert dabei den Dateinamen um den Zusatz „_waifu2x_2x_2n“.
Waifu2x kann nicht nur die Auflösung von Bitmaps erhöhen, die Software ist auch in der Lage, die Qualität von Videos zu verbessern.IDG
Neben Bildern kann das Tool auch Videos hochskalieren, allerdings stehen die meisten dafür notwendigen Optionen nur in der kostenpflichtigen Version bereit.
Final 2x – Bilder skalieren
Gut vergrößert: Final 2x läuft mit jeder beliebigen CPU und GPU. Diese pixelige Grafik (links) hat das Tool mit dem Algorithmus Waifu 2x auf die vierfache Größe (rechts) gebracht.IDG
Bitmapgrafiken durch die bloße Vergrößerung ihrer Pixel zu skalieren, führt immer auch zu einem herben Qualitätsverlust. Mit Final 2x muss die Vergrößerung von Bitmaps nicht verlustreich sein. Dem Programm Final 2x gelingt es mit neuronalen Netzen und mitgelieferten Modellen, Grafiken hochzurechnen und bis ins Detail zu glätten.
Mit den Algorithmen Real Cugan, Real Esrgan, Waifu 2x und SRMD liefert Final 2x vier Möglichkeiten, Bilder für die besten Ergebnisse zu skalieren. Auch verpixelte Fotos im JPG-Format mit Rauschen und starken Artefakten kann das Programm erheblich verbessern.
Installation: Final 2x steht auch deshalb am Anfang unserer nützlichen Toolsammlung, weil es unter Windows sehr einfach installiert ist und dann sofort zum erfolgreichen Experimentieren einlädt. Auch gibt es keine speziellen Hardwareanforderungen, denn die verwendeten neuronalen Netze und Algorithmen von Final 2x laufen auf Nvidia-, AMD- sowie Intel-Chips. Eine integrierte GPU ist dabei auch schon genug.
Wie bei allen Tools zu KI und neuronalen Netzen heißt es aber auch hier: Viel RAM hilft viel. Für Windows stellt der Entwickler auf seiner Github-Seite den bequemen Installer Final2x-windows-x64- setup.exe bereit (260 MB) welcher die Einrichtung mit wenigen Klicks erledigt.
So funktioniertʼs: Nach dem Start präsentiert Final 2x ein Eingabefeld, das per Ziehen und Ablegen jene Bilddateien im Format JPG oder PNG akzeptiert, die es hochskalieren soll. Ein Klick links unten auf das Zahnradsymbol öffnet eine Seite mit Einstellungen. Unter „Device“ ist die CPU/GPU zur Berechnung auswählbar, falls mehrere vorhanden sind.
Für die Bildqualität entscheidend ist das „Model“. So ist der Algorithmus Real-ESRGAN sehr gut für Fotografien geeignet, während Waifu 2x auf Zeichnungen spezialisiert ist. Den Skalierungsfaktor gibt das Feld „Custom Scale“ vor. Es empfiehlt sich zudem immer, die Option „TTA“ zu aktivieren, um gut entrauschte Ergebnisse zu erhalten.
Im Hauptfenster beginnt mit „Start“ die Berechnung, die bei komplexen Bildern einige Minuten dauern kann.
Meshroom – 3D-Scanner
Willkommen in der dreidimensionalen Welt: Meshroom erstellt aus Fotografien realer Objekte ein 3D-Gitternetz zur Weiterverarbeitung in CAD-Programmen und 3D-Modellen wie Blender.IDG
Ein 3D-Scanner tastet reale Objekte mit Laser ab und erstellt aus den Daten eine Datei für die Weiterverwendung in CAD- und Animationsprogrammen. Was sehr aufwendig klingt, ist im Kleinen sogar schon mit herkömmlichen Smartphones oder Digitalkamera und der freien Software Meshroom möglich. Sie basiert auf den fotogrammetrischen Bibliotheken der Entwicklerfirma Alicevision, steht unter einer Open-Source-Lizenz und ist für Windows (64 Bit) verfügbar. Aus der Analyse von Bildserien errechnet es die Form eines abfotografierten Objekts und erstellt eine Gitternetzdatei.
Installation: Wegen der für Berechnungen erforderlichen Cuda-Schnittstelle verlangt Meshroom nach einer Nvidia-Grafikkarte mit Unterstützung von mindestens Cuda 2.0. Die Tabelle hier zeigt, auf welche Karten das zutrifft. Die Cuda-Treiber von Nvidia für Microsoft Windows haben eine Download-Größe von 3 GB.
Ist die Nvidia-Hardware eingerichtet, kann es an die Installation von Meshroom gehen (1,3 GB). Mit AMD-Grafikkarten und Intel-Chips funktioniert Meshroom nur im wenig genauen Skizzenmodus. Wer Geduld bei Berechnungen mitbringt, kann eine alternative Version von Meshroom ohne Cuda testen.
So funktioniertʼs: Bei der Fotografie des zu scannenden Objekts ist es wichtig, dass dieses möglichst freigestellt in einem leeren Raum steht. Es sind Dutzende Fotos von jeder Seite in verschiedenen Winkeln mit hoher Tiefenschärfe und ohne Verwackeln nötig. Wichtig ist, keine Bildgröße von mehr als 10 Megapixeln nutzen. Die Dateien werden dann in Meshroom in den linken Bereich „Images“ gezogen, um die Berechnung zu starten, welche auch auf Nvidia-Karten einige Stunden dauert.
Für die weitere Optimierung des Gitternetzes empfiehlt sich dann eine 3D-Software wie das freie Programm Blender.
Spleeter GUI – Musik aufspalten
Neben den Desktopversionen von Spleeter ist auch ein kostenloses Onlinetool erhältlich. Für die Benutzung müssen Sie sich anmelden und Ihre Aufnahmen zu einem Cloudserver hochladen.IDG
Spleeter gelingt das nahezu Unmögliche: Die Software kann aus Musikstücken einzelne Instrumente und die Singstimme herausfiltern und sie in eigenen WAV-Dateien ablegen.
Das ist beispielsweise für DJs interessant, die auf diese Weise etwa die Basslinie eines Songs in ein anderes Stück hineinmixen können. Das Programm kann aber auch dazu genutzt werden, das störende Rauschen einer Interview-Aufnahme zu unterdrücken.
Entwickelt wurde die Software von Deezer, einem französischen Audio-Streamingdienst, der für das Training auf seine umfangreiche Musikbibliothek zurückgreifen konnte.
Spleeter ist Open Source und als Python-Anwendung geschrieben. Es greift auf die ursprünglich von Google entwickelte KI-Bibliothek Tensorflow zurück und nutzt das Tool Ffmpeg zum Separieren der einzelnen Spuren.
Ursprünglich war die Software verhältnismäßig schwierig zu installieren, die einzelnen Module mussten umständlich über die Powershell von Windows eingerichtet werden. Mittlerweile gibt es unter der Bezeichnung Spleeter GUI for Windows ein vorgefertigtes Windows-Tool mit grafischer Oberfläche, das nur heruntergeladen und entpackt werden muss.
Die Software Spleeter ist unter der Bezeichnung Spleeter GUI in einer Version mit grafischer Bedienoberfläche verfügbar. So kommen auch Einsteiger mit dem Programm zurecht.IDG
Zunächst geben Sie bei „Parts to separate“ an, in wie viele Spuren Spleeter den Song aufspalten soll. Außerdem müssen Sie bei „Save to“ einen Ordner nennen, in dem das Programm die WAV-Dateien speichern soll.
Erst danach laden Sie Ihre Musikdatei, indem Sie sie aus dem Explorer ins Programmfenster ziehen oder nach einem Klick auf den Button „Or select music file(s)“ aus einem Ordner auswählen. Die Analyse beginnt sofort und kann ein paar Sekunden dauern.
Vosk – Spracherkennung
IDG
Vom gesprochenen, aufgezeichneten Wort zu einer sauberen Transkription ist der Weg heute nicht mehr weit. Das KI-Rahmenwerk Vosk, das auf der Spracherkennungs-Engine Kaldi aufbaut, ist ein Open-Source-Projekt der Johns Hopkins University.
Installation: Vosk verlangt unter Windows nach Python 3.11. Bei der Installation muss die Checkbox „Add Python to PATH“ aktiviert sein. In der Eingabeaufforderung installieren die zwei Befehle
pip install ffmpegpip install vosk
die Voraussetzungen für Vosk. Als Nächstes wird der Encoder/Decoder Ffmpeg in Form der Datei „ffmpeg-git-essentials.7z“ benötigt, Der Archivinhalt kommt in das neu angelegte Verzeichnis „C:Program Filesffmpeg“, damit dort im Unterordner „bin“ die Datei „ffmpeg.exe“ liegt. Nun muss der Pfad „C:Program Filesffmpeg|bin“ noch der Windows-Umgebungsvariablen „Path“ hinzugefügt werden. Das geht über „Windowssymbol –› Einstellungen –› System –› Erweiterte Systemeinstellungen –› Umgebungsvariablen –› Path –› Bearbeiten –› Neu“.
So funktioniertʼs: Anschließend geht es auf die Github-Webseite http://github.com/alphacep/vosk-api, um dort unter „Code –› Download ZIP“ einige Beispielscripts herunterzuladen, die in ein beliebiges Verzeichnis entpackt werden. Dort liegt im Unterordner „pythonvosktranscriber“ das Beispielscript „transcriber.py“. Mit dem Aufruf
vosk-transcriber -l en-us -i test.mp4 -t srt -o englisch.srt
erstellt es aus der Videodatei „test.mp4“ die Untertiteldatei „englisch.srt“ durch Spracherkennung mit Zeitstempeln. Ein passendes Sprachmodell lädt das Script automatisch herunter. Die fertige Datei kann dann in weiteren Übersetzungsprogrammen weiterverarbeitet werden, um deutsche Untertitel zu erzeugen.
Digikam – Gesichtserkennung
Digikam erkennt Gesichter: Aus den Bildern der eingelesenen Fotosammlung erstellt die Fotoverwaltung eine lokale Personendatenbank und erlaubt dann das Tagging und Suchen von Personen.iDG
Das seit über 15 Jahren stetig weiterentwickelte Programm Digikam zur datenbankgestützten Organisation großer Bildbestände entstand ursprünglich für Linux und wird regelmäßig auch nach Windows portiert. Denn die Fähigkeiten von Digikam sind beachtlich: Neben der Sortierung und Kategorisierung von Aufnahmen nach Alben, Tags und Stichwörtern gibt es fortgeschrittene Sortierungsmöglichkeiten. Gesichtserkennung und die automatische Einstufung der Bildqualität von Aufnahmen sind zwei neuere Features der Fotoverwaltung, die auf KI basieren.
Installation: Digikam ist in Windows mit 64 Bit über ein Setup-Programm leicht installiert (114 MB). Das Installationsprogramm fragt zur Einrichtung einige Details mit sinnvollen Voreinstellungen ab. Nach dem ersten Aufruf von Digikam schlägt das Programm dann selbstständig vor, für die enthaltene Gesichtserkennung die benötigten KI-Modelldaten herunterzuladen, die rund weitere 420 Megabyte ausmachen.
So funktioniertʼs: Schon seit Ausgabe 2.0 experimentiert Digikam per Gesichtserkennung in Aufnahmen auf der Grundlage neuronaler Netze. Aber erst seit Version 7.2 kann sich diese KI-Technik in Digikam in der Praxis beweisen. Nach dem Öffnen eines Fotos zeigt die Bildanzeige das Symbol einer Person mit einem Plussymbol an. Dieses dient dazu, ein Gesicht mit Auswahlrechteck manuell zu markieren und mit einem Namen zu versehen.
Dies wiederholt man für ein paar weitere Bilder mit der Person, wobei dann der Name aus der angezeigten Liste ausgewählt wird. Über den Menüpunkt „Durchsuchen –› Personen“ ist dann die ganze Fotosammlung nach der gleichen Person durchsuchbar.
Hugin – Panoramen aus Fotos
Fügt Bildserien per Mustererkennung weitgehend automatisch zusammen: Hugin errechnet aus Serien benachbarter Bilder eine Szenerie oder ein Panoramabild. Dabei helfen die hier gezeigten Kontrollpunkte.iDG
Und noch ein Werkzeug für Fotos, das viele Stunden der mühsamen Bildbearbeitung spart und dabei ganz neue Szenerien der Landschaftsfotografie erlaubt. Das Programm Hugin erstellt Panoramafotos aus überlappenden Serien von Einzelbildern. Panoramen sind besonders in der Landschaftsfotografie reizvoll, um dramatische Stimmungen einzufangen. Dies ist auch mit Smartphone-Apps seit einigen Jahren möglich. Hugin erlaubt dabei aber eine genaue Kontrolle über das Resultat und kann zusätzlich Einzelbilder auch in vertikalen Reihen verbinden.
Installation: Hugin ist ein Windows-Programm und muss einfach aus seinem ZIP-Archiv in einen beliebigen Ordner entpackt werden. Die ausführbare Datei finden sich als hugin.exe im Unterorder „bin“.
So funktioniertʼs: Hugin ist ein Werkzeug für Fortgeschrittene und man darf um längere Experimente nicht verlegen sein, bis alle Funktionen des Programms ergründet sind. Empfehlenswert ist, erst mal mit kleinen Panoramen aus zwei Einzelbildern zu beginnen, die dem Reiter „Bilder“ hinzugefügt werden. Für gute Ergebnisse sollte man immer die Brennweite aus den Metadaten der Einzelaufnahmen manuell ergänzen. Hinzugefügte Kontrollpunkte zwischen überlappenden Bildern über den gleichnamigen Reiter verbessern das Ergebnis erheblich.
Subsync – Untertitel synchronisieren
Zeitcodes in Untertiteldateien passend zum Video berechnen: Subsync nutzt eine Spracherkennung über das integrierte Python-Modul Pocketsphinx und analysiert die angegebene Videodatei.IDG
Cineasten bevorzugen Filme und Serien in der Originalfassung ohne synchronisierte Dialoge. Eine Untertitelspur ist trotzdem hilfreich – und bei unbekannten Sprachen sowieso nötig.
Webseiten wie opensubtitles.org liefern Untertitel zu Serien und Filmen in Formaten, mit denen Mediaplayer wie VLC umgehen können. Die Schwierigkeit ist dabei oft, eine passende Untertiteldatei zu finden, die mit der vorliegenden Videodatei synchron läuft. Denn wenn die Untertitel zeitlich nicht zum gesprochenen Wort im Film passen, bleibt auch der Filmgenuss auf der Strecke.
Das freie Tool Subsync kann es richten: Mit Spracherkennung und künstlicher Intelligenz synchronisiert es die Untertiteldatei mit einer Videodatei.
Installation: Auch hier sind keine langen Exkurse in die Kommandozeile nötig. Auf der Projekt-Webseite gibt es unter https://github.com/sc0ty/subsync/releases einen Installer sowie eine portable Ausgabe für alle Windows-Versionen mit 64 Bit zum Download (gratis, 42 MB).
Der Aufruf dieser EXE-Datei entpackt das Programm in einen Unterordner, in welchem sich dann die Programmdatei findet.
So funktioniertʼs: In der Programmoberfläche kommt in das obere Feld „Subtitles“ der Pfad zur Untertiteldatei im SRT-Format, und daneben muss die Sprache dieser Datei angegeben werden. Darunter erwartet das Feld „References“ die Videodatei, und die Auswahl daneben wieder die Sprache.
Nach einem Klick auf Start wird Subsync dann die passenden Wörterbuchdateien zu den gewählten Sprachen herunterladen, was einige Dutzend Megabyte ausmacht.
Danach beginnt die Synchronisierung anhand gefundener Übereinstimmungen, und Subsync schreibt dazu die Zeitstempel der SRT-Datei neu
(PC-Welt)