Computerhaus Quickborn

4 KI-Chat-Tools im Vergleichstest​

NotebookLM vs. ChatGPT vs. Claude vs. Perplexity – wer ist Chatbot-König?Vnwhy | shutterstock.com Informationen zu finden und zusammenzufassen ist zugegebenermaßen nicht der reizvollste Generative-AI (GenAI)-Task – in bestimmten Situationen aber höchst praktisch und nützlich. Etwa, wenn Sie einen bestimmten Social-Media-Post wiederfinden oder die Antwort auf eine einfache Frage bekommen wollen – ohne sich dazu vorher durch Endlos-Feeds zu scrollen, beziehungsweise ein Softwarehandbuch durchzuackern.   Um große Sprachmodelle (LLMs) mit Daten zu füttern und sie anschließend zu diesen zu befragen, gibt es diverse Möglichkeiten. Die simpelste, weil Coding-freie: einen Web-basierten Service wie NotebookLM, ChatGPT Projects, Claude Projects oder Perplexity Spaces zu nutzen. Diesen vier GenAI-Diensten haben wir im Rahmen eines Vergleichstests vier verschiedene Beispielaufgaben gestellt. Dabei ging es darum: Informationen aus einer Softwaredokumentation zu extrahieren, nach Beiträgen auf LinkedIn zu suchen, eine Variablen-ID für ein bestimmtes Thema zu ermitteln, und Daten zu IT-Fachkonferenzen abzurufen. Die getesteten KI-Chatplattformen Bevor wir auf die konkreten Testergebnisse eingehen – und darauf, welches Tool am besten abgeschnitten hat – die getesteten Generative-AI-Dienste inklusive ihrer wichtigsten Eigenschaften im Überblick: 1. NotebookLM Der Google-Service NotebookLM: steht kostenlos zur Verfügung. erfordert keine speziellen Prompts, um hochgeladene Informationen gezielt zu durchsuchen. liefert standardmäßig Antworten mit Angaben zu den Quellen, aus denen sie generiert wurden. akzeptiert URLs als Quellen. verspricht, Chats und Daten nicht dazu zu nutzen, seine Modelle zu trainieren. 2. ChatGPT Projects Der OpenAI-Service ChatGPT Projects: steht ausschließlich Benutzern mit Abonnement zur Verfügung. sammelt Chats, Dateien und benutzerdefinierte Instruktionen an einem zentralen Ort. braucht spezifische Anweisungen, um Quellenangaben zu Antworten zu liefern. liefert dafür aber übersichtliche Ergebnisse mit ansprechender Formatierung.  lässt sich entsprechend konfigurieren, um zu verhindern, dass eingegebene Daten genutzt werden, um KI-Modelle zu trainieren. 3. Claude Projects Anthropics Chat-Service auf Claude-Basis: ist ausschließlich für Nutzer mit Abo verfügbar. setzt im Vergleich zur Konkurrenz engere Grenzen für Kontextfenster.   kann mit GitHub-Konten integriert werden. akzeptiert ausschließlich GitHub und Google Docs als Onlinequellen. nutzt Chats und Daten standardmäßig nicht zum KI-Modelltraining. 4. Perplexity Spaces Der KI-Chat-Service von Perplexity: steht auch kostenlos zur Verfügung. akzeptiert nicht nur URLs, sondern auch Domains als Quellen. eignet sich besonders gut für Websuchen. erfordert ein zahlungspflichtiges Abo, um eigene Daten hochzuladen. kann so konfiguriert werden, dass hochgeladene Daten nicht zum Modelltraining genutzt werden. Der Chatbot-Test – Tasks & Ergebnisse Bevor wir die Resultate im Einzelnen erörtern, hier die gestellten Aufgaben und Testergebnisse im Überblick: AufgabeNotebookLMChatGPT ProjectsClaude ProjectsPerplexity SpacesEinfache Dokumentensuche1110,5Social-Media-Suche10,510Variablen-ID bestimmen1101Konferenz finden0,510,51Konferenz-Sessions finden110,50Gesamtergebnis4,54,532,5 1 = korrekte Anwort; 0,5 = teilweise korrekt; 0 = nicht korrekt oder keine Antwort; 1. Einfache Dokumentensuche Frage: „Wie kann man am einfachsten überflüssige Leerzeichen in einem Text entfernen?“ Informationsquelle: Die Dokumentation des stringr-Packages für die Programmiersprache R. Dieses enthält eine praktische str_squish()-Funktion, um überflüssige Leerzeichen zu löschen. Ergebnisse: Claude, NotebookLM und ChatGPT lieferten mit str_squish() die korrekte Antwort. Perplexity ging hingegen davon aus, dass lediglich Leerzeichen am Anfang und am Ende des Textes interessant sind. Erst nach einer Anschlussfrage kam auch dieser Service auf die korrekte Antwort. 2. Social-Media-Suche Frage: „Mir hat ein Computerworld-Artikel zum Thema LLMs vom Autor Lucas Mearian sehr gut gefallen. Liefere mir die Einzelheiten zu diesem Artikel auf Grundlage meiner LinkedIn-Beiträge der letzten zwei Jahre.” Informationsquelle: LinkedIn-Posts über den Zeitraum von zwei Jahren. Ergebnisse: NotebookLM und Claude haben mit ihren Antworten ins Schwarze getroffen und jeweils zwei Posts angeboten, von denen einer der gesuchte war. ChatGPT lieferte hingegen einen thematisch verwandten Artikel, aber nicht den gesuchten. Perplexity konnte keinen Artikel liefern und behauptete, dass kein entsprechender Beitrag im Rahmen von LinkedIn-Posts erwähnt wurde.  3. Variablen-ID bestimmen Frage: „Welche Variable eignet sich am besten, um Informationen über den Prozentsatz der Arbeitnehmer zu finden, die von zu Hause aus arbeiten?“ Informationsquelle: Viele (US-)Unternehmen nutzen die American Community Survey (ACS) des Census Bureau, um an demografische Daten zu kommen. Dabei diejenigen Datenvariablen zu bestimmen, die die gewünschten Informationen enthalten, kann diffizil ausfallen. Deshalb haben wir mehrere Listen von ACS-Tabellenvariablen-IDs heruntergeladen und gefiltert (weil einige Listen zu umfangreich waren). Diese haben wir mit einer allgemeinen Erklärung der ACS-Tabellen von der Website des Census Bureau kombiniert. Da nicht alle getesteten Plattformen .csv-Dateien in Projekten akzeptieren, haben wir die Daten als tabulatorgetrennte .txt-Dateien gespeichert. Ergebnisse: Kyle Walker, Autor des tidycensus R-Pakets, hat in einem seiner Beispiele die Variable „DP03_0024P“ verwendet. Das wäre entsprechend die korrekte Antwort gewesen. NotebookLM, ChatGPT und Perplexity lieferten hier verwertbare Ergebnisse (ChatGPT und Perplexity fanden beide sogar noch zusätzliche Variablen, die die Vorgaben erfüllt haben). Claude konnte bei dieser Aufgabe hingegen nicht mithalten, da die .txt-Dateien das „Project Knowledge“-Limit überschritten.   4.  Konferenz(-Sessions) finden Frage 1: „Suche nach Events, bei denen es um das Thema künstliche Intelligenz geht. Der Zielort sollte von Boston aus innerhalb von zwei Stunden per Flugzeug zu erreichen sein.“ Informationsquelle: Der Global Events Calendar (PDF) von IDG. Ergebnisse: Die vollständige und korrekte Antwort beinhaltet zwei „FutureIT“-Veranstaltungen in New York und Toronto. Eine mögliche dritte Option wäre ein Event in Nashville gewesen, dessen Flugzeit die Vorgabe nur leicht übersteigt. ChatGPT konnte bei diesem Task sowohl mit seinem o3-mini-High-, als auch mit dem 4o-Modell punkten und die ersten beiden Events als Ergebnis liefern. Auch Perplexity gab diese beiden Events zurück und schlug einen zusätzlichen vor – inklusive Hinweis, dass es mit der anvisierten Flugzeit von zwei Stunden in diesem Fall nicht klappt. NotebookLM lieferte zwar die eingangs genannte, dritte Option in Nashville und den Event in New York als Ergebnis – ließ jedoch die Veranstaltung in Toronto außen vor. Claude lieferte mit seinem älteren Modell Sonnet 3.5 ebenfalls die beiden erwarteten Veranstaltungen als Ergebnis – und schlug noch einige andere außerhalb der definierten Entfernung vor (allerdings nicht die in Nashville). Mit Sonnet 3.7 und der Option „Extended Reasoning“ lieferte der Anthropic-Service schließlich bessere Resultate in Form der Events in New York und Toronto. Frage 2: „Identifiziere sämtliche Sessions auf der NICAR-Konferenz, die sich an Personen richten, die bereits Erfahrung mit Tabellenkalkulationen haben, aber ihre Fähigkeiten verbessern möchten.“ Datenquelle: Eine Textdatei mit der vollständigen Agenda der NICA-Konferenz für Datenjournalismus. Ergebnisse: NotebookLM lieferte bei dieser Aufgabe mehr als ein Dutzend interessanter Vorschläge zu Google Sheets, Excel und Airtable, die (bis auf eine Ausnahme) relevant waren. Auch ChatGPT konnte überzeugen und hat mehr als 12 interessante Sessions zum Thema vorgeschlagen – nach Datum und Uhrzeit sortiert und ansprechend formatiert. Claude konnte zwar nicht mithalten, was die Zahl der Vorschläge angeht – dafür waren alle Ergebnisse relevant. Perplexity enttäuschte hingegen mit lediglich drei Vorschlägen. Das Testfazit zum GenAI-Vergleich Cloud-basierte Generative-AI-Dienste können hilfreich sein, um Fragen über Daten zu beantworten und manchmal auch, um neue Insights aufzutun. Nach unserem Vergleichstest fällt unser Fazit wie folgt aus: Wenn Sie eine Plattform suchen, die möglichst simpel und kostenlos ist, empfiehlt sich Googles NotebookLM – insbesondere wegen dem Feature, die herangezogenen Quellen direkt überprüfen zu können. Fall Sie bereits ein ChatGPT-Abonnement abgeschlossen haben, ist Projects zumindest wert, getestet zu werden. Claude Projects ist eine gute Option, wenn Sie nicht über große Datenmengen pro Projekt verfügen, Fragen zu Daten in einem GitHub-Projekt – und bereits ein Abonnement – haben. Perplexity Spaces konnte uns zwar im Test nicht nachhaltig überzeugen, allerdings ist fairerweise auch zuzugeben, dass die Stärke dieses LLM-Service vor allem darin liegt, Fragen auf Web-Basis, beziehungsweise online abrufbaren Informationen zu beantworten.   (fm) Sie wollen weitere interessante Beiträge zu diversen Themen aus der IT-Welt lesen? Unsere kostenlosen Newsletter liefern Ihnen alles, was IT-Profis wissen sollten – direkt in Ihre Inbox! 

4 KI-Chat-Tools im Vergleichstest​ NotebookLM vs. ChatGPT vs. Claude vs. Perplexity – wer ist Chatbot-König?Vnwhy | shutterstock.com Informationen zu finden und zusammenzufassen ist zugegebenermaßen nicht der reizvollste Generative-AI (GenAI)-Task – in bestimmten Situationen aber höchst praktisch und nützlich. Etwa, wenn Sie einen bestimmten Social-Media-Post wiederfinden oder die Antwort auf eine einfache Frage bekommen wollen – ohne sich dazu vorher durch Endlos-Feeds zu scrollen, beziehungsweise ein Softwarehandbuch durchzuackern.   Um große Sprachmodelle (LLMs) mit Daten zu füttern und sie anschließend zu diesen zu befragen, gibt es diverse Möglichkeiten. Die simpelste, weil Coding-freie: einen Web-basierten Service wie NotebookLM, ChatGPT Projects, Claude Projects oder Perplexity Spaces zu nutzen. Diesen vier GenAI-Diensten haben wir im Rahmen eines Vergleichstests vier verschiedene Beispielaufgaben gestellt. Dabei ging es darum: Informationen aus einer Softwaredokumentation zu extrahieren, nach Beiträgen auf LinkedIn zu suchen, eine Variablen-ID für ein bestimmtes Thema zu ermitteln, und Daten zu IT-Fachkonferenzen abzurufen. Die getesteten KI-Chatplattformen Bevor wir auf die konkreten Testergebnisse eingehen – und darauf, welches Tool am besten abgeschnitten hat – die getesteten Generative-AI-Dienste inklusive ihrer wichtigsten Eigenschaften im Überblick: 1. NotebookLM Der Google-Service NotebookLM: steht kostenlos zur Verfügung. erfordert keine speziellen Prompts, um hochgeladene Informationen gezielt zu durchsuchen. liefert standardmäßig Antworten mit Angaben zu den Quellen, aus denen sie generiert wurden. akzeptiert URLs als Quellen. verspricht, Chats und Daten nicht dazu zu nutzen, seine Modelle zu trainieren. 2. ChatGPT Projects Der OpenAI-Service ChatGPT Projects: steht ausschließlich Benutzern mit Abonnement zur Verfügung. sammelt Chats, Dateien und benutzerdefinierte Instruktionen an einem zentralen Ort. braucht spezifische Anweisungen, um Quellenangaben zu Antworten zu liefern. liefert dafür aber übersichtliche Ergebnisse mit ansprechender Formatierung.  lässt sich entsprechend konfigurieren, um zu verhindern, dass eingegebene Daten genutzt werden, um KI-Modelle zu trainieren. 3. Claude Projects Anthropics Chat-Service auf Claude-Basis: ist ausschließlich für Nutzer mit Abo verfügbar. setzt im Vergleich zur Konkurrenz engere Grenzen für Kontextfenster.   kann mit GitHub-Konten integriert werden. akzeptiert ausschließlich GitHub und Google Docs als Onlinequellen. nutzt Chats und Daten standardmäßig nicht zum KI-Modelltraining. 4. Perplexity Spaces Der KI-Chat-Service von Perplexity: steht auch kostenlos zur Verfügung. akzeptiert nicht nur URLs, sondern auch Domains als Quellen. eignet sich besonders gut für Websuchen. erfordert ein zahlungspflichtiges Abo, um eigene Daten hochzuladen. kann so konfiguriert werden, dass hochgeladene Daten nicht zum Modelltraining genutzt werden. Der Chatbot-Test – Tasks & Ergebnisse Bevor wir die Resultate im Einzelnen erörtern, hier die gestellten Aufgaben und Testergebnisse im Überblick: AufgabeNotebookLMChatGPT ProjectsClaude ProjectsPerplexity SpacesEinfache Dokumentensuche1110,5Social-Media-Suche10,510Variablen-ID bestimmen1101Konferenz finden0,510,51Konferenz-Sessions finden110,50Gesamtergebnis4,54,532,5 1 = korrekte Anwort; 0,5 = teilweise korrekt; 0 = nicht korrekt oder keine Antwort; 1. Einfache Dokumentensuche Frage: „Wie kann man am einfachsten überflüssige Leerzeichen in einem Text entfernen?“ Informationsquelle: Die Dokumentation des stringr-Packages für die Programmiersprache R. Dieses enthält eine praktische str_squish()-Funktion, um überflüssige Leerzeichen zu löschen. Ergebnisse: Claude, NotebookLM und ChatGPT lieferten mit str_squish() die korrekte Antwort. Perplexity ging hingegen davon aus, dass lediglich Leerzeichen am Anfang und am Ende des Textes interessant sind. Erst nach einer Anschlussfrage kam auch dieser Service auf die korrekte Antwort. 2. Social-Media-Suche Frage: „Mir hat ein Computerworld-Artikel zum Thema LLMs vom Autor Lucas Mearian sehr gut gefallen. Liefere mir die Einzelheiten zu diesem Artikel auf Grundlage meiner LinkedIn-Beiträge der letzten zwei Jahre.” Informationsquelle: LinkedIn-Posts über den Zeitraum von zwei Jahren. Ergebnisse: NotebookLM und Claude haben mit ihren Antworten ins Schwarze getroffen und jeweils zwei Posts angeboten, von denen einer der gesuchte war. ChatGPT lieferte hingegen einen thematisch verwandten Artikel, aber nicht den gesuchten. Perplexity konnte keinen Artikel liefern und behauptete, dass kein entsprechender Beitrag im Rahmen von LinkedIn-Posts erwähnt wurde.  3. Variablen-ID bestimmen Frage: „Welche Variable eignet sich am besten, um Informationen über den Prozentsatz der Arbeitnehmer zu finden, die von zu Hause aus arbeiten?“ Informationsquelle: Viele (US-)Unternehmen nutzen die American Community Survey (ACS) des Census Bureau, um an demografische Daten zu kommen. Dabei diejenigen Datenvariablen zu bestimmen, die die gewünschten Informationen enthalten, kann diffizil ausfallen. Deshalb haben wir mehrere Listen von ACS-Tabellenvariablen-IDs heruntergeladen und gefiltert (weil einige Listen zu umfangreich waren). Diese haben wir mit einer allgemeinen Erklärung der ACS-Tabellen von der Website des Census Bureau kombiniert. Da nicht alle getesteten Plattformen .csv-Dateien in Projekten akzeptieren, haben wir die Daten als tabulatorgetrennte .txt-Dateien gespeichert. Ergebnisse: Kyle Walker, Autor des tidycensus R-Pakets, hat in einem seiner Beispiele die Variable „DP03_0024P“ verwendet. Das wäre entsprechend die korrekte Antwort gewesen. NotebookLM, ChatGPT und Perplexity lieferten hier verwertbare Ergebnisse (ChatGPT und Perplexity fanden beide sogar noch zusätzliche Variablen, die die Vorgaben erfüllt haben). Claude konnte bei dieser Aufgabe hingegen nicht mithalten, da die .txt-Dateien das „Project Knowledge“-Limit überschritten.   4.  Konferenz(-Sessions) finden Frage 1: „Suche nach Events, bei denen es um das Thema künstliche Intelligenz geht. Der Zielort sollte von Boston aus innerhalb von zwei Stunden per Flugzeug zu erreichen sein.“ Informationsquelle: Der Global Events Calendar (PDF) von IDG. Ergebnisse: Die vollständige und korrekte Antwort beinhaltet zwei „FutureIT“-Veranstaltungen in New York und Toronto. Eine mögliche dritte Option wäre ein Event in Nashville gewesen, dessen Flugzeit die Vorgabe nur leicht übersteigt. ChatGPT konnte bei diesem Task sowohl mit seinem o3-mini-High-, als auch mit dem 4o-Modell punkten und die ersten beiden Events als Ergebnis liefern. Auch Perplexity gab diese beiden Events zurück und schlug einen zusätzlichen vor – inklusive Hinweis, dass es mit der anvisierten Flugzeit von zwei Stunden in diesem Fall nicht klappt. NotebookLM lieferte zwar die eingangs genannte, dritte Option in Nashville und den Event in New York als Ergebnis – ließ jedoch die Veranstaltung in Toronto außen vor. Claude lieferte mit seinem älteren Modell Sonnet 3.5 ebenfalls die beiden erwarteten Veranstaltungen als Ergebnis – und schlug noch einige andere außerhalb der definierten Entfernung vor (allerdings nicht die in Nashville). Mit Sonnet 3.7 und der Option „Extended Reasoning“ lieferte der Anthropic-Service schließlich bessere Resultate in Form der Events in New York und Toronto. Frage 2: „Identifiziere sämtliche Sessions auf der NICAR-Konferenz, die sich an Personen richten, die bereits Erfahrung mit Tabellenkalkulationen haben, aber ihre Fähigkeiten verbessern möchten.“ Datenquelle: Eine Textdatei mit der vollständigen Agenda der NICA-Konferenz für Datenjournalismus. Ergebnisse: NotebookLM lieferte bei dieser Aufgabe mehr als ein Dutzend interessanter Vorschläge zu Google Sheets, Excel und Airtable, die (bis auf eine Ausnahme) relevant waren. Auch ChatGPT konnte überzeugen und hat mehr als 12 interessante Sessions zum Thema vorgeschlagen – nach Datum und Uhrzeit sortiert und ansprechend formatiert. Claude konnte zwar nicht mithalten, was die Zahl der Vorschläge angeht – dafür waren alle Ergebnisse relevant. Perplexity enttäuschte hingegen mit lediglich drei Vorschlägen. Das Testfazit zum GenAI-Vergleich Cloud-basierte Generative-AI-Dienste können hilfreich sein, um Fragen über Daten zu beantworten und manchmal auch, um neue Insights aufzutun. Nach unserem Vergleichstest fällt unser Fazit wie folgt aus: Wenn Sie eine Plattform suchen, die möglichst simpel und kostenlos ist, empfiehlt sich Googles NotebookLM – insbesondere wegen dem Feature, die herangezogenen Quellen direkt überprüfen zu können. Fall Sie bereits ein ChatGPT-Abonnement abgeschlossen haben, ist Projects zumindest wert, getestet zu werden. Claude Projects ist eine gute Option, wenn Sie nicht über große Datenmengen pro Projekt verfügen, Fragen zu Daten in einem GitHub-Projekt – und bereits ein Abonnement – haben. Perplexity Spaces konnte uns zwar im Test nicht nachhaltig überzeugen, allerdings ist fairerweise auch zuzugeben, dass die Stärke dieses LLM-Service vor allem darin liegt, Fragen auf Web-Basis, beziehungsweise online abrufbaren Informationen zu beantworten.   (fm) Sie wollen weitere interessante Beiträge zu diversen Themen aus der IT-Welt lesen? Unsere kostenlosen Newsletter liefern Ihnen alles, was IT-Profis wissen sollten – direkt in Ihre Inbox!

NotebookLM vs. ChatGPT vs. Claude vs. Perplexity – wer ist Chatbot-König?Vnwhy | shutterstock.com Informationen zu finden und zusammenzufassen ist zugegebenermaßen nicht der reizvollste Generative-AI (GenAI)-Task – in bestimmten Situationen aber höchst praktisch und nützlich. Etwa, wenn Sie einen bestimmten Social-Media-Post wiederfinden oder die Antwort auf eine einfache Frage bekommen wollen – ohne sich dazu vorher durch Endlos-Feeds zu scrollen, beziehungsweise ein Softwarehandbuch durchzuackern.   Um große Sprachmodelle (LLMs) mit Daten zu füttern und sie anschließend zu diesen zu befragen, gibt es diverse Möglichkeiten. Die simpelste, weil Coding-freie: einen Web-basierten Service wie NotebookLM, ChatGPT Projects, Claude Projects oder Perplexity Spaces zu nutzen. Diesen vier GenAI-Diensten haben wir im Rahmen eines Vergleichstests vier verschiedene Beispielaufgaben gestellt. Dabei ging es darum: Informationen aus einer Softwaredokumentation zu extrahieren, nach Beiträgen auf LinkedIn zu suchen, eine Variablen-ID für ein bestimmtes Thema zu ermitteln, und Daten zu IT-Fachkonferenzen abzurufen. Die getesteten KI-Chatplattformen Bevor wir auf die konkreten Testergebnisse eingehen – und darauf, welches Tool am besten abgeschnitten hat – die getesteten Generative-AI-Dienste inklusive ihrer wichtigsten Eigenschaften im Überblick: 1. NotebookLM Der Google-Service NotebookLM: steht kostenlos zur Verfügung. erfordert keine speziellen Prompts, um hochgeladene Informationen gezielt zu durchsuchen. liefert standardmäßig Antworten mit Angaben zu den Quellen, aus denen sie generiert wurden. akzeptiert URLs als Quellen. verspricht, Chats und Daten nicht dazu zu nutzen, seine Modelle zu trainieren. 2. ChatGPT Projects Der OpenAI-Service ChatGPT Projects: steht ausschließlich Benutzern mit Abonnement zur Verfügung. sammelt Chats, Dateien und benutzerdefinierte Instruktionen an einem zentralen Ort. braucht spezifische Anweisungen, um Quellenangaben zu Antworten zu liefern. liefert dafür aber übersichtliche Ergebnisse mit ansprechender Formatierung.  lässt sich entsprechend konfigurieren, um zu verhindern, dass eingegebene Daten genutzt werden, um KI-Modelle zu trainieren. 3. Claude Projects Anthropics Chat-Service auf Claude-Basis: ist ausschließlich für Nutzer mit Abo verfügbar. setzt im Vergleich zur Konkurrenz engere Grenzen für Kontextfenster.   kann mit GitHub-Konten integriert werden. akzeptiert ausschließlich GitHub und Google Docs als Onlinequellen. nutzt Chats und Daten standardmäßig nicht zum KI-Modelltraining. 4. Perplexity Spaces Der KI-Chat-Service von Perplexity: steht auch kostenlos zur Verfügung. akzeptiert nicht nur URLs, sondern auch Domains als Quellen. eignet sich besonders gut für Websuchen. erfordert ein zahlungspflichtiges Abo, um eigene Daten hochzuladen. kann so konfiguriert werden, dass hochgeladene Daten nicht zum Modelltraining genutzt werden. Der Chatbot-Test – Tasks & Ergebnisse Bevor wir die Resultate im Einzelnen erörtern, hier die gestellten Aufgaben und Testergebnisse im Überblick: AufgabeNotebookLMChatGPT ProjectsClaude ProjectsPerplexity SpacesEinfache Dokumentensuche1110,5Social-Media-Suche10,510Variablen-ID bestimmen1101Konferenz finden0,510,51Konferenz-Sessions finden110,50Gesamtergebnis4,54,532,5 1 = korrekte Anwort; 0,5 = teilweise korrekt; 0 = nicht korrekt oder keine Antwort; 1. Einfache Dokumentensuche Frage: „Wie kann man am einfachsten überflüssige Leerzeichen in einem Text entfernen?“ Informationsquelle: Die Dokumentation des stringr-Packages für die Programmiersprache R. Dieses enthält eine praktische str_squish()-Funktion, um überflüssige Leerzeichen zu löschen. Ergebnisse: Claude, NotebookLM und ChatGPT lieferten mit str_squish() die korrekte Antwort. Perplexity ging hingegen davon aus, dass lediglich Leerzeichen am Anfang und am Ende des Textes interessant sind. Erst nach einer Anschlussfrage kam auch dieser Service auf die korrekte Antwort. 2. Social-Media-Suche Frage: „Mir hat ein Computerworld-Artikel zum Thema LLMs vom Autor Lucas Mearian sehr gut gefallen. Liefere mir die Einzelheiten zu diesem Artikel auf Grundlage meiner LinkedIn-Beiträge der letzten zwei Jahre.” Informationsquelle: LinkedIn-Posts über den Zeitraum von zwei Jahren. Ergebnisse: NotebookLM und Claude haben mit ihren Antworten ins Schwarze getroffen und jeweils zwei Posts angeboten, von denen einer der gesuchte war. ChatGPT lieferte hingegen einen thematisch verwandten Artikel, aber nicht den gesuchten. Perplexity konnte keinen Artikel liefern und behauptete, dass kein entsprechender Beitrag im Rahmen von LinkedIn-Posts erwähnt wurde.  3. Variablen-ID bestimmen Frage: „Welche Variable eignet sich am besten, um Informationen über den Prozentsatz der Arbeitnehmer zu finden, die von zu Hause aus arbeiten?“ Informationsquelle: Viele (US-)Unternehmen nutzen die American Community Survey (ACS) des Census Bureau, um an demografische Daten zu kommen. Dabei diejenigen Datenvariablen zu bestimmen, die die gewünschten Informationen enthalten, kann diffizil ausfallen. Deshalb haben wir mehrere Listen von ACS-Tabellenvariablen-IDs heruntergeladen und gefiltert (weil einige Listen zu umfangreich waren). Diese haben wir mit einer allgemeinen Erklärung der ACS-Tabellen von der Website des Census Bureau kombiniert. Da nicht alle getesteten Plattformen .csv-Dateien in Projekten akzeptieren, haben wir die Daten als tabulatorgetrennte .txt-Dateien gespeichert. Ergebnisse: Kyle Walker, Autor des tidycensus R-Pakets, hat in einem seiner Beispiele die Variable „DP03_0024P“ verwendet. Das wäre entsprechend die korrekte Antwort gewesen. NotebookLM, ChatGPT und Perplexity lieferten hier verwertbare Ergebnisse (ChatGPT und Perplexity fanden beide sogar noch zusätzliche Variablen, die die Vorgaben erfüllt haben). Claude konnte bei dieser Aufgabe hingegen nicht mithalten, da die .txt-Dateien das „Project Knowledge“-Limit überschritten.   4.  Konferenz(-Sessions) finden Frage 1: „Suche nach Events, bei denen es um das Thema künstliche Intelligenz geht. Der Zielort sollte von Boston aus innerhalb von zwei Stunden per Flugzeug zu erreichen sein.“ Informationsquelle: Der Global Events Calendar (PDF) von IDG. Ergebnisse: Die vollständige und korrekte Antwort beinhaltet zwei „FutureIT“-Veranstaltungen in New York und Toronto. Eine mögliche dritte Option wäre ein Event in Nashville gewesen, dessen Flugzeit die Vorgabe nur leicht übersteigt. ChatGPT konnte bei diesem Task sowohl mit seinem o3-mini-High-, als auch mit dem 4o-Modell punkten und die ersten beiden Events als Ergebnis liefern. Auch Perplexity gab diese beiden Events zurück und schlug einen zusätzlichen vor – inklusive Hinweis, dass es mit der anvisierten Flugzeit von zwei Stunden in diesem Fall nicht klappt. NotebookLM lieferte zwar die eingangs genannte, dritte Option in Nashville und den Event in New York als Ergebnis – ließ jedoch die Veranstaltung in Toronto außen vor. Claude lieferte mit seinem älteren Modell Sonnet 3.5 ebenfalls die beiden erwarteten Veranstaltungen als Ergebnis – und schlug noch einige andere außerhalb der definierten Entfernung vor (allerdings nicht die in Nashville). Mit Sonnet 3.7 und der Option „Extended Reasoning“ lieferte der Anthropic-Service schließlich bessere Resultate in Form der Events in New York und Toronto. Frage 2: „Identifiziere sämtliche Sessions auf der NICAR-Konferenz, die sich an Personen richten, die bereits Erfahrung mit Tabellenkalkulationen haben, aber ihre Fähigkeiten verbessern möchten.“ Datenquelle: Eine Textdatei mit der vollständigen Agenda der NICA-Konferenz für Datenjournalismus. Ergebnisse: NotebookLM lieferte bei dieser Aufgabe mehr als ein Dutzend interessanter Vorschläge zu Google Sheets, Excel und Airtable, die (bis auf eine Ausnahme) relevant waren. Auch ChatGPT konnte überzeugen und hat mehr als 12 interessante Sessions zum Thema vorgeschlagen – nach Datum und Uhrzeit sortiert und ansprechend formatiert. Claude konnte zwar nicht mithalten, was die Zahl der Vorschläge angeht – dafür waren alle Ergebnisse relevant. Perplexity enttäuschte hingegen mit lediglich drei Vorschlägen. Das Testfazit zum GenAI-Vergleich Cloud-basierte Generative-AI-Dienste können hilfreich sein, um Fragen über Daten zu beantworten und manchmal auch, um neue Insights aufzutun. Nach unserem Vergleichstest fällt unser Fazit wie folgt aus: Wenn Sie eine Plattform suchen, die möglichst simpel und kostenlos ist, empfiehlt sich Googles NotebookLM – insbesondere wegen dem Feature, die herangezogenen Quellen direkt überprüfen zu können. Fall Sie bereits ein ChatGPT-Abonnement abgeschlossen haben, ist Projects zumindest wert, getestet zu werden. Claude Projects ist eine gute Option, wenn Sie nicht über große Datenmengen pro Projekt verfügen, Fragen zu Daten in einem GitHub-Projekt – und bereits ein Abonnement – haben. Perplexity Spaces konnte uns zwar im Test nicht nachhaltig überzeugen, allerdings ist fairerweise auch zuzugeben, dass die Stärke dieses LLM-Service vor allem darin liegt, Fragen auf Web-Basis, beziehungsweise online abrufbaren Informationen zu beantworten.   (fm) Sie wollen weitere interessante Beiträge zu diversen Themen aus der IT-Welt lesen? Unsere kostenlosen Newsletter liefern Ihnen alles, was IT-Profis wissen sollten – direkt in Ihre Inbox! 

Nach oben scrollen
×