Computerhaus Quickborn

LLMs auf dem Smartphone für alle​

Quantisierung von LLMs in Minuten statt Tagen – ganz ohne Spezialhardware. Alexander Supertramp – shutterstock Große Sprachmodelle wie DeepSeek R1 waren bislang nur mit hohem Rechenaufwand auf leistungsstarker Hardware nutzbar. Sie auf mobilen Endgeräten oder Laptops einzusetzen, erforderte teure Server und viel Zeit für den Quantifizierungsprozess. Dank neuer Methoden soll dieser Prozess nun in wenigen Minuten direkt auf Laptops oder Smartphones durchführbar sein – ohne spezielle Hardware. Damit wird der Zugang zu LLMs deutlich einfacher und günstiger, so die Forscherinnen und Forscher von Yandex Research. Gemeinsam mit Forschenden des Massachusetts Institute of Technology (MIT), des Institute of Science and Technology Austria (ISTA) und der King Abdullah University of Science and Technology (KAUST) hat das Forschungsteam von Yandex Research eine Methode entwickelt, mit der große Sprachmodelle (LLM) ohne nennenswerte Qualitätseinbußen schnell komprimiert werden können. Komprimierung ohne Qualitätsverlust Wie die Wissenschaftler in einem Research Paper ausführen, senkt ihre HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS)-Technologie damit die Einstiegshürde für den Einsatz großer Sprachmodelle auf Geräten wie PCs und Smartphones. Diese Methode könne beispielsweise verwendet werden, um LLMs wie DeepSeek R1 mit 671B-Parametern und Llama 4 Maverick mit 400B-Parametern zu komprimieren, die zuvor nur mit einem erheblichen Qualitätsverlust quantisiert (komprimiert) werden konnten. Die Quantisierungstechnik eröffne damit neue Möglichkeiten für den Einsatz von LLMs in verschiedenen Bereichen, insbesondere in ressourcenbeschränkten Umgebungen. Die Wissenschaftler haben nach eigenen Angaben HIGGS bereits an den Modellen der LLaMA 3.1- und 3.2-Familie sowie an Modellen der Qwen-Familie getestet. Dabei hätten Experimente gezeigt, dass HIGGS andere datenfreie Quantisierungsmethoden, einschließlich NF4 (4-Bit NormalFloat) und HQQ (Halbquadratische Quantisierung), in Bezug auf das Verhältnis von Qualität zu Größe übertrifft. Ressourcenschonende KI für alle Insbesondere Start-ups, unabhängigen Entwicklern und ressourcenbeschränkten Umgebungen soll dies zugutekommen. Yandex Research selbst nutzt HIGGS bereits zur schnelleren Prototyp-Entwicklung und Ideentests. Entwickler und Forscher können bereits auf Hugging Face auf HIGGS zugreifen oder das Forschungspapier erkunden, das auf arXiv verfügbar ist. 

LLMs auf dem Smartphone für alle​ Quantisierung von LLMs in Minuten statt Tagen – ganz ohne Spezialhardware. Alexander Supertramp – shutterstock Große Sprachmodelle wie DeepSeek R1 waren bislang nur mit hohem Rechenaufwand auf leistungsstarker Hardware nutzbar. Sie auf mobilen Endgeräten oder Laptops einzusetzen, erforderte teure Server und viel Zeit für den Quantifizierungsprozess. Dank neuer Methoden soll dieser Prozess nun in wenigen Minuten direkt auf Laptops oder Smartphones durchführbar sein – ohne spezielle Hardware. Damit wird der Zugang zu LLMs deutlich einfacher und günstiger, so die Forscherinnen und Forscher von Yandex Research. Gemeinsam mit Forschenden des Massachusetts Institute of Technology (MIT), des Institute of Science and Technology Austria (ISTA) und der King Abdullah University of Science and Technology (KAUST) hat das Forschungsteam von Yandex Research eine Methode entwickelt, mit der große Sprachmodelle (LLM) ohne nennenswerte Qualitätseinbußen schnell komprimiert werden können. Komprimierung ohne Qualitätsverlust Wie die Wissenschaftler in einem Research Paper ausführen, senkt ihre HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS)-Technologie damit die Einstiegshürde für den Einsatz großer Sprachmodelle auf Geräten wie PCs und Smartphones. Diese Methode könne beispielsweise verwendet werden, um LLMs wie DeepSeek R1 mit 671B-Parametern und Llama 4 Maverick mit 400B-Parametern zu komprimieren, die zuvor nur mit einem erheblichen Qualitätsverlust quantisiert (komprimiert) werden konnten. Die Quantisierungstechnik eröffne damit neue Möglichkeiten für den Einsatz von LLMs in verschiedenen Bereichen, insbesondere in ressourcenbeschränkten Umgebungen. Die Wissenschaftler haben nach eigenen Angaben HIGGS bereits an den Modellen der LLaMA 3.1- und 3.2-Familie sowie an Modellen der Qwen-Familie getestet. Dabei hätten Experimente gezeigt, dass HIGGS andere datenfreie Quantisierungsmethoden, einschließlich NF4 (4-Bit NormalFloat) und HQQ (Halbquadratische Quantisierung), in Bezug auf das Verhältnis von Qualität zu Größe übertrifft. Ressourcenschonende KI für alle Insbesondere Start-ups, unabhängigen Entwicklern und ressourcenbeschränkten Umgebungen soll dies zugutekommen. Yandex Research selbst nutzt HIGGS bereits zur schnelleren Prototyp-Entwicklung und Ideentests. Entwickler und Forscher können bereits auf Hugging Face auf HIGGS zugreifen oder das Forschungspapier erkunden, das auf arXiv verfügbar ist.

Quantisierung von LLMs in Minuten statt Tagen – ganz ohne Spezialhardware. Alexander Supertramp – shutterstock Große Sprachmodelle wie DeepSeek R1 waren bislang nur mit hohem Rechenaufwand auf leistungsstarker Hardware nutzbar. Sie auf mobilen Endgeräten oder Laptops einzusetzen, erforderte teure Server und viel Zeit für den Quantifizierungsprozess. Dank neuer Methoden soll dieser Prozess nun in wenigen Minuten direkt auf Laptops oder Smartphones durchführbar sein – ohne spezielle Hardware. Damit wird der Zugang zu LLMs deutlich einfacher und günstiger, so die Forscherinnen und Forscher von Yandex Research. Gemeinsam mit Forschenden des Massachusetts Institute of Technology (MIT), des Institute of Science and Technology Austria (ISTA) und der King Abdullah University of Science and Technology (KAUST) hat das Forschungsteam von Yandex Research eine Methode entwickelt, mit der große Sprachmodelle (LLM) ohne nennenswerte Qualitätseinbußen schnell komprimiert werden können. Komprimierung ohne Qualitätsverlust Wie die Wissenschaftler in einem Research Paper ausführen, senkt ihre HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS)-Technologie damit die Einstiegshürde für den Einsatz großer Sprachmodelle auf Geräten wie PCs und Smartphones. Diese Methode könne beispielsweise verwendet werden, um LLMs wie DeepSeek R1 mit 671B-Parametern und Llama 4 Maverick mit 400B-Parametern zu komprimieren, die zuvor nur mit einem erheblichen Qualitätsverlust quantisiert (komprimiert) werden konnten. Die Quantisierungstechnik eröffne damit neue Möglichkeiten für den Einsatz von LLMs in verschiedenen Bereichen, insbesondere in ressourcenbeschränkten Umgebungen. Die Wissenschaftler haben nach eigenen Angaben HIGGS bereits an den Modellen der LLaMA 3.1- und 3.2-Familie sowie an Modellen der Qwen-Familie getestet. Dabei hätten Experimente gezeigt, dass HIGGS andere datenfreie Quantisierungsmethoden, einschließlich NF4 (4-Bit NormalFloat) und HQQ (Halbquadratische Quantisierung), in Bezug auf das Verhältnis von Qualität zu Größe übertrifft. Ressourcenschonende KI für alle Insbesondere Start-ups, unabhängigen Entwicklern und ressourcenbeschränkten Umgebungen soll dies zugutekommen. Yandex Research selbst nutzt HIGGS bereits zur schnelleren Prototyp-Entwicklung und Ideentests. Entwickler und Forscher können bereits auf Hugging Face auf HIGGS zugreifen oder das Forschungspapier erkunden, das auf arXiv verfügbar ist. 

Nach oben scrollen
×