NXP beschleunigt Edge-KI durch Übernahme von Kinara
NXP Semiconductors gab heute bekannt, dass es die Übernahme von Kinara, einem Pionier im Bereich leistungsstarker, energieeffizienter diskreter neuronaler Verarbeitungseinheiten (DNPUs), abgeschlossen hat. Die Kombination bietet einen skalierbaren Weg zu einer latenzarmen, datenschutzkonformen, geräteinternen KI für Anwendungen in den Bereichen Industrie, Automobil, Einzelhandel, Gesundheitswesen und Smart Space.
„Edge-KI muss lokal, reaktionsschnell, effizient und sicher sein“, sagte Ali Osman Ors, Director, AI/ML Strategy and Technologies, Edge Processing bei NXP. „Mit den diskreten NPUs und der Software von Kinara, die in das Portfolio von NXP integriert sind, erhalten Entwickler eine Full-Stack-Plattform für den Einsatz von TinyML bis hin zu generativer KI – ohne die Cloud in den kritischen Pfad einzubeziehen.“
Warum das wichtig ist
Echtzeit-Edge-Inferenz reduziert Latenzzeiten, schützt Daten, senkt Bandbreitenkosten und verbessert die Ausfallsicherheit.
Der Markt für Edge-KI-Beschleunigung wächst rasant, da Entwickler nach sicherer, kostengünstiger Leistung auf dem Gerät suchen.
Was NXP davon hat
Skalierbare KI-Beschleunigung: Mit Kinara Ara-1 (~6 eTOPS) für Bildverarbeitungs-Workloads und Ara-2 (~40 eTOPS) für fortschrittliche große Sprachmodelle (LLMs) und Bild-Sprach-Modelle (VLMs) können Kunden die Leistung unabhängig von der Host-MPU skalieren.
Speziell entwickelte KI-Siliziumchips: Diskrete NPUs (DNPUs) wie Ara-1 (~6 eTOPS) und Ara-2 (~40 eTOPS) wurden speziell für die neuronale Inferenz am Edge entwickelt – Datenflussausführung mit dichten MAC-Arrays, eng gekoppeltem On-Chip-Speicher und deterministischer Planung – und bieten eine deutlich höhere Leistung pro Watt als allgemeine CPUs/GPUs.
Moderne Modellabdeckung: Effiziente Ausführung von Convolutional Neural Networks (CNNs) und Transformer-Modellen – von klassischer Bildverarbeitung bis hin zu multimodaler und generativer KI.
Einheitliche Tools: Das SDK von Kinara, Modelloptimierungstools und voroptimierte Modelle lassen sich in die eIQ® -Software von NXP integrieren und bieten Entwicklern einen einzigen Build-Optimize-Deploy-Flow.
Systemflexibilität: Entlasten Sie die DNPU durch Auslagerung rechenintensiver Inferenzaufgaben, während i.MX- Anwendungsprozessoren (z.B. i.MX 8M Plus, i.MX 95) die Vor-/Nachbearbeitung, E/A, Benutzeroberfläche, Sicherheit und Konnektivität übernehmen und so Latenz und Energieverbrauch optimieren.
Was damit möglich ist (Beispiele)
Industrie: Echtzeit-visuelle Qualitätssicherung, vorausschauende Wartung und Gefahrenerkennung am Rand.
Gesundheitswesen und Altenpflege: Multimodale Überwachung (Sprache + Bild) auf dem Gerät mit verbesserter Privatsphäre.
Einzelhandel und intelligente Räume: Kontextbezogene Analysen und generative Erlebnisse mit Reaktionszeiten im Subsekundenbereich.
Automobil & Transport: Assistenzsysteme im Fahrzeuginnenraum und Wahrnehmungsfunktionen ohne ständige Netzwerkabhängigkeit.
Für Entwickler
Eine Toolchain: eIQ® + Kinara SDK für Kompilierung, Quantisierung/Optimierung, Bereitstellung und Profilerstellung.
Referenzdesigns und -modelle: Schnellere Prototypenerstellung für Bildverarbeitung, Sprache und multimodale KI.
Produktionsreife Stack: Sicherheit, PMICs, Konnektivität und Analogtechnik aus dem Portfolio von NXP – unterstützt durch kompetenten Support.
Über NXP
NXP Semiconductors N.V. ermöglicht sichere Verbindungen und Infrastrukturen für eine intelligentere Welt und entwickelt Lösungen, die das Leben einfacher, besser und sicherer machen. NXP treibt Innovationen in eingebetteten Anwendungen für die Märkte Automobil, Industrie und IoT, Mobilfunk und Kommunikationsinfrastruktur voran.
Über Kinara
Kinara entwickelt leistungsstarke, energieeffiziente diskrete NPUs und einen umfassenden KI-Software-Stack für Edge-Geräte, der CNNs und Transformer-basierte Modelle von der Bildverarbeitung bis zur generativen KI beschleunigt.
Definitionen
DNPU = Diskrete neuronale Verarbeitungseinheit, ein eigenständiger KI-Beschleuniger, der zusammen mit einem Host-Prozessor verwendet wird. NPU = Neuronale Verarbeitungseinheit (allgemeiner Begriff). CNN = Convolutional Neural Network(Faltungsneuronales Netzwerk). LLM = Large Language Model(großes Sprach modell). VLM = Vision-Language Model(Bild-Sprach-Modell). eTOPS =„equivalent tera operations per second“ (äquivalente Tera-Operationen pro Sekunde), eine Durchsatzmetrik, die Billionen von KI-Operationen pro Sekunde angibt.