Live-Streaming-Technologie – Vergangenheit, Gegenwart und Zukunft
- SplitmediaLabs Limited
- 10. Mai 2024
- 4 Min. Lesezeit
NPU-Prozessoren und KI-Technologie

Es mag den Anschein haben, als sei Live-Streaming seit Jahren immer gleich geblieben. Doch hinter den Kulissen haben neue Hardwarefunktionen, Kodierungstechnologien und technische Innovationen die zugrunde liegende Landschaft ständig verändert. Als ich 2012 zu XSplit kam, war Live-Streaming gerade erst im Kommen. Seitdem habe ich die unglaublichen technologischen Fortschritte, die die Branche verändert haben und weiterhin verändern, hautnah miterlebt.
Eine der bedeutendsten Veränderungen, die wir erlebt haben, ist der Wechsel von der CPU-basierten Kodierung zur Hardware-Kodierung auf der GPU. Diese Änderung war nicht nur ein kleines Upgrade, sondern eine Revolution, da sie Streaming für die breite Masse zugänglich machte, da für die Produktion eines hochwertigen HD-Livestreams keine unerschwinglich teure Streaming-Ausrüstung mit leistungsstarker CPU mehr erforderlich war. Große Player wie Intel, Nvidia und AMD brachten alle ihre eigenen dedizierten Encoder auf den Markt und erkannten den tiefgreifenden Einfluss, den die Erstellung von Live-Inhalten auf unsere digitale Welt hatte.
Eine neue Chiparchitektur verändert die Landschaft erneut: die NPUs (Neural Processing Units). Diese Chips sind wegweisend für KI-gesteuerte Aufgaben, die nun reibungsloser ablaufen, ohne CPU oder GPU zu belasten. Intel ist eine treibende Kraft hinter diesem Wandel und integriert NPUs in alle neuen Laptop-CPUs und die meisten Desktop-CPUs, um seine KI-PC-Vision Wirklichkeit werden zu lassen.
Für Inhaltsersteller wird es dadurch in Zukunft noch einfacher, die Vorteile KI-basierter Verbesserungen des Erstellererlebnisses zu nutzen, wie etwa KI-gesteuerte Hintergrundentfernung, Audioverbesserungen, Erkennung von Gaming-Highlights, Untertitel, automatisierte Reaktionen und vieles mehr, ohne die Spiel- oder Streaming-Qualität negativ zu beeinflussen.
Bei XSplit haben wir die Leistungsfähigkeit von NPUs auf spannende Weise genutzt. Gemeinsam mit Intel haben wir unsere VCam-Software verbessert, die unsere patentierte KI-Technologie zur Webcam-Hintergrundentfernung nutzt. Auf einem Rechner mit NPU, z. B. jedem Rechner mit dem neuen Intel Core Ultra Prozessor, bietet VCam nun ein leistungsstärkeres Modell, das deutlich bessere Ergebnisse liefert – insbesondere bei kniffligen Details wie Stuhlkanten, Headsets oder plötzlichen Bewegungen anderer Personen im Hintergrund.


Die Leistungssteigerung ist deutlich: Gemessen an der perfekten Entfernung aller Hintergrundelemente wies unser bisher bestes KI-Modell eine durchschnittliche Ungenauigkeitsrate von 2,5 Prozent auf. Mit dem neuen NPU-optimierten Modell sinkt diese auf nur 1,5 Prozent – eine Reduzierung der Ungenauigkeiten um 40 %. Auch wenn die Ungenauigkeitsrate in beiden Fällen vernachlässigbar erscheint, macht diese Verbesserung beim Live-Streaming einen echten Unterschied, da Klarheit und Bildqualität über die Zuschauerbeteiligung entscheiden.
Beispiele:



So sieht es in der Praxis aus: Wir haben eine Reihe von Live-Tests auf einem ASUS Zenbook mit einem Intel Core Ultra 7-Prozessor mit NPU und einer Intel Arc-Grafikkarte durchgeführt. Wir haben die Auswirkungen auf die FPS beim Spielen beliebter Spiele wie Cyberpunk 2077, Sims 4 und Fortnite gemessen, während wir das Gameplay in 720p in XSplit Broadcaster kodierten und gleichzeitig die hochwertigsten Modelle zur Hintergrundentfernung sowohl auf der CPU als auch auf der NPU ausführten.
Die Ergebnisse waren beeindruckend. Die Spiele liefen reibungslos und die Framerate wurde nur minimal beeinträchtigt, wenn die NPU die Hauptarbeit für die Hintergrundverarbeitung übernahm.
In diesen Szenarien erzielten wir beim Ausführen des bisherigen besten Modells zur Hintergrundentfernung auf der NPU durchschnittlich um ca. 13 % höhere FPS in den Spielen als beim Ausführen des Modells auf der CPU. Umgekehrt brachte das Ausführen des neuen, NPU-optimierten Leistungsmodells auf der CPU das Spiel ständig zum Stottern – während das neue Modell auf der NPU ein flüssiges Erlebnis mit durchschnittlich 7,5 % höheren FPS bot als das Ausführen des bisherigen besten Modells auf der CPU.

Wir konnten außerdem erhebliche Energieeinsparungen und Verbesserungen der Akkulaufzeit feststellen, wenn wir eines der KI-Modelle zur Hintergrundentfernung auf der NPU ausführen.
VCam verwendet Intels OpenVINO -API für die Inferenz auf CPU und NPU. Standardmäßig verwendet VCam für die Inferenz FP16-Präzision auf NPU und GPU sowie Int8-Quantisierung auf der CPU. In einem zukünftigen Update könnte VCam auch auf der NPU auf Int8 umstellen, um den Stromverbrauch noch weiter zu senken.
VCam optimiert Inferenzzyklen, wenn sich die Kamera kaum oder gar nicht bewegt. Mithilfe unseres internen Modelltesttools konnten wir jedoch den Stromverbrauch im schlimmsten Fall messen, der vom Hintergrundentfernungsmodell verwendet wird, indem wir die Inferenz auf jedes Bild erzwangen und verschiedene Modelle mit unterschiedlicher Genauigkeit testeten.

Zusammenfassend lässt sich sagen, dass die Verwendung der NPU für Hintergrundinferenzen den Batterieverbrauch im Vergleich zur Inferenz auf CPU/GPU um bis zu 60 % reduzierte. Der Betrieb des neuen, leistungsstärkeren Modells auf der NPU erhöhte den Stromverbrauch im Vergleich zum Betrieb des vorherigen, besseren Modells auf der NPU nur um ca. 8 %. Insgesamt bedeutet dies sowohl eine längere Batterielebensdauer als auch niedrigere Stromkosten – eine Win-Win-Situation für Streamer und den Planeten.
Das Potenzial von NPUs in der Content-Erstellung ist enorm. Wir kratzen gerade erst an der Oberfläche dessen, was in Bezug auf Echtzeit-Videoanalyse, automatisierte Moderation und personalisierte Interaktionen möglich ist. Stellen Sie sich einen Live-Stream vor, der sich spontan an die Reaktionen und Kommentare der Zuschauer anpasst und so ein wirklich interaktives Erlebnis schafft.
In dieser Serie erkunden wir weiterhin die Technologien, die die Vergangenheit, Gegenwart und Zukunft des Live-Streamings prägen. Bleiben Sie dran für weitere Einblicke, wie diese Innovationen nicht nur die Art und Weise, wie wir Inhalte erstellen, sondern auch, wie wir mit der Welt in Kontakt treten, neu definieren.


