ライブストリーミング技術 - 過去、現在、そして未来
- SplitmediaLabs Limited
- 5月10日
- 読了時間: 5分
NPUプロセッサとAIテクノロジー

ライブストリーミングは長年、全く同じ方法で行われてきたように見えるかもしれません。しかし、その裏では、新しいハードウェア機能、エンコード技術、そして技術革新が、その基盤となる環境を絶えず変化させてきました。私がXSplitに入社した2012年当時、ライブストリーミングはようやく注目を集め始めたばかりでした。それ以来、私は業界を変革し、そして今も変革を続けている驚異的な技術革新を最前線で見てきました。
私たちが目にした最も大きな変化の一つは、CPUベースのエンコードからGPUによるハードウェアエンコードへの移行です。この変化は単なるマイナーアップグレードではなく、革命的なものでした。高性能CPUを搭載した高価なストリーミングリグを必要とせず、高品質のHDライブストリーミングを実現することで、ストリーミングを一般の人々に身近なものにしたのです。Intel、Nvidia、AMDといった大手企業は、ライブコンテンツ制作がデジタル世界に甚大な影響を与え始めていることを認識し、それぞれ独自の専用エンコーダーを発表しました。
NPU(ニューラル・プロセッシング・ユニット)の登場により、新たなチップアーキテクチャが再び状況を変えつつあります。これらのチップはAI駆動型タスクにとって画期的なものであり、CPUやGPUに負担をかけることなく、よりスムーズに実行できるようになります。Intelはこの変化の原動力となっており、AI搭載PCのビジョンを実現するために、すべての新型ノートPC用CPUとほとんどのデスクトップPC用CPUにNPUを統合しています。
これにより、コンテンツ クリエイターにとっては、ゲームやストリーミングの品質に悪影響を与えることなく、AI による背景除去、オーディオ強化、ゲーム ハイライト認識、字幕、自動反応など、クリエイター エクスペリエンスに対する AI ベースの強化機能を将来さらに利用しやすくなります。
XSplitでは、NPUのパワーを刺激的な方法で活用しています。Intelと提携し、独自の特許取得済みAI技術を用いてウェブカメラの背景を除去できるVCamソフトウェアを強化しました。NPU搭載マシン(例えば、最新のIntel Core Ultraプロセッサー搭載マシン)で実行すると、VCamはより強力なモデルを提供し、椅子の縁やヘッドセット、あるいは誰かが背景に突然動き出すといった繊細なディテールの検出において、目に見えるほど優れた結果を実現します。


パフォーマンスの向上は明らかです。背景要素を完全に除去した場合と比較すると、以前の最高レベルのAIモデルの平均不正確率は2.5%でしたが、NPU最適化された新しいモデルではわずか1.5%にまで低下し、不正確さが40%削減されました。どちらの場合も不正確率は無視できるほど小さいように思えるかもしれませんが、鮮明さと画質が視聴者のエンゲージメントを左右するライブストリーミングにおいて、この改善は大きな違いをもたらします。
例:



実際のテスト結果は以下の通りです。Intel Core Ultra 7プロセッサ(NPU搭載)とIntel Arcグラフィックスカードを搭載したASUS Zenbookで、一連のライブテストを実施しました。サイバーパンク2077、シムズ4、フォートナイトといった人気ゲームをプレイする際、XSplit Broadcasterでゲームプレイを720pでエンコードし、CPUとNPUの両方で最高レベルの背景除去モデルを実行した際のFPSへの影響をベンチマークしました。
結果は実に素晴らしいものでした。NPUがバックグラウンド処理の重労働を担っても、ゲームはスムーズに動作し、フレームレートへの影響は最小限に抑えられました。
これらのシナリオでは、以前の最高の背景除去モデルをNPUで実行した場合、CPUで実行した場合と比較して、ゲームのFPSが平均で約13%向上しました。一方、NPU向けに最適化された新しい高性能モデルをCPUで実行した場合、ゲームが常にカクツキましたが、新しいモデルをNPUで実行した場合は、CPUで以前の最高のモデルを実行した場合と比較して、平均FPSが7.5%向上し、スムーズな体験が得られました。

また、NPU で背景除去 AI モデルを実行すると、大幅な電力節約とバッテリー寿命の改善も得られました。
VCamは、CPUとNPUでの推論にIntelのOpenVINO APIを使用します。デフォルトでは、VCamの推論はNPUとGPUではFP16精度、CPUではInt8量子化を使用します。将来のアップデートでは、消費電力をさらに削減するために、NPUでもInt8を使用するように切り替えられる可能性があります。
VCam は、カメラの動きがほとんどないかまったくない場合に推論サイクルを最適化しますが、社内のモデル テスト ツールを使用して、フレームごとに推論を強制し、さまざまな精度でさまざまなモデルをテストすることで、背景除去モデルで使用される最悪の電力消費を測定することができました。

結論として、バックグラウンド推論にNPUを使用すると、CPU/GPUでの推論と比較してバッテリー消費が最大60%削減され、新しい上位モデルをNPUで実行した場合の消費電力は、以前の最高モデルをNPUで実行した場合と比較して約8%の増加にとどまりました。全体として、これはバッテリー寿命の延長と電気料金の削減の両方を意味し、ストリーマーと地球環境の両方にとってメリットのある結果です。
今後、コンテンツ制作におけるNPUの可能性は計り知れません。リアルタイム動画分析、自動モデレーション、パーソナライズされたインタラクションといった分野では、まだ可能性のほんの一部しか見えていません。視聴者の反応やコメントにリアルタイムで適応し、真にインタラクティブな体験を生み出すライブ配信を想像してみてください。
このシリーズでは、ライブストリーミングの過去、現在、そして未来を形作るテクノロジーを探求し続けます。これらのイノベーションが、コンテンツの制作方法だけでなく、世界とのつながり方をどのように再定義しているのか、その洞察をお届けしますので、どうぞお楽しみに。
コメント