top of page
XSplit Logo

ライブストリーミング技術 - 過去、現在、そして未来

  • 執筆者の写真: SplitmediaLabs Limited
    SplitmediaLabs Limited
  • 5月10日
  • 読了時間: 5分

NPUプロセッサとAIテクノロジー


XSplit CEO アンドレアス・ホーイエ

ライブストリーミングは長年、全く同じ方法で行われてきたように見えるかもしれません。しかし、その裏では、新しいハードウェア機能、エンコード技術、そして技術革新が、その基盤となる環境を絶えず変化させてきました。私がXSplitに入社した2012年当時、ライブストリーミングはようやく注目を集め始めたばかりでした。それ以来、私は業界を変革し、そして今も変革を続けている驚異的な技術革新を最前線で見てきました。


私たちが目にした最も大きな変化の一つは、CPUベースのエンコードからGPUによるハードウェアエンコードへの移行です。この変化は単なるマイナーアップグレードではなく、革命的なものでした。高性能CPUを搭載した高価なストリーミングリグを必要とせず、高品質のHDライブストリーミングを実現することで、ストリーミングを一般の人々に身近なものにしたのです。Intel、Nvidia、AMDといった大手企業は、ライブコンテンツ制作がデジタル世界に甚大な影響を与え始めていることを認識し、それぞれ独自の専用エンコーダーを発表しました。


NPU(ニューラル・プロセッシング・ユニット)の登場により、新たなチップアーキテクチャが再び状況を変えつつあります。これらのチップはAI駆動型タスクにとって画期的なものであり、CPUやGPUに負担をかけることなく、よりスムーズに実行できるようになります。Intelはこの変化の原動力となっており、AI搭載PCのビジョンを実現するために、すべての新型ノートPC用CPUとほとんどのデスクトップPC用CPUにNPUを統合しています。


これにより、コンテンツ クリエイターにとっては、ゲームやストリーミングの品質に悪影響を与えることなく、AI による背景除去、オーディオ強化、ゲーム ハイライト認識、字幕、自動反応など、クリエイター エクスペリエンスに対する AI ベースの強化機能を将来さらに利用しやすくなります。


XSplitでは、NPUのパワーを刺激的な方法で活用しています。Intelと提携し、独自の特許取得済みAI技術を用いてウェブカメラの背景を除去できるVCamソフトウェアを強化しました。NPU搭載マシン(例えば、最新のIntel Core Ultraプロセッサー搭載マシン)で実行すると、VCamはより強力なモデルを提供し、椅子の縁やヘッドセット、あるいは誰かが背景に突然動き出すといった繊細なディテールの検出において、目に見えるほど優れた結果を実現します。


XSplit VCam画面にカメラ設定が表示されています。植物、ウォールアート、XSplitロゴが描かれています。設定には照明や画質のオプションも含まれます。
XSplit VCam設定インターフェースにはパフォーマンスオプションが表示されます。ハードウェアアクセラレーション、プロセッサ選択、キャリブレーションボタンなどの機能があります。

パフォーマンスの向上は明らかです。背景要素を完全に除去した場合と比較すると、以前の最高レベルのAIモデルの平均不正確率は2.5%でしたが、NPU最適化された新しいモデルではわずか1.5%にまで低下し、不正確さが40%削減されました。どちらの場合も不正確率は無視できるほど小さいように思えるかもしれませんが、鮮明さと画質が視聴者のエンゲージメントを左右するライブストリーミングにおいて、この改善は大きな違いをもたらします。


例:


ヘッドフォンをつけた男性が、紫色の「XSplit」シャツを着て、黒い背景に腕を上げている。赤い矢印は横を指している。

眼鏡とヘッドセットをかけた人物の画像が2枚あります。赤い矢印はシャツの小さなデバイスを指しています。背景は水色です。シャツには「FREN」と書かれています。
Higher level of precision when segmenting edge elements like chair and headphones

長髪で眼鏡をかけた、そっくりな二人の人物が青いシャツを着ている。赤い矢印は、黒い背景に何かを塗っている人物を指している。
Significantly reduced risk of model confusion when a person moves in the background

実際のテスト結果は以下の通りです。Intel Core Ultra 7プロセッサ(NPU搭載)とIntel Arcグラフィックスカードを搭載したASUS Zenbookで、一連のライブテストを実施しました。サイバーパンク2077、シムズ4、フォートナイトといった人気ゲームをプレイする際、XSplit Broadcasterでゲームプレイを720pでエンコードし、CPUとNPUの両方で最高レベルの背景除去モデルを実行した際のFPSへの影響をベンチマークしました。


結果は実に素晴らしいものでした。NPUがバックグラウンド処理の重労働を担っても、ゲームはスムーズに動作し、フレームレートへの影響は最小限に抑えられました。


これらのシナリオでは、以前の最高の背景除去モデルをNPUで実行した場合、CPUで実行した場合と比較して、ゲームのFPSが平均で約13%向上しました。一方、NPU向けに最適化された新しい高性能モデルをCPUで実行した場合、ゲームが常にカクツキましたが、新しいモデルをNPUで実行した場合は、CPUで以前の最高のモデルを実行した場合と比較して、平均FPSが7.5%向上し、スムーズな体験が得られました。


背景除去モデルの平均FPSを比較した表です。CPU: 95.2、N/A、NPU: 107.5、102.3。カテゴリには「過去の最高値」と「最新の最高値」が含まれます。

また、NPU で背景除去 AI モデルを実行すると、大幅な電力節約とバッテリー寿命の改善も得られました。


VCamは、CPUとNPUでの推論にIntelのOpenVINO APIを使用します。デフォルトでは、VCamの推論はNPUとGPUではFP16精度、CPUではInt8量子化を使用します。将来のアップデートでは、消費電力をさらに削減するために、NPUでもInt8を使用するように切り替えられる可能性があります。


VCam は、カメラの動きがほとんどないかまったくない場合に推論サイクルを最適化しますが、社内のモデル テスト ツールを使用して、フレームごとに推論を強制し、さまざまな精度でさまざまなモデルをテストすることで、背景除去モデルで使用される最悪の電力消費を測定することができました。


CPU、GPU、NPU モデルのワット単位の電力使用量を比較した表。NPU に最適化されたバージョンの改善点が強調されています。
Tests were run using an in-house model testing tool (smdnnTestBench), without running any apps in the background. Power consumption was measured using HWiNFO

結論として、バックグラウンド推論にNPUを使用すると、CPU/GPUでの推論と比較してバッテリー消費が最大60%削減され、新しい上位モデルをNPUで実行した場合の消費電力は、以前の最高モデルをNPUで実行した場合と比較して約8%の増加にとどまりました。全体として、これはバッテリー寿命の延長と電気料金の削減の両方を意味し、ストリーマーと地球環境の両方にとってメリットのある結果です。


今後、コンテンツ制作におけるNPUの可能性は計り知れません。リアルタイム動画分析、自動モデレーション、パーソナライズされたインタラクションといった分野では、まだ可能性のほんの一部しか見えていません。視聴者の反応やコメントにリアルタイムで適応し、真にインタラクティブな体験を生み出すライブ配信を想像してみてください。


このシリーズでは、ライブストリーミングの過去、現在、そして未来を形作るテクノロジーを探求し続けます。これらのイノベーションが、コンテンツの制作方法だけでなく、世界とのつながり方をどのように再定義しているのか、その洞察をお届けしますので、どうぞお楽しみに。



 
 
 

コメント


bottom of page