ニュース 2025/08/14 14:20 NEW!!
中国:華為がUCM技術発表、AI推論の性能向上 
産業・企業
【亜州ビジネス編集部】華為技術有限公司(ファーウェイ)は12日上海市で、人工知能(AI)推論の新たなイノベーション技術「UCM推論メモリーデータマネージャー」を発表した。革新的なアーキテクチャー設計により高帯域幅メモリー(HBM)への依存度を低減し、中国製大規模言語モデル(LLM)の性能を引き上げる。9月には同技術のオープンソース化を予定している。芯智訊が13日報じた。
現在、海外の主流AIモデルの単一ユーザー出力速度は200トークン/秒(遅延5ms)に達したものの、中国では60トークン/秒未満(遅延50~100ms)にとどまっている。華為によるUCMの開発は、推論効率とユーザー体験の課題解決が目的だ。
UCMは推論エンジンプラグイン、機能ライブラリ、高性能KVキャッシュアクセスアダプターの3つの主要コンポーネントで構成されており、推論フレームワーク、コンピューティングリソース、ストレージの3層連携を通じて、AI推論において「体験の最適化とコスト削減」を実現する。具体的には、最初のトークン遅延を最大90%低減する他、長文シークエンス処理効率を2~22倍向上し、同時に推論コストを低減する。
華為は9月にUCMのオープンソース化を計画しており、主流推論エンジンコミュニティ向けに段階的に提供していく。また、業界内の全てのShareEverything(共有アーキテクチャ)ストレージベンダーやエコシステムパートナーへの共有を予定している。
内容についてのお問い合わせは<info@ashuir.com>まで。
現在、海外の主流AIモデルの単一ユーザー出力速度は200トークン/秒(遅延5ms)に達したものの、中国では60トークン/秒未満(遅延50~100ms)にとどまっている。華為によるUCMの開発は、推論効率とユーザー体験の課題解決が目的だ。
UCMは推論エンジンプラグイン、機能ライブラリ、高性能KVキャッシュアクセスアダプターの3つの主要コンポーネントで構成されており、推論フレームワーク、コンピューティングリソース、ストレージの3層連携を通じて、AI推論において「体験の最適化とコスト削減」を実現する。具体的には、最初のトークン遅延を最大90%低減する他、長文シークエンス処理効率を2~22倍向上し、同時に推論コストを低減する。
華為は9月にUCMのオープンソース化を計画しており、主流推論エンジンコミュニティ向けに段階的に提供していく。また、業界内の全てのShareEverything(共有アーキテクチャ)ストレージベンダーやエコシステムパートナーへの共有を予定している。
内容についてのお問い合わせは<info@ashuir.com>まで。