- Amazon FSx›
- FSx for Lustre›
- FSx for Lustre のお客様
Amazon FSx for Lustre のお客様
ダトロジー
DatologyAI は、ディープラーニングモデルのトレーニングに最適なデータを自動的に選択するツールを構築しています。
「Amazon SageMaker HyperPod のワンクリックオブザーバビリティソリューションを使用できることを嬉しく思います。私たちの上級スタッフは、GPUリソースをどのように利用しているかについての洞察を必要としていました。事前に構築されたGrafanaダッシュボードは、監視インフラストラクチャを維持しなくても、タスク固有のGPU使用率からファイルシステム(FSx for Lustre)のパフォーマンスまで、重要なメトリックを即座に可視化して、必要なものを正確に提供してくれます。Prometheus Query Language のパワーを高く評価している私としては、インフラストラクチャの問題を気にすることなく、独自のクエリを作成してカスタムメトリクスを分析できる点が気に入っています。」
DatologyAIのテクニカルスタッフメンバー、ジョシュ・ウィルズ
アポイデアグループ
Apoideaは、最先端のジェネレーティブAIとディープラーニング技術を使用して、多国籍銀行向けのAI搭載ソリューションを開発しています。同社の主力製品であるSuperACCは、独自のモデルを採用して銀行取引明細書やKYCフォームなどの多様な財務書類を処理する高度な文書処理サービスです。このテクノロジーにより、銀行セクターの効率が劇的に向上し、金融分散処理時間が4~6時間からわずか10分に短縮されました。
この開発をサポートするために、Apoidea では Amazon SageMaker HyperPod を利用しています。これにより、大規模モデルトレーニングのためのスケーラブルで柔軟な環境が提供されています。SageMaker HyperPodは、分散型トレーニング管理、FSx for Lustreとのシームレスなデータ同期、カスタマイズ可能な環境を特徴としており、これらすべてがMLワークフローの効率を高めます。
Adobe
Adobe は、世界を変える革新的な製品を生み出すというシンプルなアイデアに基づいて 40 年前に設立されました。Adobe は、あらゆる場所で、誰でも、あらゆるデジタルエクスペリエンスを想像、創造、実現できるようにする画期的なテクノロジーを提供しています。アドビは、オープンソースモデルに頼るのではなく、クリエイティブなユースケースに合わせた独自の基本的なジェネレーティブAIモデルをトレーニングすることにしました。Adobe は、モデルのイテレーションを迅速に実行するための AI トレーニングプラットフォームとデータパイプラインを構築することを目的として、AWS 上に AI スーパーハイウェイを作成しました。アドビでは、データへの高速アクセスを実現し、GPU リソースがアイドル状態のままにならないように、Lustre の高性能ファイルストレージに Amazon FSx を使用しました。
「自分で AI クラウドを作成しようと思うのは簡単ですが、AWS とのパートナーシップにより、差別化要因に集中できます」
Adobe、Generative AI and Sensei、Vice President、Alexandru Costin 氏
LG AIリサーチ
韓国のコングロマリットであるLGグループの人工知能(AI)研究拠点であるLG AI Researchは、将来の成長を促進するためのデジタルトランスフォーメーション戦略の一環としてAIを促進するために設立されました。研究所は、Amazon SageMakerとAmazon FSx for Lustreを使用して、1年以内に基礎モデルのEXAONEエンジンを開発しました。基盤モデルは、大規模なデータトレーニングを通じて人間が自ら考え、学び、行動を起こす様子を模倣しています。多目的基礎モデルは、さまざまな業界でさまざまなタスクを実行するために利用できます。
ペイジ
デジタル病理学の大手プロバイダーであるペイジは、がん診断用の AI モデルと ML モデルの強化を試みましたが、オンプレミスソリューションでは限界に直面していました。これを克服するために、ペイジは Amazon EC2 P4d インスタンスと Amazon FSx for Lustre を採用し、後者を Amazon S3 バケットと統合して、ペタバイト単位の ML 入力データを効率的に処理できるようにしました。この AWS インフラストラクチャにより、Paige は高性能ファイルシステムで手動で事前にステージングしなくてもデータを処理できるようになりました。その結果、Paigeはデータトレーニング容量を10倍に増やし、社内ワークフローを 72% 高速化しました。
「Amazon FSx for Lustre を Amazon S3 に接続することで、これまでオンプレミスインフラストラクチャで試したデータ量の 10 倍のデータ量で問題なくトレーニングできます。」
Paige、Staff AI Engineer、Alexander van Eck 氏
トヨタ
Toyota Research Institute (TRI) は、自動運転車 (AV) のテスト運転から大量のセンサーデータを収集して処理しています。各トレーニングデータセットはオンプレミスの NAS デバイスにステージングされ、強力な GPU コンピューティングクラスターで処理される前に Amazon Simple Storage Service (Amazon S3) に転送されます。TRI は、同社のコンピューティングリソースと組み合わせ、ML モデルのトレーニングを高速化し、データサイエンティストがより迅速にインサイトを得ることができるようにするために、高性能ファイルシステムを必要としていました。Toyota Research Institute は、オブジェクト認識機械学習のトレーニング時間を短縮するために、FSx for Lustre を採用することにしました。
「ML トレーニングデータセットには並列ファイルシステムが必要でした。Lustre 用の Amazon FSx を選択したのは、従来のファイルシステムよりも可用性と耐久性が高いためです。S3を含むAWSサービスとの統合により、当社の高性能ファイルストレージの選択肢としても好まれるようになりました。」
Toyota Research Institute、ソフトウェアエンジニア、David Fluck 氏
Shell
シェルは、石油、ガス、石油化学製品から風力、太陽光、水素まで、さまざまなエネルギーオプションを提供しています。シェルは、お客様の生活に必要なエネルギーを供給できることを誇りに思っています。Shell はモデルの構築、テスト、検証に HPC を利用しています。2020 年から 2022 年にかけて、GPU 利用率は平均 90% 未満となり、その結果として、プロジェクトが遅延し、新しいアルゴリズムの実験が制限されました。シェルは Amazon EC2 クラスターと Amazon FSx for Lustre を使用してクラウドにバーストすることで、オンプレミスのコンピューティング能力を強化しています。このソリューションにより、Shell は迅速にスケールアップおよびスケールダウンし、必要な場合にのみ、追加のコンピューティングキャパシティを購入できるようになります。Shell の GPU が最大限に活用されるようになったため、コンピューティングのコストが削減され、機械学習モデルのテストが高速化されています。
Netflix
Netflixは、メディアMLモデル、ポストプロダクションのサムネイル、VFX、数千本の動画や数百万のクリップの予告編生成など、大規模な分散型トレーニングを行っています。Netflix では、ノード間レプリケーションと 40% の GPU アイドル時間により、長い待ち時間が発生していました。
Netflixはデータ読み込みパイプラインを再構築し、すべてのビデオ/オーディオクリップを事前に計算することで効率を向上させました。Amazon FSx for Lustre のパフォーマンスにより、Netflix は GPU を最大限に活用し、GPU のアイドル時間を実質的になくすことができます。Netflix は、事前計算と FSx for Lustre を利用して 3~4 倍の改善を実現し、モデルのトレーニング時間を 1 週間から 1~2 日に短縮できました。
Netflix のエピソードドラマ『ザ・クラウン』のシーズン 4 の制作は思いがけない困難に直面しました。制作後の VFX 作業の開始が予定されていたちょうどその頃、新型コロナウイルス (COVID-19) によるパンデミックで世界がロックダウンに入ってしまったのです。スループット向上のためにAmazon FSx Lustreファイルサーバーを含むクラウドベースのワークフローをAWSで採用したことで、Netflixの10人のアーティストからなる社内VFXチームは、リモートで作業しながら、わずか8か月でシーズン10話分の600枚以上のVFXショットをシームレスに完成させることができました。
Storengy
ENGIE Group の子会社である Storengy は、天然ガスの大手サプライヤーです。同社は、ガス貯蔵、地熱ソリューション、カーボンフリーエネルギー生産、貯蔵テクノロジーを世界中の企業に提供しています。
製品が適切に保管されているようにするため、Storengy はハイテクシミュレーターを利用して地下のガス貯蔵を評価します。これは、ハイパフォーマンスコンピューティング (HPC) ワークロードの広範な利用を必要とするプロセスです。同社はまた、HPC テクノロジーを利用して、天然ガスの発見と探査を実行しています。
「AWS のおかげで、一度に何百ものシミュレーションを実行できるスケーラビリティと高可用性が得られました。さらに、このソリューションはピーク時のワークロードに対応するように自動的にスケールアップまたはスケールダウンします。つまり、HPC 環境に驚くようなことは何もありません。」
Storengy、エンジニア、Jean-Frederic Thebault 氏
Smartronix
Smartronix は FSx for Lustre を活用して、SAS Grid のデプロイ用に、信頼性の高いハイパフォーマンスを実現しています。
Smartronix は、クラウドソリューション、サイバーセキュリティ、システム統合、世界規模の C5ISR とデータ分析、およびミッションに焦点を当てたエンジニアリングを、世界をリードする多くの商業組織や連邦組織に提供しています。Smartronix は、SAS Grid を利用して州全体の新型コロナウイルスの日次統計を分析および提供していましたが、セルフマネージド並列ファイルシステムの管理と保護が困難であることがわかりました。
「AWS と協力し、FSx for Lustre などのマネージドソリューションを活用することで、セルフマネージドファイルシステムよりも可用性が高く、コストが 29% 削減され、お客様により良いサービスを提供できるようになりました。」
Smartronix、シニアソリューションアーキテクト、Rob Mounier 氏
Hyundai
Hyundai Motor Companyは、200か国以上に輸出している世界的な自動車メーカーで、自動運転のセマンティックセグメンテーションを使用して、画像ピクセルを道路、人、建物などのカテゴリに分類しています。
モデルの精度を向上させ、期限に間に合わせるために、ヒュンダイは複数のGPUにわたる自動トレーニングとデータ並列処理を実現するAmazon SageMakerと、効率的なデータ保存と処理を実現するLustreおよびS3用のAmazon FSxを実装しました。これらのソリューションにより、ヒュンダイは64基のGPUでデータ待ち時間をなくしながら 93% のスケーリング効率を達成しました。
Rivian
Amazon FSx for Lustreは、Rivianのクラウド変革において重要な役割を果たし、コンピューター支援エンジニアリングと設計のワークロードに必要な高速共有ストレージアクセスを提供しました。Rivian は FSx for Lustre を AWS ソリューションの一部として使用することで、製品ライフサイクル管理のインタラクション速度を 66% 向上させ、バックアップ同期時間を1日から1時間未満に短縮するなど、パフォーマンス指標を劇的に改善しました。
フルマネージドストレージサービスは、Amazon EC2やAuto Scalingなどの他のAWSサービスと一緒に実装されたため、Rivianはオンプレミスインフラストラクチャの制限を克服し、予想されていた6か月のスケジュールと比較して、わずか3週間でスケーラブルで高性能なコンピューティング機能を実現できました。
デンソー
デンソーは、駐車や車線変更などの機能でドライバーを支援する先進運転支援システム(ADAS)用のイメージセンサーを開発しています。ADAS画像認識に必要なMLモデルを開発するために、デンソーはオンプレミス環境にGPUクラスターを構築しました。しかし、複数の ML エンジニアが限られた GPU リソースを共有していたため、特に新製品のリリース前の繁忙期には生産性に影響が生じました。
デンソーは Amazon SageMaker と Amazon FSx を Lustre に採用することで、データ取得、モデル開発、学習、評価時間を短縮することで、ADAS 画像認識モデルの作成を加速することができました。
「人工知能と機械学習の分野では、クラウドへの移行が加速し続けるでしょう。当社が引き続き機能を追加していく中で、AWS が今後も当社をサポートし続けてくれることを確信しています」
デンソー、General Manager、Kensuke Yokoi 氏
T-Mobile
T-Mobile は Amazon FSx for Lustre を実装して SAS グリッドインフラストラクチャを変革しました。これは、セルフマネージドシステムでパフォーマンスの問題と高い管理オーバーヘッドに対処するためです。
Lustre向けFSxの導入とAmazon S3との統合により、T-MobileはSASグリッドのワークロード速度を2倍にするとともに、年間150万ドルのコスト削減と総所有コストの 83% 削減を実現しました。
このソリューションによって運用上の負担がなくなり、T-Mobile は AWS の高度なストレージ機能を活用しながら、革新的な顧客製品の開発というコアビジネスに集中できるようになりました。
Maxar
地球情報および宇宙インフラにおける信頼できるパートナーでありイノベーターでもあるMaxar Technologiesは、オンプレミスのスーパーコンピューターよりも迅速に天気予報を提供する必要がありました。MaxarはAWSと協力して、安全で信頼性の高いコンピューティングリソースを提供するAMAZON EC2、アプリケーションの読み取り/書き込みスループットを高速化するLustre用のAmazon FSx、AWSでHPCコンピューティング環境を迅速に構築するためのAWS ParallelClusterなどの主要テクノロジーを備えたHPCソリューションを構築しました。
「Maxar は、NOAA の数値天気予報モデルを実行するために、当社の AWS HPC ソリューションで Amazon FSx for Lustre を使用しました。これにより、コンピューティング時間を 58% 削減し、約 45 分で予測を生成して、はるかに費用対効果の高いプライスポイントを実現できました。AWS のコンピューティングリソースを最大化することは、私たちにとって信じられないほどのパフォーマンスの向上でした。」
Maxar Technologies、シニアデータサイエンティストおよびエンジニア、Stefan Cecelski 博士
ブラックソーン・セラピューティクス (ニューモラ)
標準のDiYクラウドファイルシステムを使用して磁気共鳴画像(MRI)データを処理することは、リソースと時間を大量に消費していました。BlackThorn は、データサイエンスと機械学習のワークフローを簡素化するために、多くのコンピューティングを活用する共有ファイルストレージソリューションを必要としていました。Amazon FSx for Lustre は Amazon S3 および Amazon SageMaker と統合されているため、機械学習トレーニングデータセットを迅速に処理できるだけでなく、Amazon EC2 インスタンスを使用してコンピューティングにシームレスにアクセスすることもできます。
「FSx for Lustreにより、高性能なMRIデータ処理パイプラインを構築することができました。MLベースのワークフローのデータ処理時間は、数日から数週間かかっていたのが数分に短縮されました。」
BlackThorn Therapeutics、イノベーション & テクノロジー担当シニアディレクター、Oscar Rodriguez 氏
Qubole
Quboleは、顧客のために分析およびAI/MLワークロードを処理するための高性能ストレージソリューションを探していました。EC2 スポットフリートに保存されている中間データを簡単に保存して処理する必要がありました。Qubole は Amazon FSx for Lustre を使用して、並列高速ファイルシステムを介して中間データを保存および処理しました。
「ユーザーの2つの最大の問題は、高コストと中間のデータ損失です。これは、アイドル状態のEC2インスタンスとEC2スポットインスタンスを使用して、HiveやSparkなどの分散処理フレームワークによって生成された中間データを処理および保存することに起因していました。この問題は、高性能ファイルシステムである Amazon FSx for Lustre を利用して中間データをオフロードすることで解決できました。これで、ユーザーはアイドル状態のインスタンスを維持するために料金を支払う必要がなくなり、中断された EC2 スポットノードの影響を受けることもなくなりました。Amazon FSx は、ユーザーが総コストを 30% 削減するのに役立ちました。」
Qubole、CTO、Joydeep Sen Sarma 氏