- 分析›
- Amazon EMR›
- EMR Serverless
Amazon EMR Serverless
クラスターやサーバーを管理することなくオープンソースフレームワークを使用してビッグデータアプリケーションを実行
EMR Serverless を使用する理由
Amazon EMR Serverless は、データアナリストとエンジニアがクラスターやサーバーを設定、管理、スケールせずにオープンソースのビッグデータ分析フレームワークを簡単に実行できるようにする Amazon EMR のサーバーレスオプションです。エキスパートによるクラスターの計画と管理を必要とすることなく、Amazon EMR のすべての機能と利点を活用できます。
メリット
-
アプリケーションのために実行するオープンソースフレームワーク (Apache Spark や Apache Hive など) を選択すると、基盤となるコンピューティングリソースとメモリリソースを EMR Serverless が自動的にプロビジョニングして管理します。
-
変化するデータ量と処理要件に合わせてリソースのサイズを数秒で変更する自動オンデマンドスケーリングを使用することで、あらゆる規模の分析ワークロードを実行できます。
-
EMR Serverless は、リソースを自動的にスケールアップおよびスケールダウンして、アプリケーションに適切な量のキャパシティを提供します。お支払いは使用分の料金のみとなるため、プロビジョニングする量が多すぎたり少なすぎたりする懸念を最小限に抑えることができます。
Apache Spark アップグレードエージェントは、インテリジェントオートメーションを使用することで、数か月間に及ぶ Apache Spark アップグレードを効率的な 1 週間のプロジェクトに変換します。Spark アップグレードエージェントは、コードベース全体での複雑な API 変更を自動的に処理することでエンタープライズ移行を効率化し、コストと労力を大幅に削減します。
Amazon EMR Serverless は Apache Spark ワークロード向けのローカルストレージプロビジョニングを不要にすることで、データ処理コストを最大 20% 削減し、ディスク容量の制約によるジョブの失敗を防ぎます。EMR Serverless はシャッフルなどの中間データオペレーションを自動的に処理し、ストレージ料金がかかりません。お支払いはコンピューティングリソースとメモリリソースの料金のみです。
仕組み
1. アプリケーションを作成
使用するオープンソースのフレームワークとバージョンを選択します。
2. ジョブを送信
API または EMR Studio 経由でアプリケーションにジョブを送信します。Apache Airflow や Amazon Managed Workflows for Apache Airflow などのワークフローオーケストレーションサービスを利用してジョブを送信することも可能です。
3. ジョブをデバッグ
Spark UI や Tez UI などの使い慣れたオープンソースツールを使用して、ジョブのモニタリングとデバッグを実行します。
ユースケース
-
必要なコンピューティング能力やメモリの量を事前に設定することなく、ワークロードの需要の変化に合わせてアプリケーションリソースをシームレスにスケールします。
-
SLA 制約のあるデータパイプラインには、アプリケーションリソースを事前に初期化し、秒単位での応答を可能にするオプションを選択します。
-
開発とテスト向けの環境を迅速かつ簡単に立ち上げ、予測できない使用状況に応じて自動的にスケールし、製品をより早く市場に投入します。