- Amazon EMR›
- Fonctions›
- EMR Studio
Amazon EMR Studio
Pourquoi choisir EMR Studio ?
EMR Studio est un environnement de développement intégré (IDE) qui permet aux scientifiques et ingénieurs des données de facilement développer, visualiser et déboguer les applications d'ingénierie et de science des données écrites en R, Python, Scala et PySpark.
EMR Studio fournit des Blocs-notes Jupyter entièrement gérés et des outils tels que Spark UI et YARN Timeline Service pour simplifier le débogage. Les scientifiques des données et les analystes peuvent installer des noyaux et des bibliothèques personnalisés, collaborer avec des pairs à l'aide de répertoires de code tels que GitHub et BitBucket, ou exécuter des blocs-notes paramétrés dans le cadre de flux de travail planifiés à l'aide de services d'orchestration comme Apache Airflow ou Amazon Managed Workflows for Apache Airflow.
Les noyaux et applications EMR Studio s’exécutent sur des clusters EMR. Vous bénéficiez ainsi du traitement de données distribué en utilisant l’environnement d’exécution Amazon EMR pour Apache Spark aux performances optimisées. Les administrateurs peuvent configurer EMR Studio pour que les analystes puissent exécuter leurs applications dans les clusters EMR existants ou créer des clusters à l'aide de modèles AWS Cloud Formation prédéfinis pour EMR.
Simple à utiliser
Blocs-notes Jupyter entièrement gérés
Applications faciles à créer
Débogage simplifié
Blocs-notes collaboratifs en temps réel
SQL Explorer
Blocs-notes multilingues
Cas d'utilisation
-
Avec EMR Studio, vous pouvez démarrer des blocs-notes en quelques secondes, vous familiariser avec des blocs-notes types et effectuer votre exploration des données. Vous pouvez collaborer avec vos pairs via la collaboration en temps réel intégrée et suivre les changements sur les versions de blocs-notes via les référentiels Git. Vous pouvez également personnaliser votre environnement en chargeant des noyaux et des bibliothèques Python personnalisés à partir des blocs-notes.
-
Dans EMR Studio, vous pouvez utiliser le répertoire de code pour déclencher des pipelines. Vous pouvez également paramétrer et chaîner des blocs-notes pour créer des pipelines. Vous pouvez intégrer des blocs-notes dans des flux de travail planifiés à l'aide de services d'orchestration de flux de travail tels qu'Apache Airflow ou Amazon Managed Workflows for Apache Airflow. EMR Studio vous permet également de rattacher des blocs-notes à un cluster plus grand pour exécuter une tâche.
-
Dans EMR Studio, vous pouvez déboguer des applications de bloc-notes à partir de l'interface utilisateur du bloc-notes. Vous pouvez également déboguer des pipelines en réduisant d'abord les clusters à l'aide de filtres tels que l'état des clusters, et diagnostiquer les travaux sur les clusters actifs et résiliés avec le moins de clics possible pour ouvrir les interfaces utilisateur de débogage natives telles que Spark UI, Tez UI et Yarn Timeline Service.