- Amazon EMR›
- Características›
- EMR Studio
Amazon EMR Studio
¿Por qué EMR Studio?
EMR Studio es un entorno de desarrollo integrado (IDE) que facilita a los científicos e ingenieros de datos el desarrollo, la visualización y la corrección de aplicaciones de ingeniería y de ciencia de datos escritas en R, Python, Scala y PySpark.
EMR Studio proporciona blocs de notas Jupyter completamente administrados y herramientas como Spark UI y YARN Timeline Service para simplificar la depuración. Los científicos de datos y los analistas pueden instalar kernels y bibliotecas personalizados, colaborar con compañeros mediante repositorios de código, como GitHub y BitBucket, así como ejecutar blocs de notas parametrizados como parte de flujos de trabajo programados con servicios de orquestación, como Apache Airflow o Amazon Managed Workflows for Apache Airflow.
Los kernels y las aplicaciones de EMR Studio se ejecutan en clústeres de EMR, por lo que se obtiene el beneficio del procesamiento de datos distribuidos a través del Entorno de ejecución de Amazon EMR para Apache Spark optimizado. Los administradores pueden configurar EMR Studio de manera que los analistas puedan ejecutar las aplicaciones en clústeres de EMR existentes o crear nuevos clústeres con plantillas predefinidas de AWS Cloud Formation para EMR.
Facilidad de uso
Blocs de notas de Jupyter completamente administrados
Aplicaciones fáciles de crear
Depuración simplificada
Blocs de notas colaborativos en tiempo real
SQL Explorer
Blocs de notas en varios lenguajes
Casos de uso
-
Gracias a EMR Studio, puede iniciar blocs de notas en cuestión de segundos, incorporarse a los blocs de notas de muestra y explorar los datos. Puede colaborar con compañeros gracias a la colaboración en tiempo real incorporada y realizar un seguimiento de los cambios en las versiones de los blocs de notas a través de los repositorios Git. También puede personalizar el entorno al cargar kernels personalizados y bibliotecas Python desde blocs de notas.
-
Al utilizar EMR Studio, se puede recurrir al repositorio de código para desencadenar canalizaciones. También es posible parametrizar y encadenar blocs de notas para crear canalizaciones. Puede integrar blocs de notas en flujos de trabajo programados mediante servicios de orquestación de flujos de trabajo como Apache Airflow o Amazon Managed Workflows for Apache Airflow. EMR Studio también permite volver a asociar los blocs de notas a un clúster más grande para ejecutar un trabajo.
-
En EMR Studio, puede depurar aplicaciones de bloc de notas desde la interfaz de usuario del bloc de notas. También puede depurar canalizaciones al localizar en primer lugar los clústeres mediante filtros, como el estado del clúster, y diagnosticar trabajos tanto en clústeres activos como en clústeres terminados con el menor número de clics posible para abrir las interfaces de depuración nativas, como Spark UI, Tez UI y Yarn Timeline Service.