Executrain-logo
Executrain-logo

CURSO SERVERLESS DATA PROCESSING WITH DATAFLOW (SDPF)

 

Esta capacitación Serverless Data Processing with Dataflow (SDPF) está dirigida a los profesionales de big data que desean profundizar su comprensión de Dataflow para avanzar en sus aplicaciones de procesamiento de datos. Comenzando con los fundamentos, esta capacitación explica cómo Apache Beam y Dataflow funcionan juntos para satisfacer sus necesidades de procesamiento de datos sin el riesgo de que el proveedor se quede bloqueado.  Esta capacitación culmina con un enfoque en las operaciones, que revisa las lecciones más importantes para operar una aplicación de datos en Dataflow, incluido el monitoreo, la resolución de problemas, las pruebas y la confiabilidad.

 

Duración:

3 días

Próximo curso:
Modalidades:
  • En Línea con instructor en vivo

Preparación para la certificación

• Examen GCP-DE
• Certificación Lograda: Google Cloud Professional Data Engineer

Beneficios

Diploma Oficial Google Cloud Platform

Manual Digital Google Cloud Platform

Laboratorios Oficiales Google Cloud Platform

Garantía ExecuTrain

\

Curso dirigido a:

Este curso está destinado a:

  • Ingeniero de datos.
  • Analistas de datos y científicos de datos que aspiran a desarrollar habilidades de ingeniería de datos

Requisitos previos:

Para aprovechar al máximo este curso, los participantes deben haber completado los siguientes cursos:

  • Creación de canalizaciones de datos por lotes
  • Creación de sistemas de análisis de transmisión resistentes
C E R T I F I C A C I Ó N

Google Cloud Professional

Data Engineer

¿Qué es Google Cloud Professional Data Engineer ?

La certificación Google Cloud Professional Data Engineer está diseñada para validar las habilidades y conocimientos necesarios para diseñar, construir y gestionar sistemas de procesamiento de datos en la plataforma Google Cloud. Los ingenieros de datos profesionales tienen la responsabilidad de transformar los datos en un formato útil para el análisis, permitiendo a las organizaciones tomar decisiones basadas en datos.

La certificación Google Cloud Professional Data Engineer es reconocida mundialmente y puede abrir puertas a nuevas oportunidades de carrera en el campo del análisis de datos y la ingeniería de datos, siendo una prueba de competencia en la gestión y análisis de datos en la nube

¿Qué se evalua para obtener esta certificación?

  • Diseño y Construcción de Sistemas de Datos:

    • Desarrollar y mantener pipelines de datos seguros, escalables y eficientes.
    • Utilizar herramientas y servicios de Google Cloud como BigQuery, Dataflow, Pub/Sub y Dataproc para procesar y analizar datos.
  • Gestión de Datos:

    • Implementar técnicas de almacenamiento de datos, incluyendo bases de datos SQL y NoSQL.
    • Asegurar la integridad, disponibilidad y seguridad de los datos mediante políticas de IAM y encriptación.
  • Análisis y Machine Learning:

    • Aplicar técnicas de análisis de datos y machine learning utilizando servicios como BigQuery ML y Vertex AI.
    • Construir y operar modelos de machine learning para derivar insights y predecir tendencias futuras.
  • Optimización de Rendimiento y Costos:

    • Optimizar consultas y pipelines de datos para mejorar el rendimiento y reducir costos.
    • Monitorizar y solucionar problemas en los sistemas de datos utilizando herramientas de Google Cloud para asegurar un funcionamiento continuo.

¿QUÉ APRENDERAS?

El curso “Serverless Data Processing with Dataflow” (SDPF) está diseñado para proporcionar a los profesionales del big data las habilidades necesarias para desarrollar y operar pipelines de datos utilizando Google Cloud Dataflow y Apache Beam. 

N

Introducción a Apache Beam y Google Cloud Dataflow

  • Fundamentos de Apache Beam: Comprender cómo Apache Beam proporciona una abstracción unificada para el procesamiento de datos por lotes y en tiempo real.
  • Integración con Google Cloud Dataflow: Aprender cómo Dataflow implementa pipelines de Beam para el procesamiento distribuido de datos.
N

Desarrollo de Pipelines de Datos

  • Creación de Pipelines: Convertir la lógica empresarial en aplicaciones de procesamiento de datos que se ejecutan en Dataflow.
  • Uso de Ventanas y Triggers: Implementar técnicas avanzadas de procesamiento de streaming, como ventanas, marcas de agua y triggers.
  • Fuentes y Sinks: Configuración de diversas fuentes (sources) y destinos (sinks) en los pipelines de datos.
N

Transformaciones Stateful

  • State y Timer APIs: Realizar transformaciones que mantienen el estado utilizando las APIs de estado y temporizador de Beam.
N

Mejores Prácticas y Optimización

  • Maximización del Rendimiento: Implementar las mejores prácticas para maximizar el rendimiento de los pipelines de datos.
  • Uso de SQL y DataFrames: Utilizar SQL y DataFrames para representar la lógica empresarial en Beam y desarrollar pipelines iterativamente con notebooks de Beam.
N

Operaciones y Monitoreo

  • Monitoreo y Solución de Problemas: Realizar monitoreo, solución de problemas, pruebas y CI/CD en pipelines de Dataflow para asegurar la estabilidad y confiabilidad del procesamiento de datos.
  • Despliegue Confiable: Desplegar pipelines de Dataflow con enfoque en la confiabilidad y la estabilidad del entorno de procesamiento de datos.
N

Seguridad y Gestión de Permisos

  • Permisos de IAM: Seleccionar la combinación adecuada de permisos de IAM para los trabajos de Dataflow.
  • Prácticas de Seguridad: Implementar mejores prácticas para un entorno de procesamiento de datos seguro.
N

Escalabilidad y Flexibilidad

  • Programación de Recursos Flexibles: Habilitar la programación de recursos flexibles para un rendimiento más eficiente en términos de costos.
  • Uso de Shuffle y Streaming Engine: Habilitar Shuffle y Streaming Engine para pipelines por lotes y de streaming, respectivamente, para lograr el máximo rendimiento.

METODOLOGÍA DE ESTUDIO EFECTIVA

Modalidad en linea con instructor en vivo.

Interacción Personalizada:
  • Enfoque Personalizado: Reciben atención personalizada y haz preguntas al instructor.
  • Retroalimentación Instantánea: Tu profesor en vivo te proporcionará  retroalimentación inmediata, lo que facilita la comprensión de conceptos y la corrección de errores.
Flexibilidad y Accesibilidad:
  • Aprendizaje Remoto: Accede al curso desde cualquier lugar, eliminando la necesidad de desplazamientos y permitiendo una mayor flexibilidad en horarios.
  • Grabaciones Disponibles: Las sesiones en vivo pueden ser grabadas, asi podrás revisar el material en cualquier momento.
Motivación y Compromiso:
  • Participación Activa: La interacción en tiempo real fomenta la participación activa y el compromiso, creando una mayor conexion con el instructor y otros estudiantes.
  • Sesiones Dinámicas: Discusiones en vivo, ejercicios prácticos y demostraciones mantienen tu interés a lo largo del curso.
Resolución Inmediata de Problemas:
  • Asistencia Inmediata: Resuelve  dudas y problemas de manera inmediata, evitando la espera entre la formulación de preguntas y la obtención de respuestas.

Módulos

Módulo 1: Introducción
  • Introducir los objetivos del curso.
  • Demostrar cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de tu organización.
Módulo 2: Portabilidad de Beam
  • Resumir los beneficios del Marco de Portabilidad de Beam.
  • Personalizar el entorno de procesamiento de datos de tu pipeline usando contenedores personalizados.
  • Revisar casos de uso para transformaciones entre lenguajes.
  • Habilitar el marco de Portabilidad para tus pipelines de Dataflow.
Módulo 3: Separación de Cómputo y Almacenamiento con Dataflow
  • Habilitar Shuffle y Streaming Engine, para pipelines por lotes y de streaming respectivamente, para obtener el máximo rendimiento.
  • Habilitar la Programación de Recursos Flexibles para un rendimiento más eficiente en términos de costos.
Módulo 4: IAM, Cuotas y Permisos
  • Seleccionar la combinación correcta de permisos IAM para tu trabajo de Dataflow.
  • Determinar tus necesidades de capacidad inspeccionando las cuotas relevantes para tus trabajos de Dataflow.
Módulo 5: Seguridad
  • Seleccionar tu estrategia zonal de procesamiento de datos usando Dataflow, dependiendo de las necesidades de localización de tus datos.
  • Implementar mejores prácticas para un entorno de procesamiento de datos seguro.
Módulo 6: Revisión de Conceptos de Beam
  • Revisar los principales conceptos de Apache Beam (Pipeline, PCollections, PTransforms, Runner, lectura/escritura, PTransforms de Utilidad, entradas laterales), bundles y el Ciclo de Vida de DoFn.
Módulo 7: Ventanas, Marcas de Agua, Triggers
  • Implementar lógica para manejar tus datos tardíos.
  • Revisar los diferentes tipos de triggers.
  • Revisar conceptos básicos de streaming (PCollections sin límites, ventanas).
Módulo 8: Fuentes y Sinks
  • Escribir la entrada/salida de tu elección para tu pipeline de Dataflow.
  • Ajustar tu transformación de fuente/sink para obtener el máximo rendimiento.
  • Crear fuentes y sinks personalizados usando SDF.
Módulo 9: Esquemas
  • Introducir esquemas, que brindan a los desarrolladores una manera de expresar datos estructurados en sus pipelines de Beam.
  • Usar esquemas para simplificar tu código de Beam y mejorar el rendimiento de tu pipeline.
Módulo 10: Estado y Temporizadores
  • Identificar casos de uso para implementaciones de la API de estado y temporizador.
  • Seleccionar el tipo correcto de estado y temporizadores para tu pipeline.
Módulo 7: Big Data y Machine Learning
  • Implementar mejores prácticas para pipelines de Dataflow.
Módulo 12: Dataflow SQL y DataFrames
  • Desarrollar un pipeline de Beam usando SQL y DataFrames.
Módulo 13: Notebooks de Beam
  • Prototipar tu pipeline en Python usando notebooks de Beam.
  • Usar Beam magics para controlar el comportamiento de la grabación de fuente en tu notebook.
  • Lanzar un trabajo a Dataflow desde un notebook.
Módulo 14: Monitoreo
  • Navegar por la interfaz de Detalles del Trabajo de Dataflow.
  • Interpretar los gráficos de Métricas de Trabajo para diagnosticar regresiones en el pipeline.
  • Configurar alertas en trabajos de Dataflow usando Cloud Monitoring.
Módulo 15: Registro y Reporte de Errores
  • Usar los registros de Dataflow y los widgets de diagnóstico para solucionar problemas del pipeline.
Módulo 16: Solución de Problemas y Depuración
  • Usar un enfoque estructurado para depurar tus pipelines de Dataflow.
  • Examinar las causas comunes de fallas en los pipelines.
Módulo 17: Rendimiento
  • Comprender las consideraciones de rendimiento para pipelines.
  • Considerar cómo la forma de tus datos puede afectar el rendimiento del pipeline.
Módulo 18: Pruebas y CI/CD
  • Enfoques de pruebas para tu pipeline de Dataflow.
  • Revisar los marcos y características disponibles para optimizar tu flujo de trabajo de CI/CD para pipelines de Dataflow.
Módulo 19: Confiabilidad
  • Implementar mejores prácticas de confiabilidad para tus pipelines de Dataflow.
Módulo 20: Plantillas Flexibles
    • Usar plantillas flexibles.

T e s t i m o n i o s

¿Qué opinan nuestros alumnos de este curso?

Luis Alberto SánchezLuis Alberto Sánchez
15:40 31 May 24
Anteriromente tome el curso de PL-100 y ahora terminé el curso PL-200 , algo que le califico con 10 es que los instructores son personas con mucha experiencia y tiene todos los conocimientos para sacarte de dudas, son pacientes y puedes sacar mucho provecho de ello, recomiendo ampliamante esta empresa de capacitación.
Buena opción de capacitación, los instructores respetuosos y capacitados.
Acabo de terminar curso de Introduction to Python y sinceramente el instructor dejó todo el contenido muy claro, la dinámica práctica del curso excepcional. Felicidades
Fer De la CruzFer De la Cruz
16:44 10 May 24
Tomé con ellos el Curso de Power BI y la verdad excelente, la organización y el instructor muy buenos. Recomendado ampliamente.
Acabo de terminar el curso de Power BI que tomé en línea con ellos, la verdad me gustó mucho, el instructor super paciente y muy bien capacitado, explicó las actividades paso por paso y se aseguraba de que todo el grupo fuera siguiendo punto por punto cada ejercicio para que nadie se quedara atrás.Muy recomendado. 🙂
Tome el curso de VMWARE Vsphere 8 install and configurationEl instructor muy capacitado y atendio diversas dudas incluso aunque fuera temas mas avanzados al alcance del curso, una atencion excelente ya que en otros lados me a tocado que solo lo que es al momento y ya, totalmente recomendado
Montserrat CruzMontserrat Cruz
15:17 08 Mar 24
Tome el curso de ITIL 4 en linea la cual me gusto mucho porque el instructor realizo actividades dinamicas , realizamos actividades interactivas en Miro, tambien se hacian preguntas de cada modulo desde mentimeter. El instructor viene muy bien preparado y con conocimiento entendible.
jose guzmanjose guzman
14:59 18 Jan 24
Yo tome el curso de power BI, el profesor muy profecional y preparado, el curso lo impartio muy dinamico. aprendi tanto el uso general de la herramienta como las posibles aplicaciones. lo recomiendo.
Excelente empresa para capacitarte en tecnologías de información. Altamente recomendable.
Excelente curso muy profesional siempre es una forma eficiente de capacitarte y con garantia de cada curso Excelente desde Monterrey
Ivan Gomez MuñozIvan Gomez Muñoz
23:54 21 Dec 23
Alonso SigalaAlonso Sigala
17:47 21 Dec 23
tomé el curso de RH294; Los instructores fueron muy profesionales al igual que el curso; La atención de Executrain es inigualable y sin duda volveré a solicitarles cursos/certificaciones
Tomé un curso de Power BI y me agradó la forma en que se imparte. Clases prácticas, entrenamiento en plataformas, presentaciones claras y precisas. Instructor capacitado y con gran facilidad para explicar.
Mauricio RuizMauricio Ruiz
14:27 05 Dec 23
Tomé el curso de Power BI con ellos y la verdad me gusto mucho. El instructor esta muy bien capacitado, explica muy bien y el curso fié teórico y practico lo que permite reforzar y saber el por que de cada proceso y lo intuitivo que se vuelve el curso con cada práctica.
Carnage SoulEdgeCarnage SoulEdge
14:47 30 Nov 23
Super recomendable para recibir capacitaciones especializadas sobre tecnología. Instructores calificados y certificados que enseñan con laboratorios pre configurados.He tomado cursos con ellos antes de la pandemia y hace poco volví a asistir para presentar exámenes de certificación, no han cambiado en su buen servicio y atención.
Monica HernandezMonica Hernandez
20:59 17 Nov 23
Tomé el curso de Scrum Master con ellos y la verdad me encantó. La instructora esta muy bien capacitada, explica muy bien y el curso fué teórico práctico lo cuál lo hizo muy interesante y me permitió hacer networking con profesionales de otras empresas.
Vladimir GuzmanVladimir Guzman
16:31 08 Mar 23
Excelente profesor, con mucha experiencia en el sector; y fue un curso a un costo muy accesible para la compañía, incluía certificación. tuve problemas con los labs pero si hicieron lo posible para dejarlos una semana mas.
Fabricio TorresFabricio Torres
19:21 20 Feb 23
un curso muy interesante, buen instructor,contenido excelenteFundamentals of Ethical Hacking and Penetration Testing
buena opción en capacitación, atención excelente y te brindan muy buen servicio, sus cursos excelentes
Eric RamosEric Ramos
21:58 04 Apr 22
Excelente la atencion durante los cursos virtuales, asi como los instructores cuentan con aplios conocimientos en el tema.Recomendables cien por ciento
JESUS AVILAJESUS AVILA
16:21 26 Mar 22
Tomé el curso de manera remota, muy buena disposición del instructor cumpliendo con las expectativas y respondiendo todas las dudas de los participantes. El material utilizado para el desarrollo de las actividades muy bueno y nos sirve como guía para trabajos futuros.
js_loader

¡Prepárate para ser inspirado por historias reales de éxito y crecimiento profesional!

Explora el impactante primer contacto que nuestros alumnos experimentan al unirse a nuestra comunidad educativa. Descubrirás por qué Executrain es tan apreciado por aquellos que buscan dominar las habilidades informáticas de vanguardia.

Invierte en tu FUTURO

¿Por qué aprender Serverless Data Processing with Dataflow?

Aprender “Serverless Data Processing with Dataflow” (SDPF) ofrece varios beneficios significativos tanto para individuos como para organizaciones que buscan optimizar y modernizar sus capacidades de procesamiento de datos.

1. Capacidad para Manejar Grandes Volúmenes de Datos

Google Cloud Dataflow permite el procesamiento de grandes volúmenes de datos en tiempo real y por lotes sin necesidad de gestionar servidores. Esto es crucial en la era del big data, donde las empresas necesitan procesar y analizar datos rápidamente para tomar decisiones informadas​

2. Desarrollo de Pipelines Escalables y Flexibles

Dataflow utiliza Apache Beam, proporcionando una abstracción unificada para el procesamiento de datos por lotes y en streaming. Aprender a desarrollar pipelines escalables y flexibles es esencial para construir sistemas de procesamiento de datos que puedan crecer con las necesidades de la empresa​

3. Optimización de Rendimiento y Costos

El curso enseña a optimizar el rendimiento de los pipelines y a utilizar la programación de recursos flexibles para mejorar la eficiencia de costos. Esto es importante para maximizar el uso de recursos y reducir gastos operativos​

¿Deseas conocer más acerca de nuestros servicios?

 En Executrain contamos con las mejores opciones para tu crecimiento profesional.










    Regístrate para Recibir Nuestras Promociones!


    Aprende Serverless Data Processing with Dataflow y prepárate para el futuro

    Serverless Data Processing with Dataflow proporciona una formación integral en el uso de tecnologías avanzadas para el procesamiento de datos en la nube, optimización de recursos y implementación de mejores prácticas de seguridad, posicionando a los profesionales y las organizaciones para aprovechar al máximo las capacidades de Google Cloud Platform en el manejo de big data.

     

     

     

    ¡Inscríbete ahora y haz que tu carrera despegue con nosotros!

    Executrain-logo
    V E R  C U R S O S   R E L A C I O N A D O S

    Google Cloud Fundamentals: Core Infrastructure (GCF-CI)

     

     

    Esta clase Google Cloud Fundamentals: Core Infrastructure (GCF-CI) de un día dirigida por un instructor proporciona una descripción general de los productos y servicios de Google Cloud Platform. 

    Architecting with Google Cloud Platform: Design and Process (AGCP-DP)

    Esta clase Architecting With Google Cloud Platform: Design And Process (Agcp-Dp) de capacitación de dos días dirigida por un instructor prepara a los estudiantes para crear soluciones altamente confiables y eficientes en Google.

    Architecting with Google Compute Engine (AGCE)

     

    Esta clase Architecting With Google Compute Engine (Agce) de tres días dirigida por un instructor presenta a los participantes la infraestructura completa y flexible y los servicios de plataforma proporcionados por Google Cloud Platform

    Networking in Google Cloud Platform (NGCP)

     

    Este curso Networking in Google Cloud Platform (NGCP) de 2 días dirigido por un instructor brinda a los participantes un estudio amplio de las opciones de redes en Google Cloud Platform. 

    Abrir chat
    ¿Necesitas ayuda?
    ¡Hola! Buen día,
    ¿Te podemos ayudar con información sobre alguno de nuestros cursos?