Crear y mantener la arquitectura del Pipeline de datos.
Ensamblar datasets de gran tamaño y complejidad para el cumplimiento de necesidades funcionales y no funcionales del negocio.
Identificar, diseñar e implementar mejoras en los procesos internos: automatización de procesos manuales, optimización del Delivery de datos, re diseño de la infraestructura para mayor escalabilidad, etc.
Construcción de la infraestructura requerida para la ETL de data desde una amplia variedad de fuentes, utilizando SQL y offerings de “bíg data” de AWS.
Desarrollo de tools de analytics que utilicen el Pipeline de datos para proveer insights accionables.
Colaborar con stakeholders, incluyendo equipos ejecutivos, de producto, datos y diseño para asistir con cuestiones técnicas relacionadas a datos y sus necesidades.
Velar por la seguridad y privacidad de los datos durante su lifecycle.
Colaborar en la mejora de nuestros offerings de datos.
Conocimiento avanzado de SQL y experiencia trabajado con bases de datos relacionales, creación de queries y familiaridad con una variedad de tecnologías de bases de datos.
Conocimiento en las tecnologías de IA y Machine Learning.
Experiencia construyendo y optimizando pipermines de big data, su arquitectura y data sets.
Skills fuertes relacionados con el manejo de data sets no estructurados.
Experiencia creando procesos que soporten la operativa con datos.
Conocimiento de message queuing, stream processing, y stores de bíg data escalables.
Experiencia con:
Tools de big data: Hadoop, Spark, Kafka, etc.
DBs SQL y NOSQL, incluyendo Postres y Cassandra.
Data Pipeline y Workflow Mgmt: Azkaban, Luigi, Airflow, etc.
AWS Cloud Services: EC2, EMR, RDS, Redshift
Stream-processing: Storm, Spark-Streaming, etc.