Passer au contenu principal
Menu
Data

SERVERLESS DATA LAKE

Architecture Cloud native pour l'ingestion, le nettoyage et l'analyse de données sans serveur.

Dépôt bientôt disponible
Amazon Web ServicesPythonServerlessSQL
Phase 1

Contexte

Création d'un pipeline d'ingestion moderne pour traiter des fichiers CSV lourds sans gérer d'infrastructure fixe. L'objectif était de maîtriser les concepts de Data Lake et l'approche Event-Driven sur AWS.

Phase 2

Méthodologie d'Apprentissage

  1. 1

    Déploiement de l'infrastructure via Terraform (S3, Lambda, IAM Roles)

  2. 2

    Trigger d'événements S3 : exécution automatique d'une fonction Lambda Python au dépôt d'un fichier

  3. 3

    Nettoyage des données avec Pandas (conversion des dates, suppression des doublons)

  4. 4

    Conversion du format CSV vers Parquet pour optimiser les requêtes et les coûts de stockage

  5. 5

    Configuration d'Amazon Athena pour requêter directement les fichiers sur S3 en SQL

Phase 3

Défis Techniques

Optimisation de l'exécution Lambda

Traitement de gros fichiers entraînant des timeouts. Solution : augmentation ciblée de la RAM allouée (qui booste aussi le CPU) et lecture des fichiers par chunks.

Complexité des permissions IAM

La Lambda n'arrivait pas à écrire dans le bucket de destination. Solution : Application stricte du principe de moindre privilège via des policies JSON personnalisées.

Coûts des requêtes analytiques

Requêtes Athena lentes/chères sur CSV. Solution : Passage au format colonnaire Parquet + partitionnement par année/mois.

Phase 4

Résultats

  • Pipeline 100% automatisé et serverless (zéro coût si aucune donnée ne rentre)

  • Temps de requête analytique divisé par 4 (via Parquet)

  • Compréhension approfondie des architectures Data Lake modernes et du pattern Event-Driven

  • Maîtrise des services Data phares d'AWS (S3, Lambda, Athena)

Explore More

All Projects