Développeur BigData - Groupe BPCE


Cette prestation se déroulera au sein de la DSI Finance Comptabilité & Ratios de la Direction des Opérations et des Systèmes d’Information.


La direction métier du domaine Finance – Comptabilité et Ratios est aujourd’hui en attente d’une solution et d’un support basé sur les technologies BigData et la notion associée de Datalake. Le point de vue métier vis-à-vis de ce projet à réaliser est une attente très forte comme accélérateur de solution pour l’ensemble des futurs reporting règlementaire à mettre en place entre 2017 et 2020, mais également le premier instrument pour la mise en qualité des données Comptables – Prudentielles et Risques intra SI du client BPCE.


La vision métier du datalake est donc celle, très attendue, d’une solution d’entrepôt de données non structurée à grand volumes, mettant à disposition l’ensemble des informations nécessaires à la couverture des besoins. C’est une transposition des outils existants dans le SI de DataWarehouse conjugués à des outils de Bi Analytics et de visualisation par Cube OLAP ou Univers BO.

Ils attendent donc des possibilités d’interrogation sur un historique de données profond, couvrant plusieurs exercices comptables et permettant de détecter et d’analyser les incohérences avant production des états et reporting réglementaires.


Description du projet :


Cette prestation estbasée sur l’Innovation au sein du SI du Groupe BPCE. Les solutions Hadoop sont émergentes chez tous les grands comptes, mais l’expérience et la connaissance interne restent restreintes.


La mission a pour objectif la construction d’un « datalake » Finance & Risque. Ce datalake s’appuiera sur la distribution Hadoop HortonWorks.


Par la notion de datalake, il existe une multitude de problématiques à adresser autour des thèmes suivants : audit, qualité, control, gouvernance de la donnée.

Les éléments attendus par la création et la livraison du Datalake Finance & Risk, en tant qu’outil de production, à l’ensemble des métiers Comptabilité, Prudentiel, Risque, Pilotage financier sont multiples. 

Le projet tant techniquement que fonctionnellement devra y répondre :


• Industrialisation de l’alimentation des données sur la plateforme technique HortonWorks

o Alimentation des Meta-données en parallèle des données brutes.

o Monitoring de l’ensemble des flux (tenue de cette information en quasi temps-réel)

o Le profiling automatique de la donnée intégrée (tag, distribution de valeurs …)


•  Abstraction des données

o Les notions de Business Glossary et Technical Glossary doivent permettre la passerelle vers les utilisateurs Business métier. Ils doivent pouvoir interroger le datalake avec une sémantique Finance et Risque et non avec des noms de tables ou de champs. 


• Interprétation du contenu – mise en correspondance des référentiels internes

o Toutes les données intégrées devront être liées, enrichies, contrôlées avec l’ensemble des référentiels (Contrepartie, Desk/Book, Devise, Entité Comptable …) a priori en aval de la couche de stockage transversale


• Application d’une sécurité forte dédiée à chaque profil utilisateur

o La sécurité des données d’un datalake est une attente majeure des sponsors métiers.

o Une matrice complexe doit pouvoir être définie par les outils du datalake pour y répondre. A cela s’ajoutant la dimension temporelle des politiques d’accès définies.


• Piste Audit complète de la données pour tout le SI Finance & Risk

o Traçabilité complète attendue, en terme de lineage de la données intra cluster Hadoop

o Pouvoir suivre les données, leur transformation et leur contribution à quel reporting règlementaire.


• Socle de Reporting / Traitement & Controles

o Reporting statique donnant la situation des contrôles croisés inter-application

o Production des nouveaux états réglementaires attendus (Anacrédit, MREL)

o Mise en place d’une Zone d’échange Normalisée avec l’entité maison mère BPCE

o Enfin, il est attendu par les Business métiers un ensemble d’outil d’interrogation « libre » de la donnée présente dans le datalake, la DataViz est donc une problématique majeure dans la construction de la solution


 

 

Relationnel, rédactionnel, autonomie, rigueur (Fonctionnelles)Confirmé (3)

Apache, Tomcat..., Reverse Proxy (gestion d’instance), Administration d'un serveur d'application Websphere (Techniques / Technologiques)Maîtrise (2)

Big Data (Java, Python, Scala, ...) (Techniques / Technologiques)Expertise (4)

Big Data (Pig, Hive, ..) (Techniques / Technologiques)Expertise (4)

Environnement UNIX/LINUX, Script SHELL, ... (Techniques / Technologiques)Maîtrise (2)

Familier avec les méthodes de travail agile / scrum ... (Techniques / Technologiques)Confirmé (3)

hadoop (Techniques / Technologiques)Confirmé (3)

Java/J2EE (Techniques / Technologiques)Expertise (4)

Language SQL (Techniques / Technologiques)Expertise (4)

Modélisation de données (Techniques / Technologiques)Confirmé (3)

REST/ JSON (Techniques / Technologiques)Expertise (4)