Salut tout le monde,
Je ne sais pas si je suis dans la bonne cat�gorie, alors je me lance et on verra
Par le pass�, j'ai travaill� sur l'anc�tre du Big Data : je faisais de la BI. Donc j'ai �t� �lev� au SQL, aux SGBD, puis aux datamart. J'ai ensuite chang� de type de projet, et je me suis �loign� du monde de la data.
J'ai un petit projet que j'aimerai prototyper. J'ai un outil que me g�n�re des logs au format CSV avec 5 champs classiques (date, nom d'un user, action...) et un champ json contenant notamment une IP.
Avant de charger ces donn�es dans un outil, j'aimerai les "transformer" :
- ajouter un champ � chaque enregistrement (sur le principe de la relation 1-n), ce champ contiendrait le num�ro du serveur � l'origine de la log.
- anonymiser les IP
- tokeniser les emails (�ventuellement)
C�t� analyse, j'aimerai pouvoir r�aliser des �tudes simples sur ces donn�es : g�olocalisation des IP pour d�terminer des anomalies, statistiques sur les actions de chaque user, analyse chronologique des �v�nements, simulation de r�gle du jeu (Si j'accordais un point � un user pour telle action, quel serait son score au bout de 3 mois et qui gagnerait...).
Quelles solution ou piles de solutions me conseilleriez-vous pour ce prototype ? Est-ce qu'une suite ELK serait adapt�e par exemple ?
Merci d'avance pour votre avis �clair� sur le sujet.
Partager