une âme charitable pour Keras

Bonjour

Je dois utiliser la bibliotheque keras mais je suis un noob et j’y comprend pas grand chose. Quelqu’un pour m’aider ? :slight_smile:

Bonjour,

Si tu exposais clairement ton problème ça serait certainement plus simple. As-tu regarder la doc déjà ? Perso, je n’y connais rien de rien…

1 « J'aime »

@Silasi peux-tu nous en dire plus sur ton objectif et tes contraintes ?

Par exemple :

  • Quelle problématique : classification de texte, prédiction d’une valeur numérique, segmentation d’image, reconnaissance vocale, etc.
  • Quel type de données : tabulaires, image, vidéo, audio, etc.
  • Quelles contraintes : taille du jeu de données, temps, infrastructure, budget (tout cela a un impact sur l’architecture d’un réseau de neurones)

Dans tous les cas, pour démarrer avec Keras, malgré la documentation un peu austère et demandant d’être à l’aise avec le vocabulaire Machine Learning / Deep Learning, la section tutorial fournit de quoi démarrer : Learning resources

Si tu veux avoir une bonne compréhension de Keras et Tensorflow, je te conseille très fortement le livre d’Aurélien Géron " Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" : Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition [Book]

Si tu démarres tout juste en ML/DL, je sais que la bibliothèque Fast.ai (l’équivalent de Keras mais pour PyTorch) est plus abordable, notamment car les auteurs ont dédié plusieurs MOOC gratuits en ligne et ont sorti un livre sur le sujet : https://www.fast.ai

1 « J'aime »

Mon problème est le suivant:

Je dois réussir à comparer des choses égales entre elles ( probleme de classification)
Le problème est que mon script doit pouvoir lire plus plusieurs documents et dire de quel catégorie ( type on parle )

Même si les mots dans les deux documents sont pas strictement identiques
Donc on est sûr de la comparaison d’éléments.

Il faudrait que je fasse un model pouvant déterminer la categories en comparant juste les mots ( dans mon cas catégorie À où B )

Si je comprends bien le problème :

  • Des documents textuels en entrée
  • Prédiction de la classe d’un document
  • NLP

Avant de se lancer dans du Deep Learning, il convient généralement de prototyper très rapidement une baseline : un modèle très simple, voir même sans machine learning, pour se faire une idée du problème, établir un pipeline et obtenir une métrique seuil à ne pas franchir (sinon aucun intérêt).

Exemple de méthodologie itérative (pas de recette miracle) :

  1. Faire un modèle baseline sans ML avec un dictionnaire statique de termes pour chaque catégorie : simplement compter tous les mots matchants pour chaque catégorie et prendre le mode (classe majoritaire). Variante : pondérér les termes pour obtenir un matching plus fin.

  2. Faire un modèle ML par vectorisation : tokeniser puis vectoriser le corpus de documents avec bag-of-words ou TF-IDF puis entraîner un classifieur simple (régression logistique). Valider que le modèle ML est déjà meilleure que le modèle de base sinon problème. En profiter pour inspecter l’importance des features pour valider quels termes influent réellement pour prédire chaque classe.

  3. Se lancer dans des modèles plus complexes : au lieu de vectoriser statistiquement les tokens, utiliser un embedding (pré-entrainé ou fine-tuné) pour extraire les liens sémantiques entre les termes, tester avec un SVM, tester des ANN denses, tester des RNN, etc.

  4. Utiliser des mastodontes utilisant le modèle Transformer du genre BERT / GPT / LLama et faire du transfert learning sur les dernières couches pour obtenir un classifieur spécifique

1 « J'aime »