Comment fonctionne NLTK?
Table des matières
Comment fonctionne NLTK?
Bonne nouvelle, NLTK propose une liste de stop words en Français (toutes les langues ne sont en effet pas disponibles) 😕 Grâce à la fonction lambda de Python on créé une petite fonction qui nous permettra en une seule ligne de filtrer un texte à partir de la liste des stop words français.
Comment utiliser NLP?
Le premier enjeu consiste à délimiter les différents mots, en repérant notamment les espaces et les signes de ponctuation. Puis à se concentrer sur les éléments porteurs de sens, en éliminant les autres (articles définis, conjonctions, etc.). Ensuite, chaque mot identifié se verra attribuer une fonction.
Qu’est-ce que NLTK?
A travers ce tutoriel, Allons à la découverte de cette étonante plateforme NLP répondant au doux nom de Natural Language Toolkit (NLTK). Mais avant d’entrer dans le vif du sujet, permettez-moi de vous décrire ce qu’est NLTK. Qu’est-ce que c’est NLTK?
Quelle est la taille des textes composant le corpus?
Le choix des textes composant le corpus et sa taille vont évidemment dépendre de ce que l’on veut étudier, et il est impossible de dire a priori de combien de textes doit être constitué un corpus. ‘“There are, as yet, no reliable guidelines as to what quantity of texts represents a representative corpus” (Sager 1990: 130)’.
Qu’est-ce que un corpus?
Petit préambule : vous devez vous demander ce qu’est un corpus (la déclinaison au singulier de corpora). Un corpus est défini de cette façon : Corpus, pluriel : corpora ; Une collection de données linguistiques, parfois une compilation de textes écrits, ou de transcriptions d’enregistrement de discours.
Pourquoi un corpus doit-il contenir des textes trop longs?
Un corpus ne doit donc pas contenir de textes rédigés à des intervalles de temps trop larges, ou il doit les dater (pour un usage par les historiens de la langue ou des concepts).