Menu
*** Liste des mots du français absents de Tatoeba ***
sysko avait fait l'exercice, par le passé, d'extraire les mots du français, qu'il avait dû prendre dans un dictionnaire libre, qui n'étaient pas représentés dans les phrases de Tatoeba. J'aimerais bien réactualiser cette liste.
Quelqu'un aurait-il déjà réalisé cet exercice ou pourrait-il suggérer une méthode pour le faire ?
Merci
J’ai essayé et je suis arrivé à ça: http://downloads.tatoeba.org/not_in_tatoeba/
C’est du bricolage, mais c’est utilisable. Je me suis basé sur le dictionnaire français de hunspell pour générer la liste « all ». Comme elle contient toutes les formes féminin/masculin, masculin/pluriel, conjugaisons etc., elle est très longue. Aussi j’ai tenté de l’ordonner et la filtrer à l’aide de listes de fréquence de mots que j’ai pu trouver sur le net. J’ai ainsi créé trois listes qui sont des sous-ensembles de « all »:
• 10k_lexique, combinée avec la liste de lexique.org et limitée aux dix mille premiers mots. C’est de loin la meilleure.
• 10k_opensubtitles, combinée avec une liste de fréquence basée sur les sous-titres d’opensubtitles.org. Ça donne une compilation de mots tout droit sortis des séries télé américaines. C’est plutôt moyen mais j’ai beaucoup rigolé en la lisant alors je la laisse.
• wortschatz, combinée avec la liste de fréquence de Wortschatz. Cette liste semble avoir des défauts et elle est courte donc le résultat est limité, mais exploitable.
Chaque liste est au format texte brut et HTML. Le contenu est le même. Dans la version HTML, un lien permet de chercher le mot sur Tatoeba. Ça permet de voir si des mots de la même famille sont déjà présents dans le corpus.
Merci, c'est sympa, surtout d'avoir les liens vers les recherches Tatoeba.
On voit qu'il y a un boulot énorme et ça prouve que les phrases de Tatoeba manquent cruellement de variété, en termes de vocabulaire.