menu
Tatoeba
language
Register Log in
language English
menu
Tatoeba

chevron_right Register

chevron_right Log in

Browse

chevron_right Show random sentence

chevron_right Browse by language

chevron_right Browse by list

chevron_right Browse by tag

chevron_right Browse audio

Community

chevron_right Wall

chevron_right List of all members

chevron_right Languages of members

chevron_right Native speakers

search
clear
swap_horiz
search
sacredceltic sacredceltic February 1, 2016 February 1, 2016 at 10:45:42 AM UTC link Permalink

*** Liste des mots du français absents de Tatoeba ***

sysko avait fait l'exercice, par le passé, d'extraire les mots du français, qu'il avait dû prendre dans un dictionnaire libre, qui n'étaient pas représentés dans les phrases de Tatoeba. J'aimerais bien réactualiser cette liste.

Quelqu'un aurait-il déjà réalisé cet exercice ou pourrait-il suggérer une méthode pour le faire ?

Merci

{{vm.hiddenReplies[25390] ? 'expand_more' : 'expand_less'}} hide replies show replies
gillux gillux February 2, 2016 February 2, 2016 at 5:21:38 AM UTC link Permalink

J’ai essayé et je suis arrivé à ça: http://downloads.tatoeba.org/not_in_tatoeba/

C’est du bricolage, mais c’est utilisable. Je me suis basé sur le dictionnaire français de hunspell pour générer la liste « all ». Comme elle contient toutes les formes féminin/masculin, masculin/pluriel, conjugaisons etc., elle est très longue. Aussi j’ai tenté de l’ordonner et la filtrer à l’aide de listes de fréquence de mots que j’ai pu trouver sur le net. J’ai ainsi créé trois listes qui sont des sous-ensembles de « all »:

• 10k_lexique, combinée avec la liste de lexique.org et limitée aux dix mille premiers mots. C’est de loin la meilleure.
• 10k_opensubtitles, combinée avec une liste de fréquence basée sur les sous-titres d’opensubtitles.org. Ça donne une compilation de mots tout droit sortis des séries télé américaines. C’est plutôt moyen mais j’ai beaucoup rigolé en la lisant alors je la laisse.
• wortschatz, combinée avec la liste de fréquence de Wortschatz. Cette liste semble avoir des défauts et elle est courte donc le résultat est limité, mais exploitable.

Chaque liste est au format texte brut et HTML. Le contenu est le même. Dans la version HTML, un lien permet de chercher le mot sur Tatoeba. Ça permet de voir si des mots de la même famille sont déjà présents dans le corpus.

{{vm.hiddenReplies[25404] ? 'expand_more' : 'expand_less'}} hide replies show replies
sacredceltic sacredceltic February 2, 2016 February 2, 2016 at 7:39:19 AM UTC link Permalink

Merci, c'est sympa, surtout d'avoir les liens vers les recherches Tatoeba.
On voit qu'il y a un boulot énorme et ça prouve que les phrases de Tatoeba manquent cruellement de variété, en termes de vocabulaire.