menu
Tatoeba
language
Vytvoriť účet Prihlásiť sa
language Slovenčina
menu
Tatoeba

chevron_right Vytvoriť účet

chevron_right Prihlásiť sa

Hľadať

chevron_right Zobraziť náhodnú vetu

chevron_right Hľadať podľa jazyka

chevron_right Hľadať podľa zoznamu

chevron_right Hľadať podľa štítka

chevron_right Hľadať medzi zvukovými nahrávkami

Komunita

chevron_right Nástenka

chevron_right Zoznam všetkých členov

chevron_right Jazyky členov

chevron_right Rodení hovoriaci

search
clear
swap_horiz
search
sacredceltic sacredceltic 1. februára 2016 1. februára 2016, 10:45:42 UTC link Trvalý odkaz

*** Liste des mots du français absents de Tatoeba ***

sysko avait fait l'exercice, par le passé, d'extraire les mots du français, qu'il avait dû prendre dans un dictionnaire libre, qui n'étaient pas représentés dans les phrases de Tatoeba. J'aimerais bien réactualiser cette liste.

Quelqu'un aurait-il déjà réalisé cet exercice ou pourrait-il suggérer une méthode pour le faire ?

Merci

{{vm.hiddenReplies[25390] ? 'expand_more' : 'expand_less'}} Skryť odpovede Zobraziť odpovede
gillux gillux 2. februára 2016 2. februára 2016, 5:21:38 UTC link Trvalý odkaz

J’ai essayé et je suis arrivé à ça: http://downloads.tatoeba.org/not_in_tatoeba/

C’est du bricolage, mais c’est utilisable. Je me suis basé sur le dictionnaire français de hunspell pour générer la liste « all ». Comme elle contient toutes les formes féminin/masculin, masculin/pluriel, conjugaisons etc., elle est très longue. Aussi j’ai tenté de l’ordonner et la filtrer à l’aide de listes de fréquence de mots que j’ai pu trouver sur le net. J’ai ainsi créé trois listes qui sont des sous-ensembles de « all »:

• 10k_lexique, combinée avec la liste de lexique.org et limitée aux dix mille premiers mots. C’est de loin la meilleure.
• 10k_opensubtitles, combinée avec une liste de fréquence basée sur les sous-titres d’opensubtitles.org. Ça donne une compilation de mots tout droit sortis des séries télé américaines. C’est plutôt moyen mais j’ai beaucoup rigolé en la lisant alors je la laisse.
• wortschatz, combinée avec la liste de fréquence de Wortschatz. Cette liste semble avoir des défauts et elle est courte donc le résultat est limité, mais exploitable.

Chaque liste est au format texte brut et HTML. Le contenu est le même. Dans la version HTML, un lien permet de chercher le mot sur Tatoeba. Ça permet de voir si des mots de la même famille sont déjà présents dans le corpus.

{{vm.hiddenReplies[25404] ? 'expand_more' : 'expand_less'}} Skryť odpovede Zobraziť odpovede
sacredceltic sacredceltic 2. februára 2016 2. februára 2016, 7:39:19 UTC link Trvalý odkaz

Merci, c'est sympa, surtout d'avoir les liens vers les recherches Tatoeba.
On voit qu'il y a un boulot énorme et ça prouve que les phrases de Tatoeba manquent cruellement de variété, en termes de vocabulaire.