menu
تتويبا
language
سجّل لِج
language العربية
menu
تتويبا

chevron_right سجّل

chevron_right لِج

تصفح

chevron_right Show random sentence

chevron_right تصفح حسب اللغة

chevron_right تصفح حسب القائمة

chevron_right تصفح حسب الوسم

chevron_right تصفح ملفات الصوت

المجتمع

chevron_right الحائط

chevron_right قائمة بجميع الأعضاء

chevron_right لغات الأعضاء

chevron_right المتحدثون الأصليون

search
clear
swap_horiz
search
sysko sysko ٢٠ يونيو ٢٠١١ ٢٠ يونيو ٢٠١١ في ١٠:٥٨:٤٣ ص UTC flag Report link Permalink

Fréquence des mots dans tatoeba:

Bon voici quelques fichiers de données brutes pour ceux qui veulent s'amuser

http://downloads.tatoeba.org/data_fra/

En me basant sur la liste de fréquence d'apparitions des mots en français trouvé ici http://www.lexique.org/listes/liste_mots.php, j'ai généré deux fichiers (chacun classé une fois par ordre alphabétique et l'autre par fréquence/occurrence)

1 - fréquence du mot en Français (fréquence de l'ensemble des mots = 1)
2 - nombre d'occurrence du mots dans tatoeba

j'ai aussi mis les données dans une base de donné sqlite3 pour ceux ayant besoin de faire des traitements poussé

"mot" est à prendre au sens de réprésentations graphique "mangeons" et "mangez" sont deux mots
Il se peut que la liste contiennent des noms propres, abréviations etc.

En se basant sur les métas du wiktionnary français (qui dit par exemple que "mangeons" est une forme verbale de "manger") (ou un autre source, je sais juste que le dump xml du wiktionnary contient cette info et vu que c'est du xml ce ne doit pas être trop compliqué de faire un script) il devrait être possible de regrouper les différentes graphies d'un même mot.

Quand j'aurai le temps (dans quelque semaines?), je générai sûrement comme avait fait CK, des pages HTML avec les mots les plus fréquents n'étant pas présent dans tatoeba, ceux n'ayant qu'une occurrence, ceux ayant le plus d'occurrence etc. , mais si quelqu'un à le temps de le faire avant moi, ne vous gênez pas.

En espérant que ça sera utile.

{{vm.hiddenReplies[6745] ? 'expand_more' : 'expand_less'}} أخفِ الردود أظهر الردود
sysko sysko ٢٠ يونيو ٢٠١١ ٢٠ يونيو ٢٠١١ في ١١:١٠:٠١ ص UTC flag Report link Permalink

I‘ve generated a list of files with frequency of words in French language (from a previous work found on the internet) and the number of time words appears in Tatoeba, and a sqlite database containing this info. This way if people want to use them to generate "words in the 10000 most frequent which are still not in tatoeba" file, to help those willing to make new sentences with new words, they can use these files as starters.

sacredceltic sacredceltic ٢٠ يونيو ٢٠١١ ٢٠ يونيو ٢٠١١ في ١١:٣٢:٥٩ ص UTC flag Report link Permalink

le mot "anglais" revient 687 fois ! La propagande marche bien...