menu
تاتیبہ
language
رجسٹر لاگ ان
language سرائیکی
menu
تاتیبہ

chevron_right رجسٹر

chevron_right لاگ ان

براؤز

chevron_right رینڈم جملے ݙکھاؤ

chevron_right زبان نال براؤز کرو

chevron_right تندیر نال براؤز کرو

chevron_right ٹیگ نال براؤز کرو

chevron_right آڈیو براؤز کرو

برادری

chevron_right وال

chevron_right سارے ممبراں دی تندیر

chevron_right ممبراں دیاں زباناں

chevron_right مقامی ٻولݨ آ لے

search
clear
swap_horiz
search
sysko sysko September 26, 2010 September 26, 2010 at 1:59:43 PM UTC flag Report link پرمالنک

I've run the remove duplicates script

{{vm.hiddenReplies[3313] ? 'expand_more' : 'expand_less'}} جواب لکاؤ جواب ݙکھاؤ
sysko sysko September 26, 2010 September 26, 2010 at 2:04:48 PM UTC flag Report link پرمالنک

so it's why the number of sentences in some languages may have decrease

by the way overall, we have now more than 500 000 sentences ! (515 000 to be exact)
Congratulations to everyone, some months ago I would have never imagine we will reach it so fast. Next step, 1 000 000 :p

{{vm.hiddenReplies[3315] ? 'expand_more' : 'expand_less'}} جواب لکاؤ جواب ݙکھاؤ
sacredceltic sacredceltic September 26, 2010 September 26, 2010 at 2:12:20 PM UTC flag Report link پرمالنک

tu es sûr que ça a marché ? Parce que j'ai du mal à croire que ça n'aie pas diminué le nombre de phrases anglaises parmi lesquelles je vois évidemment le plus de doublons puisqu'elles sont les plus nombreuses...

{{vm.hiddenReplies[3316] ? 'expand_more' : 'expand_less'}} جواب لکاؤ جواب ݙکھاؤ
sysko sysko September 26, 2010 September 26, 2010 at 2:33:39 PM UTC flag Report link پرمالنک

oui car ensuite j'ai fait un "select count(*) , text, lang from sentences group by text, lang having count(*) > 1" qui me montre les phrases en double, et il n'en reste plus qu'une dizaine qui ont rajouté entre temps (le script a tourné hier en soirée)
Mais le nombre de phrase anglaise a baissé, après il est vrai que beaucoup des phrases anglaises se ressemblent parfois à un mot près ou à un singulier pluriel près.

{{vm.hiddenReplies[3318] ? 'expand_more' : 'expand_less'}} جواب لکاؤ جواب ݙکھاؤ
sacredceltic sacredceltic September 26, 2010 September 26, 2010 at 2:43:58 PM UTC flag Report link پرمالنک

Bon, ben au temps pour moi. Tu as sans doute raison que les ressemblances sont illusoires.

{{vm.hiddenReplies[3319] ? 'expand_more' : 'expand_less'}} جواب لکاؤ جواب ݙکھاؤ
sysko sysko September 26, 2010 September 26, 2010 at 2:55:09 PM UTC flag Report link پرمالنک

Mais il est vrai en tout cas qu'il serait intéressant de voir, surtout pour l'Anglais, le nombre de phrase réellement différentes. Il me semble que dans le même ordre idée, voir un peu la richesse réelle du corpus, CK avait établi des statistiques sur le nombre de mots différents dans le corpus, et la fréquence de certain. Ce qui n'était pas forcément très glorieux (c'est pour cela que dans les versions futures, il nous faudra trouver divers moyens pour favoriser l'ajout de nouvelles phrases, et si possible contenant du nouveau vocabulaire)

{{vm.hiddenReplies[3321] ? 'expand_more' : 'expand_less'}} جواب لکاؤ جواب ݙکھاؤ
sacredceltic sacredceltic September 26, 2010 September 26, 2010 at 3:02:22 PM UTC flag Report link پرمالنک

Et ça n'est pas simple d'évaluer la notion de "différence". Tatoeba va justement permettre la créativité en matière d'instruments d'analyse...Je suis impatient de voir tout ça !