menu
타토에바
language
회원 가입 로그인
language 한국어
menu
타토에바

chevron_right 회원 가입

chevron_right 로그인

검색하기

chevron_right Show random sentence

chevron_right 언어로 검색하기

chevron_right 리스트로 검색하기

chevron_right 태그로 검색하기

chevron_right 오디오로 검색하기

커뮤니티

chevron_right 담벼락

chevron_right 전체 회원 리스트

chevron_right 회원들이 쓰는 언어

chevron_right 원어민

search
clear
swap_horiz
search
sysko sysko 2010년 9월 26일 2010년 9월 26일 오후 1시 59분 43초 UTC flag Report link Permalink

I've run the remove duplicates script

{{vm.hiddenReplies[3313] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
sysko sysko 2010년 9월 26일 2010년 9월 26일 오후 2시 4분 48초 UTC flag Report link Permalink

so it's why the number of sentences in some languages may have decrease

by the way overall, we have now more than 500 000 sentences ! (515 000 to be exact)
Congratulations to everyone, some months ago I would have never imagine we will reach it so fast. Next step, 1 000 000 :p

{{vm.hiddenReplies[3315] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
sacredceltic sacredceltic 2010년 9월 26일 2010년 9월 26일 오후 2시 12분 20초 UTC flag Report link Permalink

tu es sûr que ça a marché ? Parce que j'ai du mal à croire que ça n'aie pas diminué le nombre de phrases anglaises parmi lesquelles je vois évidemment le plus de doublons puisqu'elles sont les plus nombreuses...

{{vm.hiddenReplies[3316] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
sysko sysko 2010년 9월 26일 2010년 9월 26일 오후 2시 33분 39초 UTC flag Report link Permalink

oui car ensuite j'ai fait un "select count(*) , text, lang from sentences group by text, lang having count(*) > 1" qui me montre les phrases en double, et il n'en reste plus qu'une dizaine qui ont rajouté entre temps (le script a tourné hier en soirée)
Mais le nombre de phrase anglaise a baissé, après il est vrai que beaucoup des phrases anglaises se ressemblent parfois à un mot près ou à un singulier pluriel près.

{{vm.hiddenReplies[3318] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
sacredceltic sacredceltic 2010년 9월 26일 2010년 9월 26일 오후 2시 43분 58초 UTC flag Report link Permalink

Bon, ben au temps pour moi. Tu as sans doute raison que les ressemblances sont illusoires.

{{vm.hiddenReplies[3319] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
sysko sysko 2010년 9월 26일 2010년 9월 26일 오후 2시 55분 9초 UTC flag Report link Permalink

Mais il est vrai en tout cas qu'il serait intéressant de voir, surtout pour l'Anglais, le nombre de phrase réellement différentes. Il me semble que dans le même ordre idée, voir un peu la richesse réelle du corpus, CK avait établi des statistiques sur le nombre de mots différents dans le corpus, et la fréquence de certain. Ce qui n'était pas forcément très glorieux (c'est pour cela que dans les versions futures, il nous faudra trouver divers moyens pour favoriser l'ajout de nouvelles phrases, et si possible contenant du nouveau vocabulaire)

{{vm.hiddenReplies[3321] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
sacredceltic sacredceltic 2010년 9월 26일 2010년 9월 26일 오후 3시 2분 22초 UTC flag Report link Permalink

Et ça n'est pas simple d'évaluer la notion de "différence". Tatoeba va justement permettre la créativité en matière d'instruments d'analyse...Je suis impatient de voir tout ça !