Perfil
Frasas
Vocabulary
Reviews
Lists
Marcapaginas
Comentaris
Comentaris sus las frasas de sysko
Cabinats
Jornals
Audio
Transcriptions
Translate sysko's sentences

ça veut dire que si tu ajoutes une phrase, il ne va pas essayer de détecter si c'est de l'arabe ou du chinois.

j'ai activé le filtre par utilisateur, ça devrait etre un peu mieux maintenant

c'est ça, il y a aussi pour tatoeba, l'utilisateur qui ajoute la phrase qui est pris en compte, cela permet d'etre plus precis (par exemple cela permet de mettre de cote le chinois si l'utilisateur ne contribue que en cantonnais), mais pour ce dernier point j'ai un petit bug donc pour l'instant c'est purement statistique, mais ca devrait bientôt etre corrigé, le code étant plutôt simple.

et voilà, ca devrait marcher à présent, juste à corriger un petit problème de mon cote pour avoir un taux de détections correctes identique à ce que j'ai sur mon pc.

pardon je suis en train de mettre en place le nouveau détecteur de langue et je pensais que ca irait plus vite, dans la prochaine demi-heure s'il y a quelque petit problème d'interface c'est plus ou mois normal

in any case post a comment with the correct furigana and add a tag @wrong transliteration, this way we will be able to keep trace of these problems

une des phrases avaient un espace après le point (ce qui est bizarre vu que normalement il me semblait que dans le javascript on les retire, sauf si l'utilisateur a le JS de désactivé)

bon je l'ai fini et il est en train de tourner, je viens de remarquer que la plupart du temps passer a mettre a jour la base se passe dans les requetes qui fusionne les commentaires (et souvent vu que des commentaires il y en a pas tant que ca, ca ne fusionne rien), donc il doit y avoir moyen de diminuer le temps d'execution sur le serveur en faisant un check si la phrase a des commentaires ou pas.

bon là je tombe de fatigue, mais là normalement l'algo en lui même est visiblement fonctionnel, il reste plus qu'à écrire la partie qui génère les requetes à faire sur la base, mais ce ne sera pas le plus difficile vu que c'est déjà écrit dans mes précédents scripts.

yep that is basically the methods I use (with some weights), when I will release it, I will take the times to explain it in details.

Yep unfortunately this set of pages, especially when getting in high number, start to be very slow because then the database can't use any optimization method as there's already a lot of filter. and for this I can't really do anything on the short term:(
The only things that maybe will indirectly speed it up is that today i discovered that for two weeks Google started back to crawl Tatoeba with their own determined speed (which is very high, like 2 request/second), which create an artificial heavy load on the server. I've made some hours ago a request for a lower crawl rate, it takes around a day to apply, so in one day you will certainly notice a speed improvement for this kind of pages.
the mid-term solution I'm thinking about is using the API , to have a desktop tatoeba client with the database locally (it's not that heavy, something like 300mo admitting you're interested by all languages and links etc.) that keep sync with something like pushsub, so that this kind of heavy filter will be done on your computer which will be far far faster as you're computer is being used only by you.

between which pages?

the other reason to use our own service is that we do have a lot of languages that other services are very unlikely to be able to detect because Tatoeba is the largest easily available dataset for these languages (like Shanghainese or Berbere)

actually I have already implemented it and it works with a sufficient precision (more than 95%, i don't remember exactly, 98% maybe), i now need to turn it into a web service. The goal is to make it independent of Tatoeba itself, as it can be used by other people (and I think we're not the only ones with that problematic). So I think I will finish it first before continuing the new version (because it will be needed by the new version and it will not be hard to interface with the current code as we were already using an external service before)

hier dans le train m'emmenant au fin fond d'un trou perdu en Chine (18 heures de train avec heuresement une prise electrique) j'ai commence a pondre un script qui me converti le dump de la base en une version utilisable par la nouvelle base de donnee (le but est de resynchroniser la version de la base de donnee avec la nouvelle version pour mes tests, vu que le nombre de phrases a doublés) et il me faut pour cela un fichier sans doublon du coup ca m'a amenez a revoir cela, et la ce que j'ai ecrit est autrement plus elegant que ce que j'utilisais avant, il faut encore que je le finisse et apres je ferais un dedoublonnage.
Le principal a retenir est que je me remets à pondre du code, et vu que le plus dur c'est toujours de s'y remettre, c'est plutot bon signe...

你说的有道理,我要看看“现在”改变容易不

hmm des lors c'est de mon cote, si l'utilisateur arrive sur un domaine non existant en *.tatoeba.org, d'etre rediriger sur tatoeba.org tout court (il est relativement tard ici pour moi verifier, mais dans ma demo de la nouvelle version il semble que c'est ce que je fais, vu que dans la nouvelle version la langue de l'interface passe dans le nom de domaine)

I've upgraded the status of Amastan and Sadhen to advanced contributors
And upgraded to Corpus maintainers:
al_ex_an_der
Pfirsichbaeumchen
GrizaLeono
Biga
A big thanks to them for all what they do for Tatoeba
If I've forgotten some people just reply to this message, these days I'm on the slow way to unpack all the things I was requested to do during the time I was quite busy and I've not yet an efficient "todo list" for Tatoeba (it's in my todo list...)

没问题 :)

remind me someone...