menu
Tatoeba
language
Registriĝi Ensaluti
language Esperanto
menu
Tatoeba

chevron_right Registriĝi

chevron_right Ensaluti

Foliumi

chevron_right Montri hazardan frazon

chevron_right Foliumi laŭ lingvo

chevron_right Foliumi laŭ listo

chevron_right Foliumi laŭ etikedo

chevron_right Foliumi sonregistraĵojn

Komunumo

chevron_right Muro

chevron_right Listo de ĉiuj membroj

chevron_right Lingvoj de la membroj

chevron_right Denaskaj parolantoj

search
clear
swap_horiz
search
sacredceltic sacredceltic 2010-aŭgusto-25 2010-aŭgusto-25 20:34:20 UTC flag Report link Konstanta ligilo

Je vois de nombreux doublons au point près, c'est à dire que la seule différence est la présence ou non du point final.
La procédure de déduplication ne les considère-t-elle pas comme des doublons ?

{{vm.hiddenReplies[2261] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
sysko sysko 2010-aŭgusto-26 2010-aŭgusto-26 00:33:36 UTC flag Report link Konstanta ligilo

Non le script ne détecte que les doublons parfait, je n'ai pas préféré ajouté cela, car le script de détection est assez "sale" (c'est une procédure en pl/sql de mysql) et je n'ai pas trouvé de manière propre et tout aussi ""rapide"" de le faire. De plus dans certains cas la ponctuation peut changer la traduction (même si je te l'accorde l'absence de point final ne change en rien le sens vu que c'est purement et simplement une faute).

Mais je pense qu'il faudrait pour être plus "propre" créer un script d'uniformisation, correction des majuscules, des points manquants etc. qui tourneraient avant le script de dédoublonnage. Cependant je ne pense pas avoir le temps ces prochaines semaines, de faire une telle chose.
Par contre en attendant je pense pouvoir créer petit à petit un jeu de commande sql de "nettoyage" pour ajouter les points manquants etc.

{{vm.hiddenReplies[2265] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
sacredceltic sacredceltic 2010-aŭgusto-26 2010-aŭgusto-26 09:01:01 UTC flag Report link Konstanta ligilo

Merci pour ta réponse. Vivement l'ajout automatique de points finaux, ça va résoudre plein de problèmes !
Mais je ne sasi pas si tu avais vu mon message précédent concernant les phrases nouvelles - donc non encore dédupliquées - qui apparaissaient dans les résultats de recherche.
En tout état de cause, à quelle fréquence fais-tu passer la procédure de dédoublonnage ? Le savoir me permettrait d'éviter de traduire des doublons potentiels en regardant leur date/heure de création.
Ce qui est dommage, c'est que ce sont toujours ces dernières phrases, souvent parasites, qui apparaissent toujours en premier dans les recherches...

{{vm.hiddenReplies[2275] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
sysko sysko 2010-aŭgusto-26 2010-aŭgusto-26 10:50:50 UTC flag Report link Konstanta ligilo

Il est normalement lancé une fois par semaine. il a été lancé il y a deux semaines, mais visiblement une information pour l'indexation avec un autre projet était "écrasé" parce script. Donc je dois (encore) le remodifier avant de le relancer.
Sinon je peux changer le sens d'affichage des résultats de recherches, et afficher les plus anciennes d'abord ?

{{vm.hiddenReplies[2280] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
sacredceltic sacredceltic 2010-aŭgusto-26 2010-aŭgusto-26 10:54:53 UTC flag Report link Konstanta ligilo

Je ne sais pas si il faut d'abord afficher les plus anciennes (parce qu'il y a plein de vieux tromblons...) mais il faudrait peut-être "daplacer" les 10 derniers jours (ou les phrases créées depuis la dernière procédure de déduplication) à la fin...
Voir ce qu'en pensent d'autres traducteurs en masse...

sacredceltic sacredceltic 2010-aŭgusto-26 2010-aŭgusto-26 10:55:20 UTC flag Report link Konstanta ligilo

*"déplacer"