menu
Tatoeba
language
Registrati Accedi
language Italiano
menu
Tatoeba

chevron_right Registrati

chevron_right Accedi

Esplora

chevron_right Mostra frase casuale

chevron_right Esplora le frasi in base alla lingua

chevron_right Esplora le frasi in base all'elenco

chevron_right Esplora le frasi in base all'etichetta

chevron_right Esplora le frasi in base all'audio

Comunità

chevron_right Bacheca

chevron_right Elenco di tutti i membri

chevron_right Lingue dei membri

chevron_right Madrelingua

search
clear
swap_horiz
search
sacredceltic sacredceltic 25 agosto 2010 25 agosto 2010 20:34:20 UTC flag Segnala link Permalink

Je vois de nombreux doublons au point près, c'est à dire que la seule différence est la présence ou non du point final.
La procédure de déduplication ne les considère-t-elle pas comme des doublons ?

{{vm.hiddenReplies[2261] ? 'expand_more' : 'expand_less'}} nascondi le risposte mostra le risposte
sysko sysko 26 agosto 2010 26 agosto 2010 00:33:36 UTC flag Segnala link Permalink

Non le script ne détecte que les doublons parfait, je n'ai pas préféré ajouté cela, car le script de détection est assez "sale" (c'est une procédure en pl/sql de mysql) et je n'ai pas trouvé de manière propre et tout aussi ""rapide"" de le faire. De plus dans certains cas la ponctuation peut changer la traduction (même si je te l'accorde l'absence de point final ne change en rien le sens vu que c'est purement et simplement une faute).

Mais je pense qu'il faudrait pour être plus "propre" créer un script d'uniformisation, correction des majuscules, des points manquants etc. qui tourneraient avant le script de dédoublonnage. Cependant je ne pense pas avoir le temps ces prochaines semaines, de faire une telle chose.
Par contre en attendant je pense pouvoir créer petit à petit un jeu de commande sql de "nettoyage" pour ajouter les points manquants etc.

{{vm.hiddenReplies[2265] ? 'expand_more' : 'expand_less'}} nascondi le risposte mostra le risposte
sacredceltic sacredceltic 26 agosto 2010 26 agosto 2010 09:01:01 UTC flag Segnala link Permalink

Merci pour ta réponse. Vivement l'ajout automatique de points finaux, ça va résoudre plein de problèmes !
Mais je ne sasi pas si tu avais vu mon message précédent concernant les phrases nouvelles - donc non encore dédupliquées - qui apparaissaient dans les résultats de recherche.
En tout état de cause, à quelle fréquence fais-tu passer la procédure de dédoublonnage ? Le savoir me permettrait d'éviter de traduire des doublons potentiels en regardant leur date/heure de création.
Ce qui est dommage, c'est que ce sont toujours ces dernières phrases, souvent parasites, qui apparaissent toujours en premier dans les recherches...

{{vm.hiddenReplies[2275] ? 'expand_more' : 'expand_less'}} nascondi le risposte mostra le risposte
sysko sysko 26 agosto 2010 26 agosto 2010 10:50:50 UTC flag Segnala link Permalink

Il est normalement lancé une fois par semaine. il a été lancé il y a deux semaines, mais visiblement une information pour l'indexation avec un autre projet était "écrasé" parce script. Donc je dois (encore) le remodifier avant de le relancer.
Sinon je peux changer le sens d'affichage des résultats de recherches, et afficher les plus anciennes d'abord ?

{{vm.hiddenReplies[2280] ? 'expand_more' : 'expand_less'}} nascondi le risposte mostra le risposte
sacredceltic sacredceltic 26 agosto 2010 26 agosto 2010 10:54:53 UTC flag Segnala link Permalink

Je ne sais pas si il faut d'abord afficher les plus anciennes (parce qu'il y a plein de vieux tromblons...) mais il faudrait peut-être "daplacer" les 10 derniers jours (ou les phrases créées depuis la dernière procédure de déduplication) à la fin...
Voir ce qu'en pensent d'autres traducteurs en masse...

sacredceltic sacredceltic 26 agosto 2010 26 agosto 2010 10:55:20 UTC flag Segnala link Permalink

*"déplacer"