Menuo
Je vois de nombreux doublons au point près, c'est à dire que la seule différence est la présence ou non du point final.
La procédure de déduplication ne les considère-t-elle pas comme des doublons ?
Non le script ne détecte que les doublons parfait, je n'ai pas préféré ajouté cela, car le script de détection est assez "sale" (c'est une procédure en pl/sql de mysql) et je n'ai pas trouvé de manière propre et tout aussi ""rapide"" de le faire. De plus dans certains cas la ponctuation peut changer la traduction (même si je te l'accorde l'absence de point final ne change en rien le sens vu que c'est purement et simplement une faute).
Mais je pense qu'il faudrait pour être plus "propre" créer un script d'uniformisation, correction des majuscules, des points manquants etc. qui tourneraient avant le script de dédoublonnage. Cependant je ne pense pas avoir le temps ces prochaines semaines, de faire une telle chose.
Par contre en attendant je pense pouvoir créer petit à petit un jeu de commande sql de "nettoyage" pour ajouter les points manquants etc.
Merci pour ta réponse. Vivement l'ajout automatique de points finaux, ça va résoudre plein de problèmes !
Mais je ne sasi pas si tu avais vu mon message précédent concernant les phrases nouvelles - donc non encore dédupliquées - qui apparaissaient dans les résultats de recherche.
En tout état de cause, à quelle fréquence fais-tu passer la procédure de dédoublonnage ? Le savoir me permettrait d'éviter de traduire des doublons potentiels en regardant leur date/heure de création.
Ce qui est dommage, c'est que ce sont toujours ces dernières phrases, souvent parasites, qui apparaissent toujours en premier dans les recherches...
Il est normalement lancé une fois par semaine. il a été lancé il y a deux semaines, mais visiblement une information pour l'indexation avec un autre projet était "écrasé" parce script. Donc je dois (encore) le remodifier avant de le relancer.
Sinon je peux changer le sens d'affichage des résultats de recherches, et afficher les plus anciennes d'abord ?
Je ne sais pas si il faut d'abord afficher les plus anciennes (parce qu'il y a plein de vieux tromblons...) mais il faudrait peut-être "daplacer" les 10 derniers jours (ou les phrases créées depuis la dernière procédure de déduplication) à la fin...
Voir ce qu'en pensent d'autres traducteurs en masse...
*"déplacer"