Thread #35073 - Tatoeba

Saviez-vous que l’ensemble des participations aux grand débat national de l’année dernière sont disponibles sous les termes d’une licence compatible avec la CC-BY utilisée sur Tatoeba? https://granddebat.fr/pages/donnees-ouvertes

En clair, cela veut dire qu’on peut réutiliser ces données pour créer des phrases d’exemple sur Tatoeba, pourvu que l’auteur original soit mentionné. La quantité de texte semble colossale. J’ai téléchargé un seul des fichiers CSV, il contient 12,7 millions de mots.

Mais tout ce contenu ne peut pas être réutilisé tel quel. Il y a par exemple des réponses qui, sans la question qui va avec, n’ont guère de sens. Et pas mal de fautes d’orthographe et de typographie.

Comment pourrions-nous utiliser au mieux ce jeu de données pour enrichir Tatoeba ?

hide replies show replies

TRANG May 4, 2020 May 4, 2020 at 7:57:31 PM UTC

flag

Report

link

Permalink

On peut extraire les phrases contenant du vocabulaire qui n'est pas encore représenté dans Tatoeba, publier la liste des phrases extraites quelque part et laisser les contributeur copier-coller les phrases qui leur semblent pertinentes en corrigeant les éventuelles fautes au passage.

Peut-être que @lbdx peut nous aider en ce qui concerne la liste de vocabulaire.

Aiji May 11, 2020, edited May 11, 2020 May 11, 2020 at 7:56:01 AM UTC, edited May 11, 2020 at 7:58:28 AM UTC

flag

Report

link

Permalink

J'ai écrit un truc vite fait https://gist.github.com/agrodet...2f05385c4c2361

Pour résumer, je n'ai pris que les réponses à une seule question d'un seul fichier, et j'ai au final extrait 33 389 phrases contenant des mots qui ne sont pas utilisé dans le corpus (correspondance exacte). 9 122 mots pour être précis.

Si vous jetez un œil de façon détaillée, vous verrez que j'ai enlevé de la liste les mots mal orthographiés. Enlevés à la truelle, hein, parce que vu le contenu gigantesquissime, c'est pas bien grave d'avoir quelques phrases en plus ou en moins...
Cependant, j'ai gardé les phrases contenant des mots non-utilisés dans le corpus telles quelles, donc avec des fautes, car j'ai pensé que la diversité valait bien le petit effort de correction

Comme dit par gillux, beaucoup de phrases n'ont pas trop de sens sans la question qui va avec: Néanmoins, une partie de ces phrases peut être extraite pour en faire des phrases indépendantes, riches, et correctes.

Pour la suite, deux grands axes possibles :
1. On allège la charge sur l'humain qui au final traitera tout ça, aka la moulinette. On est intransigeant sur le contenu et dès qu'une phrase pose problème, on l'écarte sans réfléchir (parce qu'il y a des millions de phrases de toute façon).
2. On veut vraiment extraire un maximum de cette banque de données, aka piqueti, piqueta, si t'as du temps, amuse-toi.

Je vous laisse deviner l'option qui me tenterait le plus :P

Pour ce qui est de l'attribution, j'ai pas trop compris qui on devait citer, car authorID est évidemment une longue chaîne unique.

PS : Avec l'affichage complet des listes, le code peut être chiant à trouver. Je vous invite à chercher les "In [" ^^

hide replies show replies

Julien_PDC May 11, 2020 May 11, 2020 at 10:03:08 AM UTC

flag

Report

link

Permalink

Super idée, je soutiens et je suis prêt à aider, extraire les bonnes infos/phrases disponibles. Je vais suivre ça de près !

gillux May 17, 2020 May 17, 2020 at 9:05:52 PM UTC

flag

Report

link

Permalink

Je pense qu’au final, il faudra toujours qu’au moins un humain lise la phrase pour qu’elle soit validée et adoptée, peu importe que cette étape soit réalisée avant ou après l’import dans Tatoeba. Le gros intérêt de Tatoeba est quand même que le contenu n’est pas créé par des machines, il y a des gens derrière tout ça. Enlever ce côté humain par un import trop massif serait une erreur à mon avis.

Voici donc mon idée.

1. On fait un premier tri basique pour extraire le contenu sous forme de phrases potentiellement utilisables telles quelles dans Tatoeba. Ces phrases sont conservées dans une sorte de salle d’attente.

2. En tant que contributeur sur Tatoeba, je peux participer à l’import de la façon suivante. Je prends une phrase de la salle d’attente, je la lis, je la corrige éventuellement, et je l’ajoute sur Tatoeba. Ce faisant, j’en serais propriétaire et elle aura automatiquement l’étiquette qui va bien pour garder la trace de l’import.

2 bis. Si la phrase est inutilisable, je la jette et elle retourne dans la salle d’attente. Si plus de deux personnes ont jeté la phrase, elle est définitivement abandonnée.

Ainsi, toutes les phrases sont relues et adoptées, ça ne bourre pas la liste des dernières contributions, et surtout ça permet à la communauté de garder le contrôle sur ce qui se passe. Par exemple, si on pense qu’au bout d’un moment, il y a assez de phrases comme ça sur Tatoeba qui parlent d’aménagement territorial, on peut simplement arrêter d’en ajouter. Enfin, ça ajoute une nouvelle façon de contribuer à Tatoeba pour ceux qui n’ont pas d’inspiration. :-)

hide replies show replies

Aiji May 19, 2020 May 19, 2020 at 4:18:42 AM UTC

flag

Report

link

Permalink

♫ Sweet dreams are made of these 🎶

Je ne peux que soutenir l'idée d'une contribution à la Common Voice !

Je verrai dans les jours (semaines) qui viennent pour préparer un ensemble de phrases digne de ce nom en continuant mon petit script.

Menu

Need some help?

Developers

About