menu
Tatoeba
language English
Register Log in
language English
menu
Tatoeba
Browse

chevron_right Show random sentence

chevron_right Browse by language

chevron_right Browse by list

chevron_right Browse by tag

chevron_right Browse audio

Community

chevron_right Wall

chevron_right List of all members

chevron_right Languages of members

chevron_right Native speakers

clear
{{language.name}} No language found.
swap_horiz
{{language.name}} No language found.
search

Wall (5,939 threads)

Tips

Before asking a question, make sure to read the FAQ.

We aim to maintain a healthy atmosphere for civilized discussions. Please read our rules against bad behavior.

Latest messages feedback

sharptoothed

4 hours ago

subdirectory_arrow_right

Thanuir

7 hours ago

subdirectory_arrow_right

CK

9 hours ago

subdirectory_arrow_right

MisterTrouser

10 hours ago

subdirectory_arrow_right

earthsophagus

14 hours ago

subdirectory_arrow_right

earthsophagus

14 hours ago

feedback

CK

15 hours ago

subdirectory_arrow_right

CK

16 hours ago

subdirectory_arrow_right

CK

16 hours ago

feedback

earthsophagus

16 hours ago

MarijnKp MarijnKp May 19, 2020 at 12:40 PM, edited May 19, 2020 at 12:40 PM May 19, 2020 at 12:40 PM, edited May 19, 2020 at 12:40 PM link Permalink

There is something wrong with the "My vocabulary" section. It says that all my vocabulary items have "1 sentence". However, most of them have more than one or nothing at all.

{{vm.hiddenReplies[35233] ? 'expand_more' : 'expand_less'}} hide replies show replies
Guybrush88 Guybrush88 May 19, 2020 at 2:30 PM May 19, 2020 at 2:30 PM link Permalink

this bug is already reported in the tracker: https://github.com/Tatoeba/tatoeba2/issues/2239

gillux gillux May 4, 2020 at 4:40 AM, edited May 4, 2020 at 4:41 AM May 4, 2020 at 4:40 AM, edited May 4, 2020 at 4:41 AM link Permalink

Saviez-vous que l’ensemble des participations aux grand débat national de l’année dernière sont disponibles sous les termes d’une licence compatible avec la CC-BY utilisée sur Tatoeba? https://granddebat.fr/pages/donnees-ouvertes

En clair, cela veut dire qu’on peut réutiliser ces données pour créer des phrases d’exemple sur Tatoeba, pourvu que l’auteur original soit mentionné. La quantité de texte semble colossale. J’ai téléchargé un seul des fichiers CSV, il contient 12,7 millions de mots.

Mais tout ce contenu ne peut pas être réutilisé tel quel. Il y a par exemple des réponses qui, sans la question qui va avec, n’ont guère de sens. Et pas mal de fautes d’orthographe et de typographie.

Comment pourrions-nous utiliser au mieux ce jeu de données pour enrichir Tatoeba ?

{{vm.hiddenReplies[35073] ? 'expand_more' : 'expand_less'}} hide replies show replies
TRANG TRANG May 4, 2020 at 7:57 PM May 4, 2020 at 7:57 PM link Permalink

On peut extraire les phrases contenant du vocabulaire qui n'est pas encore représenté dans Tatoeba, publier la liste des phrases extraites quelque part et laisser les contributeur copier-coller les phrases qui leur semblent pertinentes en corrigeant les éventuelles fautes au passage.

Peut-être que @lbdx peut nous aider en ce qui concerne la liste de vocabulaire.

Aiji Aiji May 11, 2020 at 7:56 AM, edited May 11, 2020 at 7:58 AM May 11, 2020 at 7:56 AM, edited May 11, 2020 at 7:58 AM link Permalink

J'ai écrit un truc vite fait https://gist.github.com/agrodet...2f05385c4c2361

Pour résumer, je n'ai pris que les réponses à une seule question d'un seul fichier, et j'ai au final extrait 33 389 phrases contenant des mots qui ne sont pas utilisé dans le corpus (correspondance exacte). 9 122 mots pour être précis.

Si vous jetez un œil de façon détaillée, vous verrez que j'ai enlevé de la liste les mots mal orthographiés. Enlevés à la truelle, hein, parce que vu le contenu gigantesquissime, c'est pas bien grave d'avoir quelques phrases en plus ou en moins...
Cependant, j'ai gardé les phrases contenant des mots non-utilisés dans le corpus telles quelles, donc avec des fautes, car j'ai pensé que la diversité valait bien le petit effort de correction

Comme dit par gillux, beaucoup de phrases n'ont pas trop de sens sans la question qui va avec: Néanmoins, une partie de ces phrases peut être extraite pour en faire des phrases indépendantes, riches, et correctes.

Pour la suite, deux grands axes possibles :
1. On allège la charge sur l'humain qui au final traitera tout ça, aka la moulinette. On est intransigeant sur le contenu et dès qu'une phrase pose problème, on l'écarte sans réfléchir (parce qu'il y a des millions de phrases de toute façon).
2. On veut vraiment extraire un maximum de cette banque de données, aka piqueti, piqueta, si t'as du temps, amuse-toi.

Je vous laisse deviner l'option qui me tenterait le plus :P


Pour ce qui est de l'attribution, j'ai pas trop compris qui on devait citer, car authorID est évidemment une longue chaîne unique.


PS : Avec l'affichage complet des listes, le code peut être chiant à trouver. Je vous invite à chercher les "In [" ^^

{{vm.hiddenReplies[35144] ? 'expand_more' : 'expand_less'}} hide replies show replies
Julien_PDC Julien_PDC May 11, 2020 at 10:03 AM May 11, 2020 at 10:03 AM link Permalink

Super idée, je soutiens et je suis prêt à aider, extraire les bonnes infos/phrases disponibles. Je vais suivre ça de près !

gillux gillux May 17, 2020 at 9:05 PM May 17, 2020 at 9:05 PM link Permalink

Je pense qu’au final, il faudra toujours qu’au moins un humain lise la phrase pour qu’elle soit validée et adoptée, peu importe que cette étape soit réalisée avant ou après l’import dans Tatoeba. Le gros intérêt de Tatoeba est quand même que le contenu n’est pas créé par des machines, il y a des gens derrière tout ça. Enlever ce côté humain par un import trop massif serait une erreur à mon avis.

Voici donc mon idée.

1. On fait un premier tri basique pour extraire le contenu sous forme de phrases potentiellement utilisables telles quelles dans Tatoeba. Ces phrases sont conservées dans une sorte de salle d’attente.

2. En tant que contributeur sur Tatoeba, je peux participer à l’import de la façon suivante. Je prends une phrase de la salle d’attente, je la lis, je la corrige éventuellement, et je l’ajoute sur Tatoeba. Ce faisant, j’en serais propriétaire et elle aura automatiquement l’étiquette qui va bien pour garder la trace de l’import.

2 bis. Si la phrase est inutilisable, je la jette et elle retourne dans la salle d’attente. Si plus de deux personnes ont jeté la phrase, elle est définitivement abandonnée.

Ainsi, toutes les phrases sont relues et adoptées, ça ne bourre pas la liste des dernières contributions, et surtout ça permet à la communauté de garder le contrôle sur ce qui se passe. Par exemple, si on pense qu’au bout d’un moment, il y a assez de phrases comme ça sur Tatoeba qui parlent d’aménagement territorial, on peut simplement arrêter d’en ajouter. Enfin, ça ajoute une nouvelle façon de contribuer à Tatoeba pour ceux qui n’ont pas d’inspiration. :-)

{{vm.hiddenReplies[35210] ? 'expand_more' : 'expand_less'}} hide replies show replies
Aiji Aiji May 19, 2020 at 4:18 AM May 19, 2020 at 4:18 AM link Permalink

♫ Sweet dreams are made of these 🎶

Je ne peux que soutenir l'idée d'une contribution à la Common Voice !

Je verrai dans les jours (semaines) qui viennent pour préparer un ensemble de phrases digne de ce nom en continuant mon petit script.

polna polna May 18, 2020 at 1:43 PM May 18, 2020 at 1:43 PM link Permalink

Sizleri çok seviyorum.

gillux gillux May 18, 2020 at 11:36 AM, edited May 18, 2020 at 11:46 AM May 18, 2020 at 11:36 AM, edited May 18, 2020 at 11:46 AM link Permalink

What's New on Tatoeba? - Your weekly recap °17


UPDATES

※ Thanks to Trang, and everyone's feedback, the review feature is now available on the new sentence design. Cheers to her!

※ The wiki now have a Turkish version. At this time, it only has one article, the quick start guide: https://tr.wiki.tatoeba.org/art...izli-baslangic Feel free to expand it if you can write Turkish!

※ rumpelstilzchen did some minor optimizations to make hopefully Tatoeba run a little bit faster. Let us know if you feel the difference!

※ The language "Chinese (Jin)" has been renamed to "Jin Chinese" for consistency with other Chinese languages. (It was already translated like that in some languages.) Thanks to Yorwba for reporting the issue.

※ The shadow behind non-rectangular flags now correctly follows the shape of the flag instead. This improvement makes flags like Marathi look much better. Thanks to sabretou for the suggestion and speedysera (a new contributor on Github) for the implementation.

※ Yorwba significantly improved the tool that converts between traditional and simplified characters and Pinyin https://tatoeba.org/eng/wall/sh...#message_35166

ON THE WALL

※ Trang asked to test the review feature in the new sentence design https://tatoeba.org/eng/wall/sh...#message_35102

※ mramosch asked for stats on German corpus about which languages sentences are translated from, if any https://tatoeba.org/eng/wall/sh...#message_35172

※ sacredceltic shared an interesting video about the difficulty of translating the word "you" https://tatoeba.org/eng/wall/sh...#message_35170

※ radubradu asked how to find words to translate in Romanian https://tatoeba.org/eng/wall/sh...#message_35163

※ CK created a tutorial video about searching on Tatoeba https://tatoeba.org/eng/wall/sh...#message_35157

CONTRIBUTIONS AND LANGUAGES

※ 19 369 sentences have been added this week.

※ On shekitten's request, Phoenician and Jewish Palestinian Aramaic have been added to Tatoeba, bringing the number of supported languages to 364!

※ As usual, thanks to all the members who helped translating the website.

----------

If you'd like to help to the development of Tatoeba, report issues, or are just curious, have a look at the GitHub repository: https://github.com/Tatoeba/tatoeba2

If you want to help us translate the website to your language, you can join us on Transifex: https://www.transifex.com/tatoe...ite/dashboard/ and check this article on the wiki https://en.wiki.tatoeba.org/art...ce-translation

----------

Fun fact: there are many more children throughout the world who have been and continue to be educated through a second or a later-acquired language than there are children educated exclusively via the first language.

Last week recap: https://tatoeba.org/eng/wall/sh...#message_35143
See this recap on the blog: https://blog.tatoeba.org/2020/0...-recap_18.html

Virgoacp Virgoacp May 18, 2020 at 4:58 AM May 18, 2020 at 4:58 AM link Permalink
warning

The content of this message goes against our rules and was therefore hidden. It is displayed only to admins and to the author of the message.

marioo marioo May 17, 2020 at 2:11 PM, edited May 17, 2020 at 2:14 PM May 17, 2020 at 2:11 PM, edited May 17, 2020 at 2:14 PM link Permalink

Questions about 'My Vocabulary' section:

1. Is there a way to sort the words in the 'vocabulary'?

2. Is there a way to export one's own vocabulary list?

3. Is there a way to enter a large number of words in batch?

thanks

{{vm.hiddenReplies[35205] ? 'expand_more' : 'expand_less'}} hide replies show replies
Aiji Aiji May 18, 2020 at 1:34 AM May 18, 2020 at 1:34 AM link Permalink

Unfortunately, the answer to your questions is no.
We are tracking importing list of vocabulary items here https://github.com/Tatoeba/tatoeba2/issues/1282

and exporting https://github.com/Tatoeba/tatoeba2/issues/1283

For the sorting part, I think it will be done when the vocabulary feature will be reworked. I hope the vocabulary feature can be improved fairly soon but its priority is not currently very high.

sharptoothed sharptoothed May 17, 2020 at 8:51 AM May 17, 2020 at 8:51 AM link Permalink

* Tatoeba As A Graph *

Tatoeba internals represented as undirected graphs.

https://tatoeba.j-langtools.com/tgraph/

{{vm.hiddenReplies[35200] ? 'expand_more' : 'expand_less'}} hide replies show replies
Pandaa Pandaa May 17, 2020 at 11:19 AM May 17, 2020 at 11:19 AM link Permalink

Mi értelme van ezen gráfoknak, azon kívül, hogy érdekes formákat alkotnak?

{{vm.hiddenReplies[35203] ? 'expand_more' : 'expand_less'}} hide replies show replies
Thanuir Thanuir May 17, 2020 at 11:49 AM May 17, 2020 at 11:49 AM link Permalink

Verkot näyttävät, kuinka vahvoja yhteyksiä kielten välillä on ja vihjaa vähän siitä, mitkä kielet ovat lähellä toisiaan.

maaster maaster May 17, 2020 at 10:14 AM May 17, 2020 at 10:14 AM link Permalink

These are nice graphs ; )
(Jackson Pollock) Interesting to see it in this way. Tx.

Ricardo14 Ricardo14 May 15, 2020 at 7:47 PM, edited May 16, 2020 at 6:49 AM May 15, 2020 at 7:47 PM, edited May 16, 2020 at 6:49 AM link Permalink

Perhaps some of you might find it interesting

Online Polyglot Gathering (from May 29th to June 1st)

This year, it will take place online because of the COVID19.

More info: https://www.polyglotgathering.com/2020/

It can be a great chance to improve our skills and to promote Tatoeba :)



750 participants have already registered - https://www.polyglotgathering.c.../participants/

{{vm.hiddenReplies[35179] ? 'expand_more' : 'expand_less'}} hide replies show replies
mramosch mramosch May 15, 2020 at 9:25 PM May 15, 2020 at 9:25 PM link Permalink

May 39th sounds interesting ;-)))

{{vm.hiddenReplies[35181] ? 'expand_more' : 'expand_less'}} hide replies show replies
Ricardo14 Ricardo14 May 16, 2020 at 6:48 AM May 16, 2020 at 6:48 AM link Permalink

hahaha indeed!

sacredceltic sacredceltic May 14, 2020 at 8:09 PM May 14, 2020 at 8:09 PM link Permalink

https://youtu.be/fNV7CsKI5m8