21 hours ago
Les 10% du corpus, c’est juste pour me permettre à moi de travailler avec un volume de données suffisamment petit pour être analysé rapidement, et suffisamment gros pour être significatif. Le temps de faire des essais et des évaluations.

L’algorithme actuellement installé sur a été quant à lui entraîné avec la totalité des phrases de et je souhaite l’installer tel quel sur Je t’invite donc à l’essayer.

Bien sûr, le modèle sera réactualisé régulièrement.
Comme promis, je me suis penché sur le problème.

J’ai construis un jeu de données en extrayant 10% du corpus actuel au hasard et j’ai utilisé ça comme base de travail. J’ai divisé cette base en deux parties, 90% pour entraîner le modèle, et 10% pour tester le modèle entraîné. Avec l’algorithme de détection actuel, j’ai constaté un taux de réussite de 94%, ce qui n’est pas trop mal. J’ai tout de même réécrit l’algorithme, parce qu’il me paraissait un peu mal fichu. Après pas mal de peaufinages, je suis parvenu à un taux de réussite de 97%. J’ai installé ça sur, je t’invite à tester.

Il faut garder en tête que de notre point de vue d’être humain, l’algorithme peut paraître assez stupide quand il se trompe, mais ça ne veut pas dire qu’il est nul.

Si on constate qu’il n’arrive pas à détecter correctement « La stupidité n'est pas une excuse », on peut logiquement penser qu’il est plutôt mauvais. S’il se plante sur une phrase aussi « facile » (à nos yeux), qu’en sera-t-il avec une phrase plus ambiguë ?

Or, ce n’est pas parce qu’il échoue sur une phrase facile qu’il échouera aussi sur une phrase difficile. L’algorithme ne regarde pas les mots, tout repose sur de simples statistiques de co-occurences de caractères (pas encore de "deep learning", désolé ;-)). Pour l’algorithme, les phrases les plus difficiles ne sont pas les plus ambiguës, mais celles qui contiennent des suites de caractères pour lesquelles ses statistiques sont mauvaises.

Bref, pour se faire une idée de la qualité de l’algorithme, il faut regarder comment il se débrouille dans l’ensemble, et dans toutes les langues.

En regardant là où l’algorithme a du mal, j’ai noté que le Berbère est souvent confondu avec le Kabyle (et vice-versa), ce qui rend ces langues relativement mal reconnues par l’algorithme, malgré la quantité de données dont nous disposons pour elles. Je me demande à quel point elles sont proches. Pareil pour le Russe qui est parfois confondu avec l’Ukrainien (et vice-versa), là aussi je me demande à quel point ces langues sont proches. Il y a aussi les langues latines qui sont parfois reconnues comme de l’interlingua, ce qui n’est pas si étonnant vu que l’interlingua est directement basé sur les langues latines.
6 days ago
Dear Seael,

Gracias for reporting the problem to us. I am touched by all the research you did to help us identifying the problem. Thank you.

I think I solved the problem now. If it happens again, please let us know.

Note that new sentences never immediately appear in search results. Under normal circumstances, new sentences are made available to search under 15 minutes (but this may change in the future). However you may have to wait a bit longer when the server is too busy, or when we are working on something related to search.

Modifications of metadata (like translations, ownership, tags, audio, etc.) of already searchable sentences are instantly taken into account by the search.
6 days ago
Anybody is welcome to submit a pull request on our Github.
18 days ago - 18 days ago
I’ve been playing around with our default search ranking algorithm. I insist on the "default" part because that’s what the vast majority of visitors use. I also focus on searches that do not use double quotes or any special trick. Just plain words. Again because that’s what the vast majority of visitors use.

Our current way of ranking results is pretty basic: it searches for sentences that include all the words (eventually stemmed) and sort them by total number of words in the sentence.

A problem with this approach is that the order of the words is ignored. The top result of searching for "you go there" is "There you go!" because it’s a shorter sentence than "You may go there."

Ignoring word order is especially catastrophic on languages without word boundaries, like Chinese, because the searched characters are randomly reordered into something totally unrelated. For example, the results for "可不可" in Chinese are cluttered by irrelevant "不可something". Same for kana words in Japanese.

In order to address this problem, I tentatively tweaked the default ranking algorithm on into something that prioritize, in the following order:

1. sentences that contains an exact match (like if searching for ="you go there")
2. sentences having the "longest common subsequence" (LCS, [1])
3. sentences having the least number of words


However, I don’t know if this new ranking suits everyone out there. What do you think?

You can compare the search results on (old ranking) and (new ranking). You can run a search on, and then add "dev." in the URL bar and press alt+return to open a new tab.
18 days ago
Je suis conscient que c’est frustrant, mais sache nous n’avons pas oublié ce problème, il est noté sur Github [1]. Mais merci de nous le rappeler!

C’est toujours le même algorithme de sysko qui détecte les langues, donc cela doit venir de la base de données sur la laquelle il s’appuie. J’avais tenté de la mettre à jour, mais ça n’avait pas résolu le problème. Je vais investiguer ça prochainement et je te tiendrai au courant si j’ai besoin de ton aide pour tester.

19 days ago
We upgraded our search engine to the latest version of Manticore. Manticore is a fork of Sphinx. You shouldn’t notice anything new because the search functionality remains the same. It just improves performance a little bit and paves the way for future improvements.

That said, while we were at it, we added stemming support for four additional languages:

• Danish
• Hungarian
• Romanian
• Norwegian (Bokmål)

Have a look at this page if you wonder what stemming is about:
20 days ago
The page is:

I updated the wiki page, thank you.

Beware that this feature is still under development. Feedback is welcome.
21 days ago
Oui. Comme cette fonctionnalité est encore en développement, elle est pour le moment seulement accessible à certaines personnes qui souhaitent publier leurs phrases sous licence CC0. Si vous souhaitez vous aussi avoir y accès, demandez à un administrateur.
21 days ago
Je comprends votre frustration. Pour répondre à la question du « pourquoi », la raison est que personne n’a encore travaillé à améliorer ça. Il se trouve que très peu de personnes travaillent sur Tatoeba et il y a des tonnes et des tonnes d’autres choses à améliorer et d’autres problèmes à corriger (dont certains bien plus critiques, qui rendent par exemple le site inaccessible).

Il existe une solution pour réduire l’inconfort en attendant que la situation s’améliore. Vous pouvez créer des phrases en CC-BY pendant un certain temps (par exemple une journée), puis changer la licence de toutes vos phrases CC-BY en CC0 d’un coup d’un seul, en allant sur la page
2019-03-04 11:12
CK recently brought to my attention that Tatoeba’s Twitter and Facebook accounts are not used. Does anybody would like to write news about Tatoeba? I’m thinking about having somebody in our community whose role would be to write "good news" or "updates" about Tatoeba in the Twitter and Facebook account, and maybe the blog.

Whenever a member has some valuable information (new audio contributions (CK), new stats (sharptoothed), new feature available (me or Trang), for example, he/she could pass it on to the news writer. The news writer could also just pick information from the Wall on his/her own.
2019-02-27 10:13 - 2019-02-27 10:17
I dream that Tatoeba is a project I can be proud of when I’m showing it to my friends: "Do you know this website, Tatoeba?" "No, let me check it out." The homepage loads instantly. Everything’s localized, neat, beautiful, self-explanatory and easy to use from a smartphone or a computer. It shows some inspiring and featured example sentences. My friend tries to makes a search. The results are very relevant and show up almost instantly.

I dream that Tatoeba is a worldwide reference among language enthusiasts. Most professional translators prefer it over closed-source solutions because the results are more diverse and accurate, and all of their colleagues are on it too. Popular dictionaries all include Tatoeba’s sentences to illustrate their definitions. Whenever people want to make a point whether a particular expression is correct or not, widely used or not, they don’t argue by showing Google’s number of results; they show Tatoeba’s results instead. Tatoeba no longer relies on the ISO to include a new language. It’s like the other way around: having a language listed on Tatoeba is a point that may convince the ISO folks to include it too.

I dream that Tatoeba is a key tool for most language teachers around the world to prepare their lessons. Just give Tatoeba a few grammatical concepts and vocabulary items to study, and it gives you the materials you need.

I dream that Tatoeba’s community is huge, diverse and everyone’s equal. There are many active members from all Asian countries, the Global South, and all the minorities on Earth are well represented. Countries that are threatening certain language minorities are constantly trying to block Tatoeba because they can’t stand that these languages are being listed as such on something as famous as Tatoeba. Tatoeba is regularly mentioned on the news whenever a language minority is being threatened.
2019-02-27 05:49
Yes, but see, Trang is probably the only person who expressed that, and yet it's not a dream, it’s a concept.

What do YOU think, CK? Which Tatoeba do you dream of?
2019-02-27 04:49
Dear Tatoeba contributors,

From this Friday, I will be working on Tatoeba again, thanks to our collaboration with Mozilla (thank you!). I will work to facilitate the use of sentences by Common Voice, but also to improve Tatoeba in general.

One of the ways I would like to achieve this goal is to first ask you what Tatoeba you are dreaming of. I think we focus too much on concrete details and forget to let ourselves dream. Yet dreams are one of the major forces driving us forward. Our Github is full of very concrete "little suggestions" and "little problems", but what are we really aspiring to in order to make Tatoeba a project useful to humanity?

I think that we, who are involved in Tatoeba in one way or another, all of us have in our heads a Tatoeba of our dreams, some big ideals, some big crazy ideas, a personal vision of how it should be, but that we refrain from expressing. So I am asking you to forget about the details, to forget about the quarrels, to think big and far, to let go a little and tell me frankly: which Tatoeba do you dream of?


Chers contributeurs de Tatoeba,

À partir du vendredi qui arrive, je vais travailler à nouveau sur Tatoeba, grâce à notre collaboration avec Mozilla (merci à eux !). Je vais travailler à faciliter l’utilisation des phrases par Common Voice, mais aussi à améliorer Tatoeba de manière générale.

Une des façons dont j’aimerais atteindre ce but, c’est de commencer par vous demander de quel Tatoeba vous rêvez. Je pense que nous nous attardons trop sur des détails concrets et que nous oublions de nous laisser aller à rêver. Pourtant, les rêves sont une des forces majeures qui nous poussent à aller de l’avant. Notre Github est rempli de « petites suggestions » et de « petits problèmes » très concrets, mais à quoi aspirons-nous vraiment pour que Tatoeba devienne un projet utile à l'humanité ?

Je pense que nous, qui nous impliquons de près ou de loin dans Tatoeba, nous avons tous dans notre tête un Tatoeba de nos rêves, de grands idéaux, de grandes idées folles, une vision personnelle de comment ça devrait être, mais que nous nous retenons d’exprimer. Alors je vous demande d’oublier les détails, d’oublier les querelles, de penser grand et loin, de vous lâcher un peu et de me dire franchement : de quel Tatoeba rêvez-vous ?
2019-02-18 05:47
> Have you seen the GitHub issue?

Sorry, I didn’t. I commented there too.

> Allowing Ottoman Turkish sentences in the Latin script will increase contributions in the old language and its readability.

I see. Let me try to understand the situation. Can you tell me if the following is correct?
1. Ottoman Turkish is not a living language any more (there are no native speakers alive).
2. Native speakers of Ottoman Turkish used the Arabic script only.
3. Most of the people who understand Ottoman Turkish are native speakers of Turkish.
4. Native speakers of Turkish are unfamiliar with the Arabic script.

If that is correct, I believe it makes sense to convert Ottoman Turkish from Arabic to Latin, but not the other way around, because Latin not is no more than a reading aid for native speakers of Turkish. In other words, I think all Ottoman Turkish sentences should stay in Arabic only, while we only attach Latin as a transcription of them.

> I created only one pair set as 'unknown' for demonstration.

I see. Next time, please use instead for demonstration purposes.
2019-02-17 13:10
As you pointed out, the current implementation assumes that Ottoman Turkish is written right-to-left using Arabic script.

I had a look at the English Wikipedia article about the Ottoman Turkish language, and I am a bit confused because it says that this language switched to the Latin script as it evolved into modern Turkish. Can you elaborate about the contemporary use of Arabic vs. Latin to write Ottoman Turkish?

One way to quickly solve the display problem is to set the direction of Ottoman Turkish to "auto". Another, much more complex way is to implement multiple script support in and auto-convert between, but only if it's worth, that is to say there are actually native speakers using Latin and Arabic, we want to be able find sentences written in Arabic by the searching in Latin and vice-versa, the conversion can be partly or fully automated, etc.

As you found out, the direction of sentences of "unknown" language is set to automatic. That said, this is not a reason to set the language of your Ottoman Turkish sentences written in Latin script to "unknown", just because they look better. I strongly discourage you from doing this because then these sentences are excluded from the Ottoman Turkish corpus, they won't show up in searches and statistics, which is preventing contributors/learners of Ottoman Turkish from finding them. What's worse, since *only you* know their actual language, if for some reason you forget about them or stop contributing, these sentences will never be assigned to the correct language and will be definitely lost.
2018-11-05 20:35 - 2018-11-05 20:38
Tu réponds de nouveau à côté de la plaque en évoquant les fonctions pratiques alors que je te parle de juridique… Ne le prends pas mal, mais tu sembles ignorant des questions de licence, aussi je te suggère de t’informer sérieusement sur le sujet et de décider clairement d’une licence *avant* de commencer à mettre en ligne quoi que ce soit. Regarde peut-être du côté des licences Creative Commons.

Choisir une licence revient à choisir une ligne directrice, une politique pour la diffusion de ton dictionnaire. Dans l’état actuel des choses, je ne sais pas si j’aurai le droit de copier et réutiliser le contenu de ton dictionnaire ou pas. Or, à l’ère du numérique où il est si facile et pratique de copier et réutiliser les données, cela laisse quand même un gros point d’interrogation.

Personnellement, je ne donnerai pas un centime à ton projet tant que la licence du dictionnaire ne sera pas fixée. En effet, je pense que ton dictionnaire, aussi bon soit-il, serait peu utile si d’autres projets ne pouvaient pas le réutiliser.

PS : je te conseille aussi de changer de juriste.
2018-11-04 22:31
Je crois que Grendayzer te suggérait de fonder ton site sur le même moteur que Wikitionnaire (à savoir MediaWiki), et non de contribuer au Wikitionnaire. MediaWiki permet de faire de la modération a priori des contributions, donc ce ne serait qu’une question de paramétrage.

Je suis plutôt d’accord, il existe probablement des moteurs de site qui répondent déjà à ton besoin, MediaWiki n’étant que l’un d’entre eux.
2018-11-04 22:13
Par ailleurs, puisque tu parles de la possibilité de contribuer au dictionnaire, la question de la licence s’applique également au contenu contribué. C’est typiquement la case "j’accepte" que l’on coche aveuglément au moment de s’inscrire. Mes contributions t’appartiendront-elles de fait, ou bien aurai-je le droit d’avoir mon nom dans le dictionnaire ? Et cætera et cætera.
2018-11-04 22:11 - 2018-11-04 22:15
> Quant aux licences, je prévois de créer ce dictionnaire avec des fonctions collaboratives

Je ne parlais pas des fonctions pratiques, mais de la licence au sens juridique du terme. C’est-à-dire de quels sont les droits et devoirs des gens qui utiliseront de près ou de loin à ton dictionnaire. Tu devras mettre sur ton site une page qui explique les conditions d'utilisation du contenu. Par exemple, sur Tatoeba, il s’agit de

Mettons que j’écris un programme qui télécharge l’ensemble de ton site, ou une partie, ou même juste une seule page. Puis, j’extrais le contenu (définitions, traductions, exemples etc.) de la ou les pages téléchargées. Dès lors, qu'aurai-je le droit de faire avec ce contenu ? Aurai-je le droit de :
• l’utiliser juste pour moi ?
• l’utiliser dans un cadre éducatif ?
• l’utiliser à des fins commerciales ?
• le réutiliser à l’intérieur d’un autre document écrit par moi ? Si oui, sous quelles conditions (mentionner ton nom, etc.) ?
• le republier sur un autre support ?

Voilà le genre de questions auxquelles répond la licence. Et tu devras y répondre tôt ou tard car des gens vont vouloir se servir de ton dictionnaire autrement qu’en faisant des recherches sur le site (certains le feront d’ailleurs impunément, et là la licence te protège légalement). Tu peux ne rien autoriser du tout, n’autoriser que certains trucs, ou autoriser presque tout. Il n’y a pas de bonne ou de mauvaise réponse, c’est ton choix.

(Note que je parle de télécharger les pages pour simplifier l’explication, mais cela peut passer par la mise à disposition de fichiers dictionnaire ou d’une API.)