clear
{{language.name}} No language found.
swap_horiz
{{language.name}} No language found.
search
sacredceltic
2019-01-05 14:45
La reconnaissance automatique de langue est polluée par des langues dont le nombre de phrases est faible.
Je pense qu'il faudrait exclure de la reconnaissance les langues qui n'ont pas encore atteint une certaine masse de phrases, de manière à ce que l'algorithme d'identification puisse s'appuyer sur des échantillons plus significatifs de segments.
hide replies
TRANG
2019-01-06 11:53
J'ai créé un ticket sur GitHub: https://github.com/Tatoeba/tatoeba2/issues/1731

Est-ce que vous avez quelques exemples de phrases dont la langue a été mal détectée?
hide replies
Maxence
2019-01-06 12:33 - 2019-01-06 12:34
La reconnaissance de langue ne pourra jamais être parfaite, mais peut sûrement être amélioré. Des plus grosses langues sont aussi touchées. J'ai récemment eu des problèmes avec le portugais, et l'esperanto.

Et dernièrement....
https://tatoeba.org/fra/sentences/show/7699348
sacredceltic
2019-01-06 13:44
A peu près toutes les dernières phrases courtes en français que j'ai créées ont été mal identifiées comme des langues improbables : chavanaco, bavarois,...
Donc je soupçonne que c'est le faible échantillonnage de ces langues qui les fait être détectées comme candidates...
sacredceltic
2019-01-06 13:47
cette phrase-ci vient d'être identifiée comme de l'émilien...
https://tatoeba.org/fra/sentences/show/7699792
hide replies
sacredceltic
2019-01-10 18:26 - 2019-01-10 18:27
Bon, là c’est de pire en pire : des phrases françaises assez longues sont reconnues comme de l’anglais (!) ou de l’interlingua.
Je pense qu’il ne peut s’agir que d’un canular...