clear
{{language.name}} No language found.
swap_horiz
{{language.name}} No language found.
search
sacredceltic
18 days ago
La reconnaissance automatique de langue est polluée par des langues dont le nombre de phrases est faible.
Je pense qu'il faudrait exclure de la reconnaissance les langues qui n'ont pas encore atteint une certaine masse de phrases, de manière à ce que l'algorithme d'identification puisse s'appuyer sur des échantillons plus significatifs de segments.
hide replies
TRANG
17 days ago
J'ai créé un ticket sur GitHub: https://github.com/Tatoeba/tatoeba2/issues/1731

Est-ce que vous avez quelques exemples de phrases dont la langue a été mal détectée?
hide replies
Maxence
17 days ago - 17 days ago
La reconnaissance de langue ne pourra jamais être parfaite, mais peut sûrement être amélioré. Des plus grosses langues sont aussi touchées. J'ai récemment eu des problèmes avec le portugais, et l'esperanto.

Et dernièrement....
https://tatoeba.org/fra/sentences/show/7699348
sacredceltic
17 days ago
A peu près toutes les dernières phrases courtes en français que j'ai créées ont été mal identifiées comme des langues improbables : chavanaco, bavarois,...
Donc je soupçonne que c'est le faible échantillonnage de ces langues qui les fait être détectées comme candidates...
sacredceltic
17 days ago
cette phrase-ci vient d'être identifiée comme de l'émilien...
https://tatoeba.org/fra/sentences/show/7699792
hide replies
sacredceltic
13 days ago - 13 days ago
Bon, là c’est de pire en pire : des phrases françaises assez longues sont reconnues comme de l’anglais (!) ou de l’interlingua.
Je pense qu’il ne peut s’agir que d’un canular...