Thread #31050 - Tatoeba

La reconnaissance automatique de langue est polluée par des langues dont le nombre de phrases est faible.
Je pense qu'il faudrait exclure de la reconnaissance les langues qui n'ont pas encore atteint une certaine masse de phrases, de manière à ce que l'algorithme d'identification puisse s'appuyer sur des échantillons plus significatifs de segments.

hide replies show replies

TRANG January 6, 2019 January 6, 2019 at 11:53:17 AM UTC

link

Permalink

J'ai créé un ticket sur GitHub: https://github.com/Tatoeba/tatoeba2/issues/1731

Est-ce que vous avez quelques exemples de phrases dont la langue a été mal détectée?

hide replies show replies

Maxence January 6, 2019, edited January 6, 2019 January 6, 2019 at 12:33:22 PM UTC, edited January 6, 2019 at 12:34:37 PM UTC

link

Permalink

La reconnaissance de langue ne pourra jamais être parfaite, mais peut sûrement être amélioré. Des plus grosses langues sont aussi touchées. J'ai récemment eu des problèmes avec le portugais, et l'esperanto.

Et dernièrement....
https://tatoeba.org/fra/sentences/show/7699348

sacredceltic January 6, 2019 January 6, 2019 at 1:44:05 PM UTC

link

Permalink

A peu près toutes les dernières phrases courtes en français que j'ai créées ont été mal identifiées comme des langues improbables : chavanaco, bavarois,...
Donc je soupçonne que c'est le faible échantillonnage de ces langues qui les fait être détectées comme candidates...

sacredceltic January 6, 2019 January 6, 2019 at 1:47:39 PM UTC

link

Permalink

cette phrase-ci vient d'être identifiée comme de l'émilien...
https://tatoeba.org/fra/sentences/show/7699792

hide replies show replies

sacredceltic January 10, 2019, edited January 10, 2019 January 10, 2019 at 6:26:39 PM UTC, edited January 10, 2019 at 6:27:31 PM UTC

link

Permalink

Bon, là c’est de pire en pire : des phrases françaises assez longues sont reconnues comme de l’anglais (!) ou de l’interlingua.
Je pense qu’il ne peut s’agir que d’un canular...

Menu

Need some help?

Developers

About