menu
Tatoeba
language
Register Log in
language English
menu
Tatoeba

chevron_right Register

chevron_right Log in

Browse

chevron_right Show random sentence

chevron_right Browse by language

chevron_right Browse by list

chevron_right Browse by tag

chevron_right Browse audio

Community

chevron_right Wall

chevron_right List of all members

chevron_right Languages of members

chevron_right Native speakers

search
clear
swap_horiz
search
sacredceltic sacredceltic January 5, 2019 January 5, 2019 at 2:45:18 PM UTC link Permalink

La reconnaissance automatique de langue est polluée par des langues dont le nombre de phrases est faible.
Je pense qu'il faudrait exclure de la reconnaissance les langues qui n'ont pas encore atteint une certaine masse de phrases, de manière à ce que l'algorithme d'identification puisse s'appuyer sur des échantillons plus significatifs de segments.

{{vm.hiddenReplies[31050] ? 'expand_more' : 'expand_less'}} hide replies show replies
TRANG TRANG January 6, 2019 January 6, 2019 at 11:53:17 AM UTC link Permalink

J'ai créé un ticket sur GitHub: https://github.com/Tatoeba/tatoeba2/issues/1731

Est-ce que vous avez quelques exemples de phrases dont la langue a été mal détectée?

{{vm.hiddenReplies[31057] ? 'expand_more' : 'expand_less'}} hide replies show replies
Maxence Maxence January 6, 2019, edited January 6, 2019 January 6, 2019 at 12:33:22 PM UTC, edited January 6, 2019 at 12:34:37 PM UTC link Permalink

La reconnaissance de langue ne pourra jamais être parfaite, mais peut sûrement être amélioré. Des plus grosses langues sont aussi touchées. J'ai récemment eu des problèmes avec le portugais, et l'esperanto.

Et dernièrement....
https://tatoeba.org/fra/sentences/show/7699348

sacredceltic sacredceltic January 6, 2019 January 6, 2019 at 1:44:05 PM UTC link Permalink

A peu près toutes les dernières phrases courtes en français que j'ai créées ont été mal identifiées comme des langues improbables : chavanaco, bavarois,...
Donc je soupçonne que c'est le faible échantillonnage de ces langues qui les fait être détectées comme candidates...

sacredceltic sacredceltic January 6, 2019 January 6, 2019 at 1:47:39 PM UTC link Permalink

cette phrase-ci vient d'être identifiée comme de l'émilien...
https://tatoeba.org/fra/sentences/show/7699792

{{vm.hiddenReplies[31062] ? 'expand_more' : 'expand_less'}} hide replies show replies
sacredceltic sacredceltic January 10, 2019, edited January 10, 2019 January 10, 2019 at 6:26:39 PM UTC, edited January 10, 2019 at 6:27:31 PM UTC link Permalink

Bon, là c’est de pire en pire : des phrases françaises assez longues sont reconnues comme de l’anglais (!) ou de l’interlingua.
Je pense qu’il ne peut s’agir que d’un canular...