menu
Tatoeba
language
Рэгістрацыя Уваход
language Беларуская
menu
Tatoeba

chevron_right Рэгістрацыя

chevron_right Уваход

Прагляд

chevron_right Show random sentence

chevron_right Прагляд па мовах

chevron_right Прагляд спісаў

chevron_right Прагляд па цэтліках

chevron_right Прагляд аўдыёзапісаў

Community

chevron_right Сцяна

chevron_right List of all members

chevron_right Languages of members

chevron_right Native speakers

search
clear
swap_horiz
search
sacredceltic sacredceltic 17 чэрвеня 2013 г. 17 чэрвеня 2013 г. у 17:55:17 UTC flag Report link Permalink

Je suggère un affinement de l'algorithme de reconnaissance de langue.
Ma phrase : « J'ignore exactement où. » a curieusement été identifiée comme de l'anglais.
Il faudrait à mon avis, en sus des séquences de (3 ou 4 ?) caractères, prendre en compte les jeux de caractères eux-mêmes, puisque la lettre « ù » ne peut pas figurer en anglais.
Mais aussi exclure les combinaisons impossibles. "J'" est impossible en anglais. Et je pense qu'une apostrophe devant un "i" l'est aussi...à confirmer...

{{vm.hiddenReplies[16928] ? 'expand_more' : 'expand_less'}} hide replies show replies
Shishir Shishir 17 чэрвеня 2013 г. 17 чэрвеня 2013 г. у 18:08:31 UTC flag Report link Permalink

+1

Ça m'est arrivé parfois d'écrire des questions en espagnol avec "¿" au début qui ont été identifiées comme anglais ou français...

sysko sysko 17 чэрвеня 2013 г. 17 чэрвеня 2013 г. у 18:42:09 UTC flag Report link Permalink

En fait il faudrait aussi que je remette à jour les données du serveur en production, il me semble qu'il est encore au statistiques d'il y a un an.

Le but est aussi d'avoir le code le plus simple possible / adaptable, donc je pense plutôt que dans le calcul du score, pour les langues ayant suffisamment de données, considéré que tous les "N-grams" possible y sont présent , et impliquer un score negatif si un n-gram d'une phrase a detecter n'est pas présent.

{{vm.hiddenReplies[16931] ? 'expand_more' : 'expand_less'}} hide replies show replies
sacredceltic sacredceltic 17 чэрвеня 2013 г. 17 чэрвеня 2013 г. у 19:50:14 UTC flag Report link Permalink

> En fait il faudrait aussi que je remette à jour les données du serveur en production, il me semble qu'il est encore au statistiques d'il y a un an.

C'est très vilain...enfin je ne t'en veux pas trop parce que je sais combien tu es occupé avec tout ça et je t'en remercie.

>Le but est aussi d'avoir le code le plus simple possible / adaptable, donc je pense plutôt que dans le calcul du score, pour les langues ayant suffisamment de données, considéré que tous les "N-grams" possible y sont présent , et impliquer un score negatif si un n-gram d'une phrase a detecter n'est pas présent.

Mais tes N-grams font-ils la différence entre un « u » et un « ù » ou un « ? » et un "¿" ?

Amastan se plaint que le berbère est confondu avec l'espagnol et le finnois alors que le berbère comporte la lettre spécifique "ɣ"...

sacredceltic sacredceltic 17 чэрвеня 2013 г. 17 чэрвеня 2013 г. у 19:53:30 UTC flag Report link Permalink

et j'ajoute que je suis très fervent des algorithmes les plus simples et que ton idée de statistiques de N-grams est brillante. Mais on peut ajuster...