menu
Tatoeba
language
Rexistrarse Iniciar sesión
language Galego
menu
Tatoeba

chevron_right Rexistrarse

chevron_right Iniciar sesión

Navegar

chevron_right Show random sentence

chevron_right Navegar por lingua

chevron_right Navegar por listaxe

chevron_right Navegar por etiqueta

chevron_right Navegar por frases con son

Community

chevron_right Taboleiro

chevron_right List of all members

chevron_right Languages of members

chevron_right Native speakers

search
clear
swap_horiz
search
sacredceltic sacredceltic 17 de xuño de 2013 17:55:17 UTC do 17 de xuño de 2013 flag Report link Permalink

Je suggère un affinement de l'algorithme de reconnaissance de langue.
Ma phrase : « J'ignore exactement où. » a curieusement été identifiée comme de l'anglais.
Il faudrait à mon avis, en sus des séquences de (3 ou 4 ?) caractères, prendre en compte les jeux de caractères eux-mêmes, puisque la lettre « ù » ne peut pas figurer en anglais.
Mais aussi exclure les combinaisons impossibles. "J'" est impossible en anglais. Et je pense qu'une apostrophe devant un "i" l'est aussi...à confirmer...

{{vm.hiddenReplies[16928] ? 'expand_more' : 'expand_less'}} hide replies show replies
Shishir Shishir 17 de xuño de 2013 18:08:31 UTC do 17 de xuño de 2013 flag Report link Permalink

+1

Ça m'est arrivé parfois d'écrire des questions en espagnol avec "¿" au début qui ont été identifiées comme anglais ou français...

sysko sysko 17 de xuño de 2013 18:42:09 UTC do 17 de xuño de 2013 flag Report link Permalink

En fait il faudrait aussi que je remette à jour les données du serveur en production, il me semble qu'il est encore au statistiques d'il y a un an.

Le but est aussi d'avoir le code le plus simple possible / adaptable, donc je pense plutôt que dans le calcul du score, pour les langues ayant suffisamment de données, considéré que tous les "N-grams" possible y sont présent , et impliquer un score negatif si un n-gram d'une phrase a detecter n'est pas présent.

{{vm.hiddenReplies[16931] ? 'expand_more' : 'expand_less'}} hide replies show replies
sacredceltic sacredceltic 17 de xuño de 2013 19:50:14 UTC do 17 de xuño de 2013 flag Report link Permalink

> En fait il faudrait aussi que je remette à jour les données du serveur en production, il me semble qu'il est encore au statistiques d'il y a un an.

C'est très vilain...enfin je ne t'en veux pas trop parce que je sais combien tu es occupé avec tout ça et je t'en remercie.

>Le but est aussi d'avoir le code le plus simple possible / adaptable, donc je pense plutôt que dans le calcul du score, pour les langues ayant suffisamment de données, considéré que tous les "N-grams" possible y sont présent , et impliquer un score negatif si un n-gram d'une phrase a detecter n'est pas présent.

Mais tes N-grams font-ils la différence entre un « u » et un « ù » ou un « ? » et un "¿" ?

Amastan se plaint que le berbère est confondu avec l'espagnol et le finnois alors que le berbère comporte la lettre spécifique "ɣ"...

sacredceltic sacredceltic 17 de xuño de 2013 19:53:30 UTC do 17 de xuño de 2013 flag Report link Permalink

et j'ajoute que je suis très fervent des algorithmes les plus simples et que ton idée de statistiques de N-grams est brillante. Mais on peut ajuster...