menu
Tatoeba
language
Đăng ký Đăng nhập
language Tiếng Việt
menu
Tatoeba

chevron_right Đăng ký

chevron_right Đăng nhập

Duyệt

chevron_right Hiện câu ngẫu nhiên

chevron_right Duyệt theo ngôn ngữ

chevron_right Duyệt theo danh sách

chevron_right Duyệt theo thẻ

chevron_right Duyệt âm thanh

Cộng đồng

chevron_right Tường

chevron_right Danh sách thành viên

chevron_right Ngôn ngữ thành viên

chevron_right Người bản xứ

search
clear
swap_horiz
search
sacredceltic sacredceltic 17 tháng 6, 2013 17:55:17 UTC 17 tháng 6, 2013 flag Report link Permalink

Je suggère un affinement de l'algorithme de reconnaissance de langue.
Ma phrase : « J'ignore exactement où. » a curieusement été identifiée comme de l'anglais.
Il faudrait à mon avis, en sus des séquences de (3 ou 4 ?) caractères, prendre en compte les jeux de caractères eux-mêmes, puisque la lettre « ù » ne peut pas figurer en anglais.
Mais aussi exclure les combinaisons impossibles. "J'" est impossible en anglais. Et je pense qu'une apostrophe devant un "i" l'est aussi...à confirmer...

{{vm.hiddenReplies[16928] ? 'expand_more' : 'expand_less'}} ẩn câu trả lời hiển thị câu trả lời
Shishir Shishir 17 tháng 6, 2013 18:08:31 UTC 17 tháng 6, 2013 flag Report link Permalink

+1

Ça m'est arrivé parfois d'écrire des questions en espagnol avec "¿" au début qui ont été identifiées comme anglais ou français...

sysko sysko 17 tháng 6, 2013 18:42:09 UTC 17 tháng 6, 2013 flag Report link Permalink

En fait il faudrait aussi que je remette à jour les données du serveur en production, il me semble qu'il est encore au statistiques d'il y a un an.

Le but est aussi d'avoir le code le plus simple possible / adaptable, donc je pense plutôt que dans le calcul du score, pour les langues ayant suffisamment de données, considéré que tous les "N-grams" possible y sont présent , et impliquer un score negatif si un n-gram d'une phrase a detecter n'est pas présent.

{{vm.hiddenReplies[16931] ? 'expand_more' : 'expand_less'}} ẩn câu trả lời hiển thị câu trả lời
sacredceltic sacredceltic 17 tháng 6, 2013 19:50:14 UTC 17 tháng 6, 2013 flag Report link Permalink

> En fait il faudrait aussi que je remette à jour les données du serveur en production, il me semble qu'il est encore au statistiques d'il y a un an.

C'est très vilain...enfin je ne t'en veux pas trop parce que je sais combien tu es occupé avec tout ça et je t'en remercie.

>Le but est aussi d'avoir le code le plus simple possible / adaptable, donc je pense plutôt que dans le calcul du score, pour les langues ayant suffisamment de données, considéré que tous les "N-grams" possible y sont présent , et impliquer un score negatif si un n-gram d'une phrase a detecter n'est pas présent.

Mais tes N-grams font-ils la différence entre un « u » et un « ù » ou un « ? » et un "¿" ?

Amastan se plaint que le berbère est confondu avec l'espagnol et le finnois alors que le berbère comporte la lettre spécifique "ɣ"...

sacredceltic sacredceltic 17 tháng 6, 2013 19:53:30 UTC 17 tháng 6, 2013 flag Report link Permalink

et j'ajoute que je suis très fervent des algorithmes les plus simples et que ton idée de statistiques de N-grams est brillante. Mais on peut ajuster...