menu
تتويبا
language
سجّل لِج
language العربية
menu
تتويبا

chevron_right سجّل

chevron_right لِج

تصفح

chevron_right Show random sentence

chevron_right تصفح حسب اللغة

chevron_right تصفح حسب القائمة

chevron_right تصفح حسب الوسم

chevron_right تصفح ملفات الصوت

المجتمع

chevron_right الحائط

chevron_right قائمة بجميع الأعضاء

chevron_right لغات الأعضاء

chevron_right المتحدثون الأصليون

search
clear
swap_horiz
search

الحائط (٧٬٢٣٨ موضوعًا)

نصائح

قبل أن تسأل، تأكد من أنك قرأت الأسئلة الشائعة.

We aim to maintain a healthy atmosphere for civilized discussions. Please read our rules against bad behavior.

أحدث الرسائل subdirectory_arrow_right

Babelball

قبل أمس

subdirectory_arrow_right

TATAR1

قبل أمس

subdirectory_arrow_right

LeviHighway

قبل أمس

subdirectory_arrow_right

AlanF_US

قبل أمس

feedback

LeviHighway

قبل 3 أيام

subdirectory_arrow_right

LeviHighway

قبل 3 أيام

subdirectory_arrow_right

gillux

قبل 3 أيام

subdirectory_arrow_right

gillux

قبل 3 أيام

subdirectory_arrow_right

gillux

قبل 3 أيام

subdirectory_arrow_right

Babelball

قبل 4 أيام

قبل 10 أيام ١٢ نوفمبر ٢٠٢٥ ٢:٢٤:٣٥ م UTC link Permalink
warning

محتوى هذه الرسالة مخالف لقواعدنا ولذلك فقد أُخفي. يظهر المحتوى للمشرفين ولكاتب الرسالة فقط.

قبل 10 أيام ١٢ نوفمبر ٢٠٢٥ ١١:٣٠:٣٩ ص UTC link Permalink
warning

محتوى هذه الرسالة مخالف لقواعدنا ولذلك فقد أُخفي. يظهر المحتوى للمشرفين ولكاتب الرسالة فقط.

قبل 10 أيام ١٢ نوفمبر ٢٠٢٥ ٨:٤٥:٤٧ ص UTC link Permalink
warning

محتوى هذه الرسالة مخالف لقواعدنا ولذلك فقد أُخفي. يظهر المحتوى للمشرفين ولكاتب الرسالة فقط.

قبل 11 يومًا ١١ نوفمبر ٢٠٢٥ ١:٥٩:١٤ م UTC link Permalink
warning

محتوى هذه الرسالة مخالف لقواعدنا ولذلك فقد أُخفي. يظهر المحتوى للمشرفين ولكاتب الرسالة فقط.

قبل 11 يومًا ١١ نوفمبر ٢٠٢٥ ١١:٤٣:١٠ ص UTC link Permalink
warning

محتوى هذه الرسالة مخالف لقواعدنا ولذلك فقد أُخفي. يظهر المحتوى للمشرفين ولكاتب الرسالة فقط.

قبل 11 يومًا ١١ نوفمبر ٢٠٢٥ ٩:٤٠:٢٤ ص UTC link Permalink
warning

محتوى هذه الرسالة مخالف لقواعدنا ولذلك فقد أُخفي. يظهر المحتوى للمشرفين ولكاتب الرسالة فقط.

قبل 11 يومًا ١١ نوفمبر ٢٠٢٥ ٧:٥٨:٢٠ ص UTC link Permalink
warning

محتوى هذه الرسالة مخالف لقواعدنا ولذلك فقد أُخفي. يظهر المحتوى للمشرفين ولكاتب الرسالة فقط.

LeviHighway LeviHighway قبل 11 يومًا ١١ نوفمبر ٢٠٢٥ ٣:١٢:٥٧ ص UTC flag Report link Permalink

I wish the automatically generated traditional/simplified Chinese could be editable, because it sometimes isn't correct. I as an advanced contributor cannot edit them, I'm not sure if corpus maintainers can? it's not written on the wiki.

{{vm.hiddenReplies[41424] ? 'expand_more' : 'expand_less'}} أخفِ الردود أظهر الردود
gillux gillux قبل 11 يومًا ١١ نوفمبر ٢٠٢٥ ٥:١٧:٤٣ ص UTC flag Report link Permalink

There are plans to make the traditional/simplified Chinese script editable. You can follow the progress here https://github.com/Tatoeba/tatoeba2/issues/2007

sacredceltic sacredceltic قبل 16 يومًا ٥ نوفمبر ٢٠٢٥ ٦:٣٥:٣٨ م UTC flag Report link Permalink

On dirait que le fonctionnement des langues par défaut, pour les phrases insérées, a changé.
J'ai beau sélectionner "détection automatique", toutes les phrases que j'insère en anglais sont immédiatement identifiées comme des phrases en français, ce qui est parfaitement stupide.

{{vm.hiddenReplies[41393] ? 'expand_more' : 'expand_less'}} أخفِ الردود أظهر الردود
gillux gillux قبل 16 يومًا ٦ نوفمبر ٢٠٢٥ ١٠:٥٣:١٢ ص UTC flag Report link Permalink

Rien n’a changé à ce niveau, si ce n’est que le modèle sur lequel s’appuie la détection des langues est mis à jour chaque semaine sur la base du corpus de Tatoeba (modulo les phrases étiquetées @wrong flag). Le modèle n’est jamais été parfait, notamment sur les phrases courtes.

{{vm.hiddenReplies[41400] ? 'expand_more' : 'expand_less'}} أخفِ الردود أظهر الردود
LeviHighway LeviHighway قبل 15 يومًا ٧ نوفمبر ٢٠٢٥ ١:٥٠:٤١ م UTC flag Report link Permalink

Can I learn more about the model? When I add Mandarin sentences, the model always detect it to be Cantonese. I know Mandarin and Cantonese are extremely close, so I never use the Detect function at all.

{{vm.hiddenReplies[41412] ? 'expand_more' : 'expand_less'}} أخفِ الردود أظهر الردود
Thanuir Thanuir قبل 13 يومًا ٩ نوفمبر ٢٠٢٥ ٧:٣٠:٠٦ ص UTC flag Report link Permalink

Jos sinulla on isompi ja pienempi kieli jotka ovat hyvin samankaltaisia, ja lisäät lauseen pienempään, saattaa se olla algoritmin mielestä lähempänä isomman kielen lauseita.

Jos lauseessa on pienemmän kielen erityispiirteitä (joita suuremmassa ei ole), näin tapahtuu harvemmin.

{{vm.hiddenReplies[41414] ? 'expand_more' : 'expand_less'}} أخفِ الردود أظهر الردود
EugeneGS EugeneGS قبل 13 يومًا, edited قبل 13 يومًا ٩ نوفمبر ٢٠٢٥ ٩:١٣:٠٠ ص UTC, edited ٩ نوفمبر ٢٠٢٥ ١:٠٥:٣٩ م UTC flag Report link Permalink

Maybe there's also something wrong with the model architecture. I trained a few models myself — one on all Tatoeba data and one only on Mandarin and Cantonese — and both correctly detected about 97% of cases (checked on validation and full datasets).

What's strange is that the Tatoeba model seems to prefer Cantonese, even though it has fewer sentences than Mandarin.

Edit: I have tried another architecture with transformer layers (my first models had LSTM layers). After training on whole Tatoeba database it gave 82% accuracy.

{{vm.hiddenReplies[41415] ? 'expand_more' : 'expand_less'}} أخفِ الردود أظهر الردود
frpzzd frpzzd قبل 12 يومًا, edited قبل 12 يومًا ٩ نوفمبر ٢٠٢٥ ٥:٤٧:٥٩ م UTC, edited ٩ نوفمبر ٢٠٢٥ ٥:٤٨:٠٨ م UTC flag Report link Permalink

Is your model training/testing code available online anywhere? If so, I would love to take a look for my own edification, since I've been learning about such topics recently.

{{vm.hiddenReplies[41418] ? 'expand_more' : 'expand_less'}} أخفِ الردود أظهر الردود
EugeneGS EugeneGS قبل 12 يومًا ٩ نوفمبر ٢٠٢٥ ٩:٣٥:٢٢ م UTC flag Report link Permalink

I've uploaded it on GitHub. The code can be used for pretty much any text classification task.
I honestly didn't expect anyone to be interested, so I'm glad you asked! Some comments in the code might not be super helpful, but if anything's unclear, feel free to reach out via private messages.

https://github.com/kilsense/Tex...2f07/main/LSTM

LeviHighway LeviHighway قبل 12 يومًا ٩ نوفمبر ٢٠٢٥ ٨:٥٦:٥١ م UTC flag Report link Permalink

lol I correct myself, it's not *always* Cantonese, but it's pretty frequent. I noticed that most Cantonese sentences on Tatoeba are very long sentences, I guess that affected the model.

{{vm.hiddenReplies[41419] ? 'expand_more' : 'expand_less'}} أخفِ الردود أظهر الردود
Ooneykcall Ooneykcall قبل 12 يومًا ٩ نوفمبر ٢٠٢٥ ٩:٠٩:٣٩ م UTC flag Report link Permalink

I've noticed there are some weird accounts adding many, usually long, Cantonese sentences often as translations from other languages including Russian (that's why I noticed it), whose quality I suspect is questionable, but unfortunately there are no active native speakers of Cantonese at the moment that could be dealing with that.

gillux gillux قبل 11 يومًا ١١ نوفمبر ٢٠٢٥ ٥:١٤:٢٨ ص UTC flag Report link Permalink

Now you mention it, there could be a bias related to traditional/simplified characters. The model only considers the sentence script, not the autogenerated alternative script. As for Mandarin Chinese, 57% of sentences use simplified characters and 43% use traditional, while Cantonese only uses traditional.

Anyway, the language detector on Tatoeba is based on ngrams statistics, which is very old school compared to the technology available nowadays like transformers. Anybody is welcome to improve or even rewrite it https://github.com/Tatoeba/Tatodetect

قبل 12 يومًا ١٠ نوفمبر ٢٠٢٥ ٣:١٨:٣٨ م UTC link Permalink
warning

محتوى هذه الرسالة مخالف لقواعدنا ولذلك فقد أُخفي. يظهر المحتوى للمشرفين ولكاتب الرسالة فقط.