Duvar (7.268 konu)
Öneriler
Soru sormadan önce SSS'yi okuduğunuzdan emin olun.
Seviyeli tartışmalar için sağlıklı bir atmosfer yaratmayı amaçlıyoruz. Lütfen kötü davranışlara karşı kurallarımızı okuyun.
frpzzd
3 saat önce
Igider
4 saat önce
small_snow
dün
AlanF_US
2 gün önce
small_snow
2 gün önce
LeviHighway
2 gün önce
small_snow
2 gün önce
AlanF_US
2 gün önce
Igider
3 gün önce
AlanF_US
3 gün önce
🥂 𝐋𝐀𝐍𝐂𝐄𝐌𝐄𝐍𝐓 𝐓𝐀𝐓𝐎𝐊𝐀𝐁 🎉
____________________________________
Annonce - 𝐋𝐚𝐧𝐜𝐞𝐦𝐞𝐧𝐭 𝐨𝐟𝐟𝐢𝐜𝐢𝐞𝐥 𝐝𝐞 𝐓𝐚𝐭𝐨𝐊𝐚𝐛.𝐧𝐞𝐭 - 𝐩𝐥𝐚𝐭𝐞𝐟𝐨𝐫𝐦𝐞 𝐝𝐞 𝐜𝐨𝐫𝐩𝐮𝐬 𝐝𝐞é𝐝𝐢é𝐞 à 𝐥𝐚 𝐥𝐚𝐧𝐠𝐮𝐞 𝐤𝐚𝐛𝐲𝐥𝐞
____________________________________
Nous avons le plaisir d’annoncer que ce lundi 8 décembre 2025, l’Académie kabyle 𝐓𝐚𝐤𝐚𝐝𝐢𝐦𝐢𝐭 𝐓𝐚𝐪𝐯𝐚𝐲𝐥𝐢𝐭 lance officiellement TatoKab.net, une plateforme collaborative de collecte, traduction et gestion de phrases destinée à constituer un corpus multilingue, centré sur la langue kabyle (ISO 639-3 : kab).
Cette version de l’annonce est localisée en anglais, mais sera prochainement disponible également en français et en kabyle, éventuellement en espagnol.
____________________________________
𝐔𝐧𝐞 𝐩𝐥𝐚𝐭𝐞𝐟𝐨𝐫𝐦𝐞 𝐢𝐧𝐬𝐩𝐢𝐫𝐞́𝐞 𝐝𝐞 𝐓𝐚𝐭𝐨𝐞𝐛𝐚, 𝐦𝐚𝐢𝐬 𝐫𝐞𝐩𝐞𝐧𝐬𝐞́𝐞 𝐩𝐨𝐮𝐫 𝐥𝐞 𝐓𝐀𝐋𝐍 𝐤𝐚𝐛𝐲𝐥𝐞
TatoKab.net reprend le modèle collaboratif de Tatoeba, auquel nous contribuons depuis huit ans, tout en recentrant entièrement la logique de corpus sur :
🇮🇨 le kabyle (langue principale et prioritaire),
🇨🇵 le français,
🇬🇧 l’anglais,
🇪🇸 l’espagnol.
L’objectif est de produire un corpus propre, aligné, stable, exportable, directement exploitable pour l’IA, la linguistique computationnelle, l’enseignement et la recherche.
Le logo associe le design de Tatoeba aux couleurs du drapeau kabyle, tout en assumant la spécificité graphique kabyle, notamment le caractère “v”. Dans le "Help" s'y trouvent :
🔴 Un alphabet exhaustif avec la phonétique kabyle,
🔴 Une charte linguistique détaillant les règles grammaticales, morphosyntaxiques, orthographiques et méthodologie de néologisation,
🔴 Une notice d'utilisation interactive,
🔴 Un lexique utile.
____________________________________
𝐒𝐲𝐧𝐭𝐚𝐱𝐞 𝐧𝐚𝐭𝐮𝐫𝐞𝐥𝐥𝐞 𝐤𝐚𝐛𝐲𝐥𝐞 𝐞𝐭 𝐜𝐨𝐧𝐬𝐨𝐥𝐢𝐝𝐚𝐭𝐢𝐨𝐧 𝐧𝐨𝐫𝐦𝐚𝐭𝐢𝐯𝐞
Le projet insiste sur :
🔘 Une syntaxe kabyle authentique, fidèle aux usages naturels ;
🔘 Une morphosyntaxe stabilisée, respectant la valence verbale et les constructions natives ;
🔘 Une rigueur destinée à éviter les corpus hybrides et à préparer la génération de modèles IA spécifiquement kabyles.
____________________________________
𝐀𝐫𝐜𝐡𝐢𝐭𝐞𝐜𝐭𝐮𝐫𝐞 𝐬é𝐜𝐮𝐫𝐢𝐬é𝐞 𝐞𝐭 𝐭𝐞𝐜𝐡𝐧𝐨𝐥𝐨𝐠𝐢𝐞𝐬 𝐝𝐞 𝐩𝐨𝐢𝐧𝐭𝐞
La plateforme repose sur :
🟢 Des technologies robustes (React, TypeScript, PostgreSQL...),
🟢 Des bibliothèques mises à jour en continu,
🟢 Une architecture pensée pour la scalabilité, la sécurité et la pérennité,
🟢 Des modules IA intégrés pour l’aide à la correction, la détection d’incohérences et l’automatisation de tâches.
____________________________________
𝐄𝐱𝐩𝐨𝐫𝐭 𝐝𝐮 𝐜𝐨𝐫𝐩𝐮𝐬 𝐞𝐧 𝐟𝐨𝐫𝐦𝐚𝐭𝐬 𝐨𝐮𝐯𝐞𝐫𝐭𝐬
👉Le corpus pourra être exporté librement sous licence "CC0" : (CSV et JSON) pour le texte, MP3 pour les enregistrement vocaux.
____________________________________
𝐂𝐨𝐥𝐥𝐚𝐛𝐨𝐫𝐚𝐭𝐢𝐨𝐧 𝐛𝐞́𝐧𝐞́𝐯𝐨𝐥𝐞 𝐞𝐭 𝐞́𝐜𝐨𝐬𝐲𝐬𝐭𝐞̀𝐦𝐞 𝐨𝐫𝐠𝐚𝐧𝐢𝐬𝐞́
La participation nécessite une maîtrise minimale de la grammaire kabyle.
Trois niveaux structurent la communauté :
🛠️ Administrateurs
🛠️ Modérateurs
🛠️ Collaborateurs
Des outils de motivation sont intégrés :
📊 statistiques en temps réel,
📊podium,
📊 badges de contribution,
📊 suivi individuel et global.
____________________________________
𝐋𝐨𝐜𝐚𝐥𝐢𝐬𝐚𝐭𝐢𝐨𝐧 𝐞𝐧 é𝐯𝐨𝐥𝐮𝐭𝐢𝐨𝐧
Au lancement, l’interface sera en anglais.
Suivront progressivement les locales :
🇮🇨 kabyle,
🇨🇵 français.
Les évolutions prévues incluent :
➕ Un moteur de recherche avancé.
➕ Un mode lexicographique.
➕ Aide à la correction des mots et phrases Kabyles.
➕ Des modules pédagogiques.
____________________________________
𝐎𝐮𝐯𝐞𝐫𝐭𝐮𝐫𝐞 𝐨𝐟𝐟𝐢𝐜𝐢𝐞𝐥𝐥𝐞 – 𝐋𝐮𝐧𝐝𝐢 8 𝐝é𝐜𝐞𝐦𝐛𝐫𝐞 𝟐𝟎𝟐𝟓
Nous invitons l’ensemble des chercheurs, lides linguistesspécialistes du TALN, développeurs IA, enseignants et passionnés de la langue kabyle à rejoindre cette initiative structurante.
TatoKab.net se veut un socle scientifique durable pour les technologies linguistiques kabyles.
____________________________________
𝗧𝗔𝗞𝗔𝗗𝗜𝗠𝗜𝗧 𝗧𝗔𝗤𝗩𝗔𝗬𝗟𝗜𝗧
NB : Nous communiquerons régulièrement les statistiques et les mises à jour importantes.
Interesting! I hope this doesn't mean you won't be contributing on Tatoeba anymore, though...
I find your website a little confusing:
- It seems like the only way to get to the help/documentation is by clicking on "Terms and Conditions" at the bottom, which is unintuitive.
- I don't see a way to export the data to CSV/JSON - does this function exist yet?
- There is no text-only option for learning how to add sentences, only a strange "Arcade" video/animation. I think this is a big accessibility problem.
Of course, since I'm not a Kabyle native speaker, I would not be contributing on your site anyways. But I thought you might appreciate some feedback. :-)
Do you plan on making tatokab.net open-source? I'm also curious whether this site was "vibe coded" using an AI coding agent.
Should punctuation marks be counted in the character count? In Chinese, for example, in Word, each punctuation mark counts as one character (and when we wrote essays as students, punctuation was also included in the character count). On Tatoeba, the Chinese enumeration comma (、) and period (。) are counted as one character, but question marks (?), exclamation marks (!), colons (:), and semicolons (;) are not counted. I think the Chinese counting standard should be improved.
Additionally, since search engines do not ignore Chinese periods, when searching for "瑪莉"$, only results like "……瑪莉?" can be obtained, while "……瑪莉。" cannot be found. This should be considered a bug.
標點符號是否應該計入字數?就中文而言,在 Word 中,每個標點符號都會記作一個字 (而且我們在學生時代寫作文時標點符號也是都計入字數的)。在 Tatoeba 上,頓號 (、) 和句號 (。) 會計作一個字,但是問號 (?)、驚嘆號 (!)、冒號 (:)、分號 (;) 都是不計入字數的。我覺得應該完善一下中文的計數標準。
另外,由於搜尋引擎不忽略中文的句號,所以當搜尋「"瑪莉"$」時只能得出「……瑪莉?」的結果,「……瑪莉。」是搜尋不到的。這應該屬於 Bug。
句読点は文字数に含めるべきでしょうか。中国語の場合、Wordではすべての句読点が1文字としてカウントされます(学生時代に作文を書くときも、句読点は文字数に含まれていました)。Tatoebaでは、読点(、)や句点(。)は1文字としてカウントされますが、疑問符(?)、感嘆符(!)、コロン(:)、セミコロン(;)は文字数に含まれません。中国語の文字数カウントの基準は改善すべきだと思います。
また、検索エンジンが中国語の句点を無視しないため、「"瑪莉"$」を検索すると「……瑪莉?」の結果しか出ず、「……瑪莉。」は検索されません。これはバグに該当すると思われます。
この件は日本語にも関係があるので、@small_snow さんにも確認をお願いしたいです。
申し訳ございませんが、日本語を読む限りでは、何を問われているのかよくわからないので、ご返信を致しかねます。
説明が不十分で失礼しましたが、こちらから謝罪する必要はありません。[詳細検索] では、[単語数 or 文字数] を指定できます。しかし、中国語や日本語の場合、読点(、)と句点(。)は1文字としてカウントされる一方で、ほとんどの句読点は文字数として扱われません。そのため、[ソート] の [順番] を [短い文から] にすると、これらの句読点の扱いによって検索結果の文の長さがばらついてしまいます。
さらに、Tatoeba Wiki(https://ja.wiki.tatoeba.org/art...kisuto-kensaku )によれば、「検索したい文字列の最後にドル記号($)を付けた場合は、その文字列で終わる文を検索します。次の検索文字列は、"Tom"で終わる英文を検索結果に表示します」とあります。
しかし、中国語や日本語で「"湯姆"$」や、日本語でよく使う「"ます"$」「"でしょう"$」などを検索しても、文末に句点が入っている例文はヒットしません。これは検索仕様として実用性に欠けていると思いますが、あなたは改善すべきだと考えますか?
うまく説明できていれば幸いです。
>こちらから謝罪する必要はありません。
先の私のコメントで謝罪は求めておりませんので誤解なきようお願いいたします。
>中国語や日本語の場合、読点(、)と句点(。)は1文字としてカウントされる一方で、ほとんどの句読点は文字数として扱われません。
まず、英語で表現するPunctuationには、ピリオドやコンマの他にコロンやセミコロンが含まれますが、日本語で表現する「句読点」は「読点(、)」と「句点(。)」のみです。その他の「?」や「!」は句読点には含まれません。単なる「記号」です。
また、多くのシステムで「?」「!」「*」「$」などは特殊文字として扱われます。Tatoebaで使っている検索エンジン(Manticore)も同様で、Tatoeba Wikiにも
下記のように書かれています。
(1) Punctuation marks like ? and ! have special purposes in our search engine (Manticore, previously Sphinx). If you don't want to use those special functions, you should leave them out.
そのため、そのあたりのカウントについては検索エンジン(Manticore)の仕様によるものだと思っていますので個人的には疑問は持っていません。
>これらの句読点の扱いによって検索結果の文の長さがばらついてしまいます。
そのばらつきによる弊害はいかほどでしょうか?場合によっては、文をダウンロードして適切なAPPで処理されるのも1つの方法だと思います。
>しかし、中国語や日本語で「"湯姆"$」や、日本語でよく使う「"ます"$」「"でしょう"$」などを検索しても、文末に句点が入っている例文はヒットしません。
検索する文字列が間違っていると思います。文末に句点が入っている例文をヒットさせるには検索文字列に下記を入力されるといいと思います。
"ます。$"
https://tatoeba.org/ja/sentence...%80%82$%22&to=
"でしょう。$"
https://tatoeba.org/ja/sentence...%80%82$%22&to=
>これは検索仕様として実用性に欠けていると思いますが、あなたは改善すべきだと考えますか?
私は特に不便を感じていないので、改善要求を出したいとは思っていません。
以上です。よろしくお願いいたします。
ご返信ありがとうございます。私は日本人ではないので、あなたに「申し訳ございません」と言われると少し罪悪感がありますが、今回は単なる誤解なので、あまり気にしないでください(笑)。
私は、文末が「でしょう!」「でしょう?」「ですか?」などで終わる場合がよくあるため、「"でしょう。$"」のように検索しても、必要な文をすべて拾うことができない点が問題だと思っています。
そのため、検索エンジンが句読点を無視する仕様にすれば、「"でしょう"$」で「でしょう!」「でしょう?」といったすべてのパターンを検索できるようになり、より実用的になるのではないかと考えています。
文字数に関してですが、日本では学校で作文を書くとき、文字数はどのように数えるのでしょうか。漢字、仮名(小さい仮名も含む)、句読点、その他の記号もすべて1文字としてカウントされるのか、それとも別の数え方があるのでしょうか。
>そのため、検索エンジンが句読点を無視する仕様にすれば、「"でしょう"$」で「でしょう!」「でしょう?」といったすべてのパターンを検索できるようになり、より実用的になるのではないかと考えています。
LeviHighwayさんは誤解されています。
次の2つの検索パターンは同じ結果になります。
"でしょう"$
https://tatoeba.org/ja/sentence...rd_count_min=1
"でしょう"
https://tatoeba.org/ja/sentence...rd_count_min=1
注意深く結果をご覧いただければお分かりいただけると思いますが「"でしょう"$」も「"でしょう"」も文中に「"でしょう"」を含む文を結果としてかえしているだけです。(本当にその検索の必要性を感じていますか?)
また、下記の検索文字列を利用することでLeviHighwayさんが望まれている結果が出力されます。
"でしょう。$"|"でしょう$"
https://tatoeba.org/ja/sentence...rd_count_min=1
なお、1週間前に同じような内容のトピが立っているようですが、AlanF_USさんがおっしゃるっている通りだと思います。
https://tatoeba.org/ja/wall/sho...#message_41480
I think that only @gillux is going to be able to resolve this discussion, either here or on GitHub, where @Guybrush88 has already linked to this thread.
Thank you, Alan, @Guybrush88
時流さん、任せた!よろしくお願いいたします。
Bu mesajın içeriği kurallarımızla ters düşmektedir ve bu nedenle gizlenmiştir. Sadece yöneticiler ve mesajın sahibi görebilir.
Bu mesajın içeriği kurallarımızla ters düşmektedir ve bu nedenle gizlenmiştir. Sadece yöneticiler ve mesajın sahibi görebilir.
Hi everyone,
I have tried to use the sentence export page on Tatoeba, but unfortunately, I am not managing to do it correctly. Could someone please help me download the following data (preferably as a CSV file, zipped or not)?
1. All Kabyle sentences
—with their translations in French, English, and Spanish,
—and with an audio recording attached.
2. All original Kabyle sentences that:
—do not have translations,
—do not have audio recordings,
—but without duplicated sentences if possible.
Any help, guidance, or explanation on how to extract these properly would be greatly appreciated.
Thank you very much in advance!
Igider
Dowload
https://tatoeba.org/en/downloads
Advanced search:
https://tatoeba.org/en/sentences/advanced_search
I think that you need to download sentences for each language in separate files, then download connections file and after that you need to use some graph tools to connect sentences (example NetworkX for Python).
Note first of all that you are talking about a language with more than 777,000 sentences, and working with such a large set of sentences is going to require scripting/programming not just for the downloading of the sentences, and not just for the selection of the subset you want, but also for the management of those sentences on your side.
The download page lets you download the following with the click of a button:
- all sentences in language A with translations in language B
- all sentences in language A
- all sentences in language A that have audio (but not the audio itself, which can only be downloaded if it the license says so, and needs to be downloaded via a URL; this is explained on the downloads page)
Another alternative, as the page says, is to produce a list of sentences, which can then be downloaded. However, this is impractical with the number of sentences you'd be dealing with.
Without scripting/programming knowledge, you could do three downloads, consisting of all Kabyle sentences translated into French, English, and Spanish, respectively. This would give you TSV files (tab-separated rather than comma-separated) containing the sentences and translations. (For reference, the one for French would be 17.8 MB in size and contain more than 200,000 entries.) This is not what you asked for, but it's probably the best you can do without scripting/programming. Otherwise, the help you need is most likely going to go beyond what can be provided on the Wall.
Thank you for your reply.
Since obtaining the full dataset is not practical through the current process, would you kindly provide at least the audio files related to the Kabyle sentences?
That alone would already be extremely helpful, and I would greatly appreciate your assistance with this.
Thank you again.
In the section "Sentences with audio", the Downloads page says this:
---
File description:
Contains the ids of the sentences, in all languages, for which audio is available. Other fields indicate who recorded the audio, its license and a URL to attribute the author. If the license field is empty, you may not reuse the audio outside the Tatoeba project.
Downloading audio:
A single sentence can have one or more audio, each from a different voice. To download a particular audio, use its audio id to compute the download URL. For example, to download the audio with the id 1234, the URL is https://tatoeba.org/audio/download/1234.
---
You can use a tool like wget to download files once you know the URLs.
If that information is not enough to get you started, see if you can find someone on your side who has the technical knowledge to do this.
Bu mesajın içeriği kurallarımızla ters düşmektedir ve bu nedenle gizlenmiştir. Sadece yöneticiler ve mesajın sahibi görebilir.
Bu mesajın içeriği kurallarımızla ters düşmektedir ve bu nedenle gizlenmiştir. Sadece yöneticiler ve mesajın sahibi görebilir.
Bu mesajın içeriği kurallarımızla ters düşmektedir ve bu nedenle gizlenmiştir. Sadece yöneticiler ve mesajın sahibi görebilir.
Bu mesajın içeriği kurallarımızla ters düşmektedir ve bu nedenle gizlenmiştir. Sadece yöneticiler ve mesajın sahibi görebilir.
Bu mesajın içeriği kurallarımızla ters düşmektedir ve bu nedenle gizlenmiştir. Sadece yöneticiler ve mesajın sahibi görebilir.