留言板(7,297个话题)
小贴士
提问之前先确定已经阅读了常见问题解答。
We aim to maintain a healthy atmosphere for civilized discussions. Please read our rules against bad behavior.
LeviHighway
3小时前
kumakyoo
13小时前
frpzzd
14小时前
kumakyoo
14小时前
frpzzd
15小时前
soridsolid
15小时前
kumakyoo
17小时前
gregoryguy
1天前
AlanF_US
1天前
EugeneGS
1天前
Eine Woche Tatoeba
Aus anderen Projekten weiß ich, dass es interessant sein kann, wie es Neulingen dort geht. Bei Tatoeba bin ich so ein Neuling. Vor genau einer Woche bin ich über die Webseite gestolpert, als ich nach griechischen Audio-Dateien gesucht habe.
Die griechischen Audio-Dateien gibt es hier leider bislang nur theoretisch, aber die Idee, eine freie Datenbank mit Übersetzungen aufzubauen hat mir so gut gefallen, dass ich mich mehr mit Tatoeba beschäftigt habe. So sehr, dass ich meine Ausstiegs-Haltestelle beim Busfahren verpasst habe.
Als ich zu Hause war, habe ich mich registiert und ein paar Sätze aus den drei mir halbwegs geläufigen Fremdsprachen ins Deutsche übersetzt. Ich hatte auch bei den Vokalelwünschen geschaut und ein paar neue Sätze zu diesen Wünschen geschrieben. Hochmotiviert bin ich an diesem Abend ins Bett.
Am nächsten Tag wollte ich deutsche Audio-Dateien erstellen und habe mich gefragt, wie das bei Tatoeba wohl geht. Kann man direkt auf der Webseite einen Button drücken, um Texte aufzunehmen, oder muss man dies mit einem separaten Programm machen, um dann MP3-Dateien hochzuladen?
Keins von beidem, stellte sich heraus. Man kann überhaupt keine Audio-Dateien hochladen. Stattdessen muss man ein paar Proben an irgendeine E-Mail-Adresse schicken, wo diese erst mal geprüft werden. Und selbst wenn die Prüfung positiv ausfallen sollte, kann man immer noch nicht hochladen, sondern muss die Dateien weiterhin auf anderem Weg irgendwo hinschicken. Etwas viel Aufwand. Mich hat das abgescheckt.
Es wundert mich etwas, dass eine solche Webseite, die ja schon seit 20 Jahre existiert, keinen Audio-Upload hat. Naja, und mir wären verrauscht griechische Audio-Dateien deutlich lieber, als gar keine.
Womit ich in diesem Zusammenhang auch gerechnet hätte, war, dass es zu einem Satz mehr als eine Audio-Datei geben kann. Man kann ja ein und denselben Satz doch sehr unterschiedlich aussprechen. Aber das scheint nicht vorgesehen zu sein.
Am Freitag hatte ich dann mal GitHub angeschaut. Die Issues werden zeitnah kommentiert und es gibt nur wenige anhängige PRs. Das spricht dafür, dass es Leute gibt, die sich kümmern. Allerdings wird gewünscht, dass man sich hier erst einbringt, wenn man Tatoeba gut kennt und außerdem soll man vorher per Mail mit anderen Entwicklern Kontakt aufnehmen. Auch hier: Die Hürden, um sich einzubringen, sind höher, als ich erwartet hätte.
Am Samstag habe ich mir dann die Daten-Dumps angeschaut. Genau zur richtigen Zeit, denn am Samstag morgen kommen immer die neuen raus. Ich hab' mir einen davon runtergeladen, den mit den Verknüpfungen. Mich interessierte nämlich, wie die Sätze so zusammenhängen.
In meinem Kopf hat sich die Idee von so molekülartigen Strukturen festgestzt: Alle Sätze, die direkt oder indirekt miteinander verknüpft sind, bilden eine solche Struktur. Ich hab' diese einfach mal Glossaküle genannt.
Mit der Verknüpfungsdatei konnte ich herausfinden, dass es 532.257 Glossaküle gibt, die aus genau zwei Sätzen bestehen, 263.175, die aus drei Sätzen bestehen und so fort. Das größte Glossakül besteht aus 877.110 Sätzen. Einer davon ist beispielsweise der Satz 13693714.
Was man damit allerdings nicht herausbekommt, ist die Anzahl der Sätze, die gar keine Übersetzung haben. Mit Hilfe der erweiterten Suche kann man das aber herausfinden (alle Eingaben leer lassen, nur bei den Übersetzungen auf "Ohne Rücksicht auf" wechseln). Es sind 1.823.636 Stück.
Mit der Verknüpfungs-Datei habe ich noch etwas mehr herumgespielt.
Mich hat interessiert, wie so ein Glossakül aussieht. Ich hab' mir deswegen mal eines mit ca. 1000 Wörtern von Graphviz visualisieren lassen. (Das Bild würde ich auch gerne hier einfügen, aber ich glaube, man kann hier keine Bilder einfügen.) Naja, es bilden sich unterschiedlich große Cluster von Sätzen heraus, die eng zusammenhängen. Die Cluster selbst sind dann meist nur durch eine einzige Verknüpfung verbunden.
Ich habe mich dann auch gefragt, welches die beiden Sätze in so einem Glossakül sind, die am weitesten voneinander entfernt sind. Bei dem riesigen Glossakül mit 877.110 Sätzen sind es Satz 1471806 (הנה אמך באה.) und Satz 11573319 (Juliano revenos.) Zwischen diesen beiden Sätzen liegen 118 Übersetzungen und sie haben vor allem inhaltlich überhaupt nichts mehr miteinander zu tun.
Wenn man sich diese Übersetzungskette anschaut, dann gibt es immer mal wieder Übersetzungen, die zumindest auf den ersten Blick irritieren. Beispielsweise sind "Julien komt wel terug." und "Tomo revenos." benachbart. Warum wurde hier aus "Julien" plötzlich ein "Tomo"? Ich hab' bei GrizaLeono, der diese Verbindung eingebracht hat, mal nachgefragt: Er sagte mir, dass es in Tatoeba üblich sei, als männlichen Eigennamen immer "Tom" zu wählen, weshalb er alle männlichen Eigennamen mit "Tom" übersetzt.
Auffällig bei solchen Ketten ist auch die Sprache "Toki Pona", die ja schon irgendwie eine Tendenz dazu hat, alles etwas zu vereinfachen. So wird in der oben erwähnten Kette der Satz 353843 "Er ist mein Vater." via Toki Pona zum Satz 12742978 "She's my mother.", da in Toki Pona für alle Vorfahren das selbe Wort verwendet wird.
Am Sonntag hatte ich mir nochmal die Vokabelwünsche angeschaut. Die Wünsche, die ich dachte erfüllt zu haben, waren immer noch da. Das hat mich etwas stutzig gemacht. Ein Wunsch lautete "sich lustig machen". Ich hab' dann mal mit der Suche nach Sätzen, die diese drei Wörter enthalten, gesucht. Es gibt inzwischen 226 Sätze mit "sich lustig machen". Auf der Seite mit den Vokabelwünschen steht, es gäbe davon keinen. Vermutlich, weil dort nur nach der genauen Phrase "sich lustig machen" gesucht wird. Es gibt aber kaum sinnvolle deutsche Sätze mit dieser Infinitiv-Form. Da wird man vergeblich warten.
In der Liste stehen auch etliche Wörter, die einfach nur falsch geschrieben sind (freunde (korrekt: Freunde), siben (korrekt: sieben), tandempartener (korrekt: Tandempartner), Glük (korrekt: Glück)), und dann auch welche, die kein (korrektes) Deutsch sind (xemgîn, ramponiertet). Naja, und dann steht da noch "Roggenbrotfeld". Das ist schon ein deutsches Wort, aber es ergibt keinen rechten Sinn. Das Wort beschreibt einen Acker, auf dem Roggenbrote wachsen. Vielleicht im Schlaraffenland, aber da hat man auch eher andere Vorstellungen, was da dann so wächst. Hintergrund: Man kann im Deutschen nahezu beliebig Hauptwörter aneinanderreihen und damit neue Wörter schaffen, aber natürlich ergibt nicht jede Kombination einen Sinn.
Alles in allem, die Liste müsste dringend mal aufgeräumt werden. Leider gibt es noch nicht einmal eine Möglichkeit, zu einem Vokabelwunsch einen Kommentar abzugeben...
Zuletzt habe ich noch nach der Community gesucht. So richtig fündig bin ich nicht geworden, sowas wie ein Forum, eine Mailingliste oder eine Signal-Gruppe gibt es wohl nicht. An mehreren Stellen war allerdings vom "wall" die Rede. Es dauerte etwas, bis mir klar geworden ist, dass damit diese "Pinnwand" hier gemeint ist. Die war für mich am ersten Tag recht unattraktiv, bestand sie doch fast nur aus gelöschten Einträgen und etwas Rumgealbere, wenn ich das mal so nennen darf. Erst gestern kamen zwei etwas seriösere Beiträge rein.
Heute habe ich dann noch einen Satz adoptiert um die ersten 100 Sätze voll zu machen.
Mein Fazit: Eine interessante Webseite. Sie hat etwas viel Potential, dass man sich mit den Sätzen immer wieder im Kreis dreht und im Grunde genommen ständig das Gleiche schreibt. In einigen Bereichen sind mir die Hürden für eine aktive Beteiligung zu hoch. Und mir fehlt die Community. Aber spannend finde ich es trotzdem, herauszufinden, was man mit dieser Datenbank noch so alles machen kann. Mal sehen.
Hallo @kumakyoo,
Ich freue mich auf Ihre Interesse. Sie haben viele Defizite der Tatoeba-Webseite in Ihrer Nachricht getroffen, die auch mir längst aufgefallen sind, obwohl ich ja kein Tatoeba-Veteran wie manche Leute hier bin. ;-)
Ich wollte kurz mal diese Schwachpunkte hier zusammenfassen, da Sie oben echt einen ganzen Aufsatz geschrieben haben:
1) zu viel Aufwand, Audio hochzuladen
2) keine Möglichkeit, mehrere Audio-Dateien mit einem Satz zu verbinden
3) Kontroversen über die Behandlung von Eigennamen
4) falsche Vokabelwünsche
5) falsche/unvollständige Behandlung von Mehrwortvokabelwünschen
6) zu viele ähnliche Sätze
7) gelöschte (Spam-)Einträge am Wall
8) Mangel an Community (?)
und auf Englisch auch:
1) too large of a barrier for uploading audio
2) no option to link multiple audio files with a sentence
3) controversy about the handling of proper names
4) incorrect vocabulary requests
5) incorrect/incomplete handling of multi-word vocab requests
6) too many similar sentences
7) deleted (spam) wall posts
8) lack of community (?)
Jetzt versuche ich, relevante Links und auch einige eigene Meinungen zu diesen Themen mitzuteilen.
1) Ich bin der gleichen Meinung, und ich hätte selbst längst Audioaufnahmen hochgeladen wenn es nicht so viel Mühe kostete. Der Lingua-Libre-Projekt könnte Sie interessieren: https://lingualibre.org/wiki/LinguaLibre:Main_Page
2) Ich bin mir überhaupt nicht ganz sicher ob diese Funktion existiert oder nicht, aber ich glaube eigentlich, davon gehört zu haben...
3) Das ist wohl eine große Kontroverse hier. Einige Benutzer weigern sich sowohl, Sätze mit den Eigennamen "Tom" oder "Mary" zu übersetzen.
4) Diese Github-Issue ist relevant: https://github.com/Tatoeba/tatoeba2/issues/1473
6) Die Analyse in dieser Github-Issue werden Sie wahrscheinlich interessant finden: https://github.com/Tatoeba/tatoeba2/issues/2816
7) Tatoeba hat wohl große Schwierigkeiten mit Spam-Accounts und Spam-Einträge und die gelöschte Einträge, die Sie am Wall finden, sind meistens von den Moderatoren entfernte Spam/Werbungen von SEO/Marketing-Accounts. Gillux (der ein Entwickler für Tatoeba ist) hat sich öfters am Wall dazu geäußert. Es scheint, als ob die mögliche Anti-Spam-Maßnahmen etwas beschränkt wegen Barrierefreiheit sind.
8) Hier bin ich bestimmt einer anderen Meinung. Ich finde, Tatoeba hat eine ganz tolle Community. Wie kann man überhaupt die Tatoeba-Community nach nur eine Woche verurteilen? ;-) Jedenfalls würde ich es auch gut finden, wenn es ein Mailing-List, eine aktive Telegram/XMPP/IRC-Gruppe oder so was gäbe.
Außerdem, was Ihre "Glossaküle" angeht, könnte Sie diese Analyse von deniko interessieren. Der nennt diese Satzversammlungen "Tatoeba clouds", und er hat die gleiche Eigenschaft von Toki Pona gemerkt:
https://tatoeba.org/en/wall/sho...#message_41200
> Wie kann man überhaupt die Tatoeba-Community nach nur eine Woche verurteilen? ;-)
Oh, ich wollte die Community nicht verurteilen. Ich habe sie nur nicht gefunden...
Haha, Entschuldigung, vielleicht war das Wort "verurteilen" zu stark, mir fehlt oft die Intuition für anpassende Wortwahl, da ich kein Muttersprachler von Deutsch bin. Jedenfalls finde ich, Tatoeba hat eine sehr nette und aktive Community, aber alles auf dieser Webseite ist eher auf den Sätzen selbst als auf Benutzerbeziehungen zentriert. Deshalb dauert es eine Weile, bis man andere Benutzer ein bisschen besser kennenlernt, da das meistens durch Satzkommentare/Satzkorrekturen stattfindet. :-)
Vermutlich hattest du an "beurteilen" gedacht. Das passt deutlich besser. :-)
By the way: Danke dir für die vielen interessanten Links!
中日韓也像德語一樣可以隨意組合名詞構成複合詞。由於中文和日文是沒有單字邊界 (空格) 的語言,所以只要相同的字串出現在句子中,系統就會判定為「包含該詞彙項的句子」。韓文雖然有空格,但是也是按照中文和日文的邏輯來的,因為韓文是黏著語,所以每個詞後面的後綴可以有無數種可能,比如「학교」(學校) 一詞,可以有「학교에」(狀語)、「학교는」(主語)、「학교를」(賓語) 等形式,想要包含全部的情況是不現實的。所以,以同樣的邏輯處理韓文,複合詞的問題也可以得到解決,比如韓文的小學是「초등학교」,系統會判定這個詞包含「학교」。
這種處理方式也有斷詞問題,比如「초등학교」,系統會判定這個詞包含「등」,但實際上這個詞是「초등」+「학교」,而「등」是韓文中表示省略的字。
但總體而言,這種處理方式在中日韓三種語言中效果還不錯,主要是因為這三種語言都有著兩千個以上的各不相同的常用字元。如果德文也套用同樣的機制,恐怕斷詞問題會更多。
Prompted by gregoryguy's and AlanF_US's discussion:
For some users on here (I won't mention any names...) an exorbitant amount of contributions are in a language they do not speak fluently. Almost every sentence they add is flagged ''needs native check'' and needs correction/rewriting. Now, I don't want to discourage anyone, and I definitely wouldn't like even more barriers to be implemented, but how can Tatoeba serve as a learning tool for OTHERS when it's being used a haphazard learning tool by its own users?
Hi everyone! I have a small request for all the Tatoeba users. Please adopt the newest sentences without an owner. I add sentences in English, Turkish, Spanish and Ukrainian which are not my native languages. I "unadopt" them so that native speakers could own them. I think there's a lot of contributors who do the same. It's the way we practice foreign languages and that's how you can help us. Thank you! <3
Hi, @gregoryguy!
The page "Contributing in a language that is not your strongest" ( https://en.wiki.tatoeba.org/art...ow/non-native# ) says that the sentences that a Tatoeba contributor can create that will have the most value for everybody will be in their native (strongest) language, but that they can also write sentences in another language as long as they know it very well. It describes how to avoid creating more incorrect sentences than others can fix.
You must have unadopted all your English sentences because you are not listed as the owner of any. I'm not aware of an easy way for a user to find them among all the unadopted sentences. Even an advanced search for orphan sentences linked to sentences you own only found one hit, and that wasn't a sentence you wrote. Here's the search I did:
https://tatoeba.org/en/sentence...rd_count_min=1
As I've seen (after changing English to Spanish or Any language in your search), most of gregoryguy's English sentences are already adopted by frpzzd.
I see. Thanks for pointing that out. I see now that on his profile page, he has links to searches for his unadopted sentences (though those search queries don't show existing translations).
Good morning, gentlemen! Thank you for joining the conversation!
First of all, my English sentences are all already adopted indeed. However, Spanish and Turkish sentences are hardly adopted by anyone so I hope to find native speakers of these two languages.
Also I want to emphasize that I'm not the only one who unadopts their sentences in foreign languages. My request is more general—I ask people to adopt sentences without an owner in every language, and not one time but regularly. And I expect that my sentences will be adopted as a part of the whole massive of unadopted sentences, that's the point.
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
Aseggas ameggaz 2976 ! Bonne année 2026 !
À l’occasion de la nouvelle année amazighe, je souhaite adresser mes vœux les plus sincères aux contributeurs du projet Tatoeba. Un hommage tout particulier à celles et ceux qui enrichissent avec rigueur et passion les corpus berbères (KAB, BER, SHI, ZGH,RIF,...) Votre travail est précieux, il préserve, valorise et transmet une richesse linguistique et culturelle inestimable.
Que l’année 2976 soit porteuse de continuité, de partage et de belles réussites collectives.
La France souhaite à chacun d'entre vous une excellente année 2️⃣ 0️⃣2️⃣6️⃣. 🎉🥳🍾
La France = felix63
La France, c’est felix63 ?
La France est-elle felix63 ?
La France, c'est la France. :-)
L'état, c'est toi. :-)
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。