Wall (7,346 threads)
Petua
Sebelum anda bertanya soalan, pastikan anda baca FAQ.
We aim to maintain a healthy atmosphere for civilized discussions. Please read our rules against bad behavior.
AlanF_US
2 days ago
AlanF_US
2 days ago
kumakyoo
2 days ago
CK
2 days ago
LeviHighway
2 days ago
AlanF_US
3 days ago
LeviHighway
3 days ago
kumakyoo
3 days ago
kumakyoo
3 days ago
LeviHighway
3 days ago
The content of this message goes against our rules and was therefore hidden. It is displayed only to admins and to the author of the message.
The content of this message goes against our rules and was therefore hidden. It is displayed only to admins and to the author of the message.
As a result of kumakyoo's recent comment about the many Greek sentences that need correction, I've been taking a look at the ones tagged "@change". I see that a user who is no longer active marked a large number of sentences "@change" but never left comments explaining the changes that should be made.
If you mark a sentence "@change", please also leave a comment explaining how it should be changed unless it's obvious even to someone who doesn't speak the language (especially important if the language isn't spoken by any administrators or corpus maintainers). And in general, if you embark on a task that involves a large amount of effort on your part but also some action on someone else's, give some thought to how to make sure that others can pick up where you left off.
Finally, a specific request: If you speak Greek, please consider going through the sentences that are tagged "@change" and adding comments to explain the necessary changes where they aren't already spelled out. Here's a list of Greek sentences marked "@change":
https://tatoeba.org/en/tags/sho...&direction=asc
Note the discussion on sentence #2429711.
Would you also be interested in correcting Mandarin sentences? I can provide the necessary information for those. Before that, I’d like to clarify something: would you only correct obvious issues such as punctuation, or would you also make changes involving grammar mistakes, typos, or semantic errors that you may not be familiar with?
The situation for Mandarin is quite different from the one for Greek:
- Mandarin has a corpus maintainer (who has been active within the past month). Greek doesn't.
- The comments on the Greek sentences are mostly in English, which I speak, while the ones on the Chinese sentences are not.
- The comments on the Greek sentences mostly indicate straightforward problems with capitalization, punctuation, and spelling. Many of the comments on the Mandarin sentences are about naturalness. Not only am I not qualified to deal with such questions, but there can be reasonable disagreement between members on the subject (and on the related subject of whether it's worthwhile to change sentences that are already correct).
- There are about 300 sentences tagged "@change" in Greek. There are about 800 in Mandarin, more than twice as many.
- I know the Greek alphabet, which makes it easier for me to understand the proposed changes. I don't know the Mandarin writing system.
I suggest communicating with the Mandarin corpus maintainer first. If you're dissatisfied with the result, you can contact the Tatoeba team or me privately.
Setting aside the issue of naturalness, would you be willing to help fix the punctuation? The Mandarin corpus maintainer hardly ever replies. Even though she’s been active lately, I doubt she’s willing to keep maintaining it long-term.
Let's discuss this offline.
I meanwhile went through all greek sentences tagged with @change and tried to find out what's wrong. Now there is either
a) a clear comment what is to be changed (either from me or some other person)
b) a "@needs native check" tag (in cases I couldn't find the problem)
c) the sentence is listed in https://tatoeba.org/de/sentence...s/show/174630. This means, the @change can be removed, because the sentence has already been fixed or there isn't anything wrong with it (because we decided that language names can be either upper or lower case and Συγγνώμη could be written with either one or two gammas, or I found this sentence in a reliabale source, like a dictionary book).
Excellent! Thank you!
🍎 Bilingual TTS Player
https://www.manythings.org/bilingual/tts/
This project includes the 40 languages that have 4,000 or more selected sentence pairs with English.
► The quality of the TTS voices will depend on what you have installed on your device.
► For some of the languages, TTS may not be available, and you will only hear the English TTS.
► I think this may not work in the Edge browser, but I'm not sure.
► Using Google Chrome, should also display the Google online voices as options.
🍎 Thanks to everyone who watched the videos that I put links to on the Wall last week, and sent me feedback.
► As before, please send feedback to me via https://tatoeba.org/en/private_messages/write/CK instead of cluttering this public wall.
Let me know of any problems, or send suggestions for improvements.
Zwei Monate Tatoeba
So lange ist es schon her, dass ich diese Webseite gefunden habe. Inzwischen habe ich viele liebe Menschen kennengelernt. Vor allem gefällt mir der Humor, der hier immer mal wieder durchschimmert. Ich hatte beispielsweise bei einem Dutzend griechischen Sätzen von carlosalberto geschrieben, dass da das falsche Fragezeichen verwendet wurde. Er hat sich da die Mühe gemacht und bei jedem eine Antwort drunter geschrieben, ich gebe das einfach mal so wieder, weil ich es so lustig fand: Done - Yes - OK - Sim - Ναι - Oui - Incrível - Impressionante - Dezenas de casos - Quanta distração - Faltam poucas frases - Até o Mandarim usa o ponto de interrogação latino. Mas o Grego... - Está acabando - Só falta uma - Espero que esta tenha sido a última. Que trabalho lhe dei! Mil perdões. E muito obrigado.
Abgesehen davon bin ich aber immer noch etwas auf der Suche nach meinem Platz hier. Inzwischen kristallisieren sich zwei Ecken heraus, die da in Frage kommen: An der Software mithelfen und mich um den griechischen Korpus kümmern. Ersteres ist etwas, was ich eigentlich ziemlich gut kann - ich programmiere immerhin schon seit 43 Jahren - und dennoch komme ich hier immer wieder an meine Grenzen.
Das Problem ist ein Framework namens CakePHP, das wir hier verwenden. Ich bin ohnehin kein Fan von Frameworks. Die versprechen immer, alles einfacher zu machen, aber in Wahrheit fügen sie einfach nur eine zusätzliche Komplexitätsebene hinzu, ohne dass man viel davon hat. CakePHP ist da (meiner Meinung nach) keine Ausnahme.
Ein Beispiel: Ich versuche seit einiger Zeit dafür zu sorgen, dass normale Mitarbeiter die Verbindungen zwischen zwei Sätzen wieder aufheben können, wenn sie diese Verbindung selbst erstellt haben. Dafür braucht man eine Datenbankanfrage, die nicht ganz trivial ist. Ich habe etwa 15 Minuten dafür gebraucht, diese Datenbankanfrage zu formulieren. Ohne CakePHP könnte man diese Anfrage einfach so verwenden, da wären vielleicht noch weitere 5 Minuten für nötig; für CakePHP muss man sie aber übersetzen in eine Reihe von Funktionsaufrufen. Dafür habe ich letztendlich fast zwei Wochen und zweimal auch noch die Hilfe von gillux benötigt. Und das Lächerliche an der Geschichte ist, dass die Arbeit, die CakePHP einem jetzt abnimmt, die ist, alles wieder in die Datenbankanfrage zurück zu übersetzen, mit der alles begonnen hat. Das fühlt sich für mich sehr frustrierend an.
Nur leider ist halt CakePHP da und selbst wenn man wollte, wäre das aus der Tatoeba-Software nicht einfach rauszukriegen. Also muss ich da jetzt mit klarkommen, wenn ich weiter an der Software mithelfen will. Was mir helfen würde, wäre eine vernünftige Dokumentation (sowas wie die Java Language Spezification, die wirklich alle Details auflistet und nicht nur an Hand einiger Beispiel erklärt, wie man bestimmte Dinge erreichen kann), aber da habe ich bislang nichts Brauchbares gefunden.
Tja, und die andere Ecke wäre der griechische Korpus, aber ich glaube, da schreibe ich ein andermal was dazu. Der Text hier ist auch so schon lang genug. :-)
Kumakyoo, ich freue mich über deine Zusammenfassung hier und über die Mühe, die du dich gegeben hast, den Korpus und die Codebasis zu verbessern! :-)
Leider habe ich das Gleiche mit CakePHP erfahren (obwohl du hast wohl schon mehr Erfahrung damit als ich): ein kleines Stückchen Funktionalität, das als eine SQL-Query ganz einfach zu formulieren wäre, muss trotzdem als CakePHP-Funktion umformuliert werden und dadurch manchmal fünfmal komplizierter werden. Vor allem, weil CakePHP (im Vergleich zu anderen Sprachen/Frameworks) nicht so ausführlich dokumentiert ist, oder weil die Dokumentation nicht sehr navigierbar ist.
Dafür sehe ich keine gute Lösung. Idealerweise würde man das Ganze von Tatoeba in eine andere Framework (oder gar keine) oder sogar in eine andere Programmiersprache (vielleicht lieber etwas anderes als PHP?) umschreiben, wobei man SQL-Querys direkt benutzen kann, aber da ich selbst nicht in der Lage bin, eine solche Riesenaufgabe zu übernehmen, und die existierende Oberfläche schon sehr gut funktioniert, kann ich mich nicht viel beschweren.
Ja, das hattest du an anderer Stelle ja auch schon mal geschrieben. So weiß ich immerhin, dass ich nicht der einzige bin, der damit Probleme hat. :-) Danke dir!
So, ich hab' ja versprochen, auch noch was zum griechischen Korpus zu sagen. Zum einen habe ich mit einigen kleinen Programmen Sätze gesucht, die offensichtliche Fehler enthalten, also ein fehlendes Satzzeichen, ein falsches Symbol etc. Da hatte ich ja schon mal was dazu geschrieben.
Ich habe bei all diesen Sätzen einen entsprechenden Kommentar hinterlassen und @change gesetzt (ich bin ja inzwischen fortgeschrittener Mitarbeiter). Bei vielen stand aber schon ein solcher Kommentar und oft war @change auch schon gesetzt. Die meisten Kommentare wurden um 2015 rum geschrieben. Geändert hat sich an den Sätzen seither nichts.
Das liegt daran, dass hier keine griechischen Muttersprachler aktiv sind. Einen Korpus Maintainer gibt es dafür nicht. Und die meisten Besitzer der Sätze sind verschollen. Also ändert sich auch nichts und ich habe die Befürchtung, dass auch meine Aktivitäten ohne Resultat verpuffen werden, denn ich kann auch nichts mehr weiter tun; der Ball ist jetzt bei den Korpus Maintainern und Administratoren.
Darüber habe ich länger nachgedacht. Bei der Wikipedia könnte sowas nicht passieren. Das liegt einfach daran, dass dort jeder alles ändern kann, sogar nicht angemeldete Benutzer. Erst wenn es Probleme gibt, werden Artikel gesperrt und sind dann nur noch einigen Benutzern zugänglich. (Und es gibt seit einiger Zeit den Sichtungs-Mechanismus, dass Änderungen von Benutzern, denen nicht vertraut wird, erst noch gesichtet werden müssen, bevor sie der Allgemeinheit zugänglich gemacht werden.) Überträgt man das auf Tatoeba, dann kann man sagen, hier sind alle Sätze in dem Gesperrt-Zustand, was bedeutet, dass eine kleine Menge an Leuten die ganze Arbeit machen muss. Und zudem gehören die Sätze einzelnen Personen und sind nicht Allgemeingut, was wahrscheinlich die Ursache für diesen Unterschied ist.
Naja, da ich bei den kaputten Sätzen nichts mehr machen kann, habe ich mir was anderes gesucht, nämlich griechische Sätze ins Deutsche zu übersetzen. Dafür habe ich mir alle griechischen Sätze ohne deutsche Übersetzung (mit einem Algorithmus der auf Worthäufigkeiten basiert) grob nach Schwierigkeit sortiert und gehe diese jetzt der Reihe nach durch.
Inzwischen habe ich schon etwa 3000 Sätze übersetzt. Meist ist es einfach, aber manchmal muss ich auch ganz gut recherchieren, meist, weil mir nicht klar ist, ob der Satz eine übertragene Bedeutung hat oder ob er direkt übersetzt werden kann. In wenigen Fällen musste ich auf eine Übersetzung verzichten, weil ich zu gar keinem Ergebnis kommen konnte.
Jetzt habe ich noch 33800 Sätze zum Übersetzen übrig. Wenn ich im bisherigen Tempo weitermache, habe ich ausgerechnet, dann bin ich Ende 2027 damit fertig. Aber die Sätze werden ja schwerer und meine Motivation dürfte auch im Laufe der Zeit etwas zurückgehen und: Es kommen ja auch immer mal wieder neue Sätze dazu… Realistisch dürfte also eher 2040 oder so sein.
Naja, damit habe ich zumindest erst mal was zu tun. :-)
Many thanks for tagging and adding comments to Greek sentences that need to be changed. I see 313 that are tagged "@change". While I don't know Greek, the comments indicate that most of the problems involve punctuation. I can see that there are some differences between punctuation in Greek and other European languages, but nothing conceptually difficult that would make me feel unqualified to perform these changes, given that you've described what needs to be done.
In general, corpus maintainers (including administrators) focus on fixing sentences in languages they know well, but if given enough information, they're also able to do it in other languages.
Punctuation is almost identical to other European languages. The question mark looks like a semicolon (;) and is also that ASCII character, and the semicolon is a special symbol, a central dot (·). That's all. There is one special case, namely "ό,τι", where the comma is part of the word (to distinguish it from "ότι" which has a different meaning) and therefore in this case there is no space after the comma.
And I would be very happy, if one of the corpus maintainers could fix these sentences. :-)
I've been fixing the Greek sentences tagged "@change" where there is a comment at least 14 days old that tells exactly which change should be made. For sentences that do not have such an explanation, I've been adding a comment addressed to kumakyoo that asks for one. If there is anyone else active who can give me this information, please let me know, and I'll tag you in the comments, too.
Many thanks. I'll try to find out for all of the remaining sentences what is wrong. But I fear, after a fast browse, I won't be able to tell in most cases.
Thank you. I picked up the discussion in a new thread:
https://tatoeba.org/en/wall/sho...#message_41764
很想請教一下你提到的「用一個基於詞頻的演算法,把所有沒有德語翻譯的希臘語句子大致按難度排序」是怎麼實現的呢?
Ich verwende die Dateien vom Download-Bereich und mehrere selbstgeschriebene PHP-Programme, diese machen der Reihe nach:
a) Griechische und deutsche Sätze aus sentences.csv extrahieren
b) Griechische Sätze mit untypischen Zeichen entfernen
c) Die Häufigkeit der griechischen Wörter bestimmen
d) Die griechischen Sätze sortieren
e) Mit Hilfe von links.csv die Sätze aussortieren, die bereits eine deutsche Übersetzung haben
Zu a): Man könnte die beiden Dateien auch direkt im Download-Bereich herunterladen.
Zu b): Das ist nicht zwingend notwendig, aber ich bin auch an den fehlerhaften Sätzen interessiert.
Zu c): Das Programm hatte ich schon mal veröffentlicht: https://github.com/kumakyoo42/t...ount_words.php
Zu d): Zuerst einmal: Ich habe die Worthäufigkeiten (binärer Logarithmus und runden) in etwa 14 Klassen umgerechnet. Der Vergleich der Sätze funktioniert so: Als erstes wird das seltenste Wort in beiden Sätzen angeschaut. Sind die Klassen dieser Wörter unterschiedlich kann man sie sortierten. Sind sie gleich, wird das zweitseltenste Wort verglichen und so fort.
Hast du Interesse an den Programmen? Ich kann sie gerne bei GitHub hochladen.
CK 曾統計過各個語言中的詞彙出現頻率,可以拿來直接用:
https://tatoeba.org/zh-tw/wall/...#message_41680
我確實想要這樣的工具,因為我認為簡單的句子比複雜的句子更重要,所以要優先翻譯。
而且我十分希望這項功能整合到 Tatoeba 網站上,並定期更新。這樣大家都能輕鬆地找到簡單/複雜的句子並且優先翻譯了。
我之前在留言板上提到希望進階搜尋可以按照句子所擁有的連結數排序,就是希望優先翻譯「熱門」的句子,因為「熱門」的通常更重要。
但是你提出的複雜程度似乎是一個更科學的指標。我很希望能夠拿來當作參照。
那就請拜託發布到 GitHub 吧🙇♂️
Thank you for sharing your journey with us, it is always a pleasure to read your diary. It reminded me of similar happy moments with other Tatoebians I had in the past when I focused on translating Japanese sentences.
About CakePHP, I agree that its documentation is not always very good. What I usually do to find my way around is to directly browse the source code of CakePHP itself. I find it rather easy to get around and understand. For example, when you asked me how to use the NOT EXISTS clause, I just ran some `grep -r EXISTS vendor/cakephp/cakephp/src/` and quickly found the method. Hope this helps.
I ran a lot of greps too, but usually only on /src. I'll add the code of CakePHP for this searches in the future. (But it doesn't speak well of a tool if you have to browse the source code to understand how it works…)
The content of this message goes against our rules and was therefore hidden. It is displayed only to admins and to the author of the message.
The content of this message goes against our rules and was therefore hidden. It is displayed only to admins and to the author of the message.
Tatoeba Stats, Graphs & Charts have been updated??
Thank you very much. Now this information has appeared on the wall.
The content of this message goes against our rules and was therefore hidden. It is displayed only to admins and to the author of the message.
How should we handle "Grammatically Correct but Unnatural" sentences?
For example: https://tatoeba.org/zh-tw/sentences/show/9987065
This sentence says: "In the dead of night, I am always as if I released a heavy burden."
This is completely grammatically correct, but to me personally it's semantically awkward.
Should we keep this sentence as the way it is, or propose a more natural rephrasing?
It probably felt natural to the person who posted it, who is also a native speaker?
People can and do regularly disagree about which phrasing is (the most) natural. I think you should like to have a consensus of several independent native speakers before it may be proper to modify a phrase that isn't outright wrong, especially if it was posted by a native speaker.
To be honest, the controversy stems from the fact that Chinese is a paratactic language, whereas English and most Western languages are hypotactic. In Chinese, as long as a sentence has a clear predicate (sometimes even without a formal verb) most structural combinations are technically "grammatically correct."
However, in the pedagogical and professional reality of Chinese speakers, especially in formal writing, a sentence is considered wrong if it is semantically imprecise. Even in colloquial speech, where semantic rigor is often relaxed, I still maintain that "semantic awkwardness" constitutes a fundamental error.
I think what you are trying to get at is that Mandarin is a topic-prominent language. Topic-prominent languages—independent of the syntactic rules that revolve around subject, verb, object—have a separate set of rules for how topics and comments should be treated. Thus, I would agree that some of the issues you point out (also with regard to other sentences you commented on) are far more serious than mere awkwardness.
The problem with Tatoeba—presenting a single sentence in isolation—is that it strips away the context that makes these topic-prominent languages tick. For some of these sentences you have qualms with, I can think of elaborate and specific discourse contexts that would render them natural. I would think, for many more of these, the contributor had very specific contexts in mind.
I do not see a way of getting around this issue. Only allowing sentences that sound good as stand-alone utterances is obviously no good. So, while I agree that this is a real problem, I am not sure if there is a way out.