留言板(7,267个话题)
小贴士
提问之前先确定已经阅读了常见问题解答。
We aim to maintain a healthy atmosphere for civilized discussions. Please read our rules against bad behavior.
AlanF_US
5小时前
small_snow
16小时前
LeviHighway
20小时前
small_snow
1天前
AlanF_US
1天前
Igider
1天前
AlanF_US
1天前
cafoc64474
1天前
Igider
1天前
LeviHighway
1天前
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
Should punctuation marks be counted in the character count? In Chinese, for example, in Word, each punctuation mark counts as one character (and when we wrote essays as students, punctuation was also included in the character count). On Tatoeba, the Chinese enumeration comma (、) and period (。) are counted as one character, but question marks (?), exclamation marks (!), colons (:), and semicolons (;) are not counted. I think the Chinese counting standard should be improved.
Additionally, since search engines do not ignore Chinese periods, when searching for "瑪莉"$, only results like "……瑪莉?" can be obtained, while "……瑪莉。" cannot be found. This should be considered a bug.
標點符號是否應該計入字數?就中文而言,在 Word 中,每個標點符號都會記作一個字 (而且我們在學生時代寫作文時標點符號也是都計入字數的)。在 Tatoeba 上,頓號 (、) 和句號 (。) 會計作一個字,但是問號 (?)、驚嘆號 (!)、冒號 (:)、分號 (;) 都是不計入字數的。我覺得應該完善一下中文的計數標準。
另外,由於搜尋引擎不忽略中文的句號,所以當搜尋「"瑪莉"$」時只能得出「……瑪莉?」的結果,「……瑪莉。」是搜尋不到的。這應該屬於 Bug。
句読点は文字数に含めるべきでしょうか。中国語の場合、Wordではすべての句読点が1文字としてカウントされます(学生時代に作文を書くときも、句読点は文字数に含まれていました)。Tatoebaでは、読点(、)や句点(。)は1文字としてカウントされますが、疑問符(?)、感嘆符(!)、コロン(:)、セミコロン(;)は文字数に含まれません。中国語の文字数カウントの基準は改善すべきだと思います。
また、検索エンジンが中国語の句点を無視しないため、「"瑪莉"$」を検索すると「……瑪莉?」の結果しか出ず、「……瑪莉。」は検索されません。これはバグに該当すると思われます。
この件は日本語にも関係があるので、@small_snow さんにも確認をお願いしたいです。
申し訳ございませんが、日本語を読む限りでは、何を問われているのかよくわからないので、ご返信を致しかねます。
説明が不十分で失礼しましたが、こちらから謝罪する必要はありません。[詳細検索] では、[単語数 or 文字数] を指定できます。しかし、中国語や日本語の場合、読点(、)と句点(。)は1文字としてカウントされる一方で、ほとんどの句読点は文字数として扱われません。そのため、[ソート] の [順番] を [短い文から] にすると、これらの句読点の扱いによって検索結果の文の長さがばらついてしまいます。
さらに、Tatoeba Wiki(https://ja.wiki.tatoeba.org/art...kisuto-kensaku )によれば、「検索したい文字列の最後にドル記号($)を付けた場合は、その文字列で終わる文を検索します。次の検索文字列は、"Tom"で終わる英文を検索結果に表示します」とあります。
しかし、中国語や日本語で「"湯姆"$」や、日本語でよく使う「"ます"$」「"でしょう"$」などを検索しても、文末に句点が入っている例文はヒットしません。これは検索仕様として実用性に欠けていると思いますが、あなたは改善すべきだと考えますか?
うまく説明できていれば幸いです。
>こちらから謝罪する必要はありません。
先の私のコメントで謝罪は求めておりませんので誤解なきようお願いいたします。
>中国語や日本語の場合、読点(、)と句点(。)は1文字としてカウントされる一方で、ほとんどの句読点は文字数として扱われません。
まず、英語で表現するPunctuationには、ピリオドやコンマの他にコロンやセミコロンが含まれますが、日本語で表現する「句読点」は「読点(、)」と「句点(。)」のみです。その他の「?」や「!」は句読点には含まれません。単なる「記号」です。
また、多くのシステムで「?」「!」「*」「$」などは特殊文字として扱われます。Tatoebaで使っている検索エンジン(Manticore)も同様で、Tatoeba Wikiにも
下記のように書かれています。
(1) Punctuation marks like ? and ! have special purposes in our search engine (Manticore, previously Sphinx). If you don't want to use those special functions, you should leave them out.
そのため、そのあたりのカウントについては検索エンジン(Manticore)の仕様によるものだと思っていますので個人的には疑問は持っていません。
>これらの句読点の扱いによって検索結果の文の長さがばらついてしまいます。
そのばらつきによる弊害はいかほどでしょうか?場合によっては、文をダウンロードして適切なAPPで処理されるのも1つの方法だと思います。
>しかし、中国語や日本語で「"湯姆"$」や、日本語でよく使う「"ます"$」「"でしょう"$」などを検索しても、文末に句点が入っている例文はヒットしません。
検索する文字列が間違っていると思います。文末に句点が入っている例文をヒットさせるには検索文字列に下記を入力されるといいと思います。
"ます。$"
https://tatoeba.org/ja/sentence...%80%82$%22&to=
"でしょう。$"
https://tatoeba.org/ja/sentence...%80%82$%22&to=
>これは検索仕様として実用性に欠けていると思いますが、あなたは改善すべきだと考えますか?
私は特に不便を感じていないので、改善要求を出したいとは思っていません。
以上です。よろしくお願いいたします。
ご返信ありがとうございます。私は日本人ではないので、あなたに「申し訳ございません」と言われると少し罪悪感がありますが、今回は単なる誤解なので、あまり気にしないでください(笑)。
私は、文末が「でしょう!」「でしょう?」「ですか?」などで終わる場合がよくあるため、「"でしょう。$"」のように検索しても、必要な文をすべて拾うことができない点が問題だと思っています。
そのため、検索エンジンが句読点を無視する仕様にすれば、「"でしょう"$」で「でしょう!」「でしょう?」といったすべてのパターンを検索できるようになり、より実用的になるのではないかと考えています。
文字数に関してですが、日本では学校で作文を書くとき、文字数はどのように数えるのでしょうか。漢字、仮名(小さい仮名も含む)、句読点、その他の記号もすべて1文字としてカウントされるのか、それとも別の数え方があるのでしょうか。
>そのため、検索エンジンが句読点を無視する仕様にすれば、「"でしょう"$」で「でしょう!」「でしょう?」といったすべてのパターンを検索できるようになり、より実用的になるのではないかと考えています。
LeviHighwayさんは誤解されています。
次の2つの検索パターンは同じ結果になります。
"でしょう"$
https://tatoeba.org/ja/sentence...rd_count_min=1
"でしょう"
https://tatoeba.org/ja/sentence...rd_count_min=1
注意深く結果をご覧いただければお分かりいただけると思いますが「"でしょう"$」も「"でしょう"」も文中に「"でしょう"」を含む文を結果としてかえしているだけです。(本当にその検索の必要性を感じていますか?)
また、下記の検索文字列を利用することでLeviHighwayさんが望まれている結果が出力されます。
"でしょう。$"|"でしょう$"
https://tatoeba.org/ja/sentence...rd_count_min=1
なお、1週間前に同じような内容のトピが立っているようですが、AlanF_USさんがおっしゃるっている通りだと思います。
https://tatoeba.org/ja/wall/sho...#message_41480
I think that only @gillux is going to be able to resolve this discussion, either here or on GitHub, where @Guybrush88 has already linked to this thread.
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
Hi everyone,
I have tried to use the sentence export page on Tatoeba, but unfortunately, I am not managing to do it correctly. Could someone please help me download the following data (preferably as a CSV file, zipped or not)?
1. All Kabyle sentences
—with their translations in French, English, and Spanish,
—and with an audio recording attached.
2. All original Kabyle sentences that:
—do not have translations,
—do not have audio recordings,
—but without duplicated sentences if possible.
Any help, guidance, or explanation on how to extract these properly would be greatly appreciated.
Thank you very much in advance!
Igider
Dowload
https://tatoeba.org/en/downloads
Advanced search:
https://tatoeba.org/en/sentences/advanced_search
I think that you need to download sentences for each language in separate files, then download connections file and after that you need to use some graph tools to connect sentences (example NetworkX for Python).
Note first of all that you are talking about a language with more than 777,000 sentences, and working with such a large set of sentences is going to require scripting/programming not just for the downloading of the sentences, and not just for the selection of the subset you want, but also for the management of those sentences on your side.
The download page lets you download the following with the click of a button:
- all sentences in language A with translations in language B
- all sentences in language A
- all sentences in language A that have audio (but not the audio itself, which can only be downloaded if it the license says so, and needs to be downloaded via a URL; this is explained on the downloads page)
Another alternative, as the page says, is to produce a list of sentences, which can then be downloaded. However, this is impractical with the number of sentences you'd be dealing with.
Without scripting/programming knowledge, you could do three downloads, consisting of all Kabyle sentences translated into French, English, and Spanish, respectively. This would give you TSV files (tab-separated rather than comma-separated) containing the sentences and translations. (For reference, the one for French would be 17.8 MB in size and contain more than 200,000 entries.) This is not what you asked for, but it's probably the best you can do without scripting/programming. Otherwise, the help you need is most likely going to go beyond what can be provided on the Wall.
Thank you for your reply.
Since obtaining the full dataset is not practical through the current process, would you kindly provide at least the audio files related to the Kabyle sentences?
That alone would already be extremely helpful, and I would greatly appreciate your assistance with this.
Thank you again.
In the section "Sentences with audio", the Downloads page says this:
---
File description:
Contains the ids of the sentences, in all languages, for which audio is available. Other fields indicate who recorded the audio, its license and a URL to attribute the author. If the license field is empty, you may not reuse the audio outside the Tatoeba project.
Downloading audio:
A single sentence can have one or more audio, each from a different voice. To download a particular audio, use its audio id to compute the download URL. For example, to download the audio with the id 1234, the URL is https://tatoeba.org/audio/download/1234.
---
You can use a tool like wget to download files once you know the URLs.
If that information is not enough to get you started, see if you can find someone on your side who has the technical knowledge to do this.
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。
该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。