menu
Tatoeba
language
注册 登录
language 中文 (中国)
menu
Tatoeba

chevron_right 注册

chevron_right 登录

浏览

chevron_right 随机句子

chevron_right 选择语言

chevron_right 选择列表

chevron_right 选择标签

chevron_right 选择音频

社群

chevron_right 留言板

chevron_right 用户列表

chevron_right 用户的语言

chevron_right 母语者

search
clear
swap_horiz
search

留言板(7,267个话题)

小贴士

提问之前先确定已经阅读了常见问题解答

We aim to maintain a healthy atmosphere for civilized discussions. Please read our rules against bad behavior.

最新留言 subdirectory_arrow_right

AlanF_US

5小时前

subdirectory_arrow_right

small_snow

16小时前

subdirectory_arrow_right

LeviHighway

20小时前

subdirectory_arrow_right

small_snow

1天前

subdirectory_arrow_right

AlanF_US

1天前

subdirectory_arrow_right

Igider

1天前

subdirectory_arrow_right

AlanF_US

1天前

subdirectory_arrow_right

cafoc64474

1天前

feedback

Igider

1天前

subdirectory_arrow_right

LeviHighway

1天前

5小时前 2025年12月6日 UTC 下午5:21:32 link 永久链接
warning

该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。

LeviHighway LeviHighway 1天前 2025年12月5日 UTC 下午12:12:55 flag Report link 永久链接

Should punctuation marks be counted in the character count? In Chinese, for example, in Word, each punctuation mark counts as one character (and when we wrote essays as students, punctuation was also included in the character count). On Tatoeba, the Chinese enumeration comma (、) and period (。) are counted as one character, but question marks (?), exclamation marks (!), colons (:), and semicolons (;) are not counted. I think the Chinese counting standard should be improved.

Additionally, since search engines do not ignore Chinese periods, when searching for "瑪莉"$, only results like "……瑪莉?" can be obtained, while "……瑪莉。" cannot be found. This should be considered a bug.

標點符號是否應該計入字數?就中文而言,在 Word 中,每個標點符號都會記作一個字 (而且我們在學生時代寫作文時標點符號也是都計入字數的)。在 Tatoeba 上,頓號 (、) 和句號 (。) 會計作一個字,但是問號 (?)、驚嘆號 (!)、冒號 (:)、分號 (;) 都是不計入字數的。我覺得應該完善一下中文的計數標準。

另外,由於搜尋引擎不忽略中文的句號,所以當搜尋「"瑪莉"$」時只能得出「……瑪莉?」的結果,「……瑪莉。」是搜尋不到的。這應該屬於 Bug。

句読点は文字数に含めるべきでしょうか。中国語の場合、Wordではすべての句読点が1文字としてカウントされます(学生時代に作文を書くときも、句読点は文字数に含まれていました)。Tatoebaでは、読点(、)や句点(。)は1文字としてカウントされますが、疑問符(?)、感嘆符(!)、コロン(:)、セミコロン(;)は文字数に含まれません。中国語の文字数カウントの基準は改善すべきだと思います。

また、検索エンジンが中国語の句点を無視しないため、「"瑪莉"$」を検索すると「……瑪莉?」の結果しか出ず、「……瑪莉。」は検索されません。これはバグに該当すると思われます。

{{vm.hiddenReplies[41506] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
LeviHighway LeviHighway 1天前 2025年12月5日 UTC 下午12:13:06 flag Report link 永久链接

この件は日本語にも関係があるので、@small_snow さんにも確認をお願いしたいです。

{{vm.hiddenReplies[41507] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
small_snow small_snow 1天前 2025年12月5日 UTC 下午12:31:26 flag Report link 永久链接

申し訳ございませんが、日本語を読む限りでは、何を問われているのかよくわからないので、ご返信を致しかねます。

{{vm.hiddenReplies[41508] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
LeviHighway LeviHighway 1天前, edited 1天前 2025年12月5日 UTC 下午1:06:44, edited 2025年12月5日 UTC 下午1:12:48 flag Report link 永久链接

説明が不十分で失礼しましたが、こちらから謝罪する必要はありません。[詳細検索] では、[単語数 or 文字数] を指定できます。しかし、中国語や日本語の場合、読点(、)と句点(。)は1文字としてカウントされる一方で、ほとんどの句読点は文字数として扱われません。そのため、[ソート] の [順番] を [短い文から] にすると、これらの句読点の扱いによって検索結果の文の長さがばらついてしまいます。

さらに、Tatoeba Wiki(https://ja.wiki.tatoeba.org/art...kisuto-kensaku )によれば、「検索したい文字列の最後にドル記号($)を付けた場合は、その文字列で終わる文を検索します。次の検索文字列は、"Tom"で終わる英文を検索結果に表示します」とあります。
しかし、中国語や日本語で「"湯姆"$」や、日本語でよく使う「"ます"$」「"でしょう"$」などを検索しても、文末に句点が入っている例文はヒットしません。これは検索仕様として実用性に欠けていると思いますが、あなたは改善すべきだと考えますか?

うまく説明できていれば幸いです。

{{vm.hiddenReplies[41509] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
small_snow small_snow 1天前, edited 1天前 2025年12月5日 UTC 下午9:20:54, edited 2025年12月5日 UTC 下午9:58:41 flag Report link 永久链接

>こちらから謝罪する必要はありません。

先の私のコメントで謝罪は求めておりませんので誤解なきようお願いいたします。

>中国語や日本語の場合、読点(、)と句点(。)は1文字としてカウントされる一方で、ほとんどの句読点は文字数として扱われません。

まず、英語で表現するPunctuationには、ピリオドやコンマの他にコロンやセミコロンが含まれますが、日本語で表現する「句読点」は「読点(、)」と「句点(。)」のみです。その他の「?」や「!」は句読点には含まれません。単なる「記号」です。

また、多くのシステムで「?」「!」「*」「$」などは特殊文字として扱われます。Tatoebaで使っている検索エンジン(Manticore)も同様で、Tatoeba Wikiにも
下記のように書かれています。

(1) Punctuation marks like ? and ! have special purposes in our search engine (Manticore, previously Sphinx). If you don't want to use those special functions, you should leave them out.

そのため、そのあたりのカウントについては検索エンジン(Manticore)の仕様によるものだと思っていますので個人的には疑問は持っていません。

>これらの句読点の扱いによって検索結果の文の長さがばらついてしまいます。

そのばらつきによる弊害はいかほどでしょうか?場合によっては、文をダウンロードして適切なAPPで処理されるのも1つの方法だと思います。

>しかし、中国語や日本語で「"湯姆"$」や、日本語でよく使う「"ます"$」「"でしょう"$」などを検索しても、文末に句点が入っている例文はヒットしません。

検索する文字列が間違っていると思います。文末に句点が入っている例文をヒットさせるには検索文字列に下記を入力されるといいと思います。

"ます。$"
https://tatoeba.org/ja/sentence...%80%82$%22&to=

"でしょう。$"
https://tatoeba.org/ja/sentence...%80%82$%22&to=

>これは検索仕様として実用性に欠けていると思いますが、あなたは改善すべきだと考えますか?

私は特に不便を感じていないので、改善要求を出したいとは思っていません。

以上です。よろしくお願いいたします。

{{vm.hiddenReplies[41516] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
LeviHighway LeviHighway 20小时前 2025年12月6日 UTC 上午2:07:56 flag Report link 永久链接

ご返信ありがとうございます。私は日本人ではないので、あなたに「申し訳ございません」と言われると少し罪悪感がありますが、今回は単なる誤解なので、あまり気にしないでください(笑)。

私は、文末が「でしょう!」「でしょう?」「ですか?」などで終わる場合がよくあるため、「"でしょう。$"」のように検索しても、必要な文をすべて拾うことができない点が問題だと思っています。
そのため、検索エンジンが句読点を無視する仕様にすれば、「"でしょう"$」で「でしょう!」「でしょう?」といったすべてのパターンを検索できるようになり、より実用的になるのではないかと考えています。

文字数に関してですが、日本では学校で作文を書くとき、文字数はどのように数えるのでしょうか。漢字、仮名(小さい仮名も含む)、句読点、その他の記号もすべて1文字としてカウントされるのか、それとも別の数え方があるのでしょうか。

{{vm.hiddenReplies[41517] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
small_snow small_snow 16小时前, edited 12小时前 2025年12月6日 UTC 上午6:02:54, edited 2025年12月6日 UTC 上午10:29:36 flag Report link 永久链接

>そのため、検索エンジンが句読点を無視する仕様にすれば、「"でしょう"$」で「でしょう!」「でしょう?」といったすべてのパターンを検索できるようになり、より実用的になるのではないかと考えています。

LeviHighwayさんは誤解されています。
次の2つの検索パターンは同じ結果になります。

"でしょう"$
https://tatoeba.org/ja/sentence...rd_count_min=1

"でしょう"
https://tatoeba.org/ja/sentence...rd_count_min=1

注意深く結果をご覧いただければお分かりいただけると思いますが「"でしょう"$」も「"でしょう"」も文中に「"でしょう"」を含む文を結果としてかえしているだけです。(本当にその検索の必要性を感じていますか?)

また、下記の検索文字列を利用することでLeviHighwayさんが望まれている結果が出力されます。

"でしょう。$"|"でしょう$"
https://tatoeba.org/ja/sentence...rd_count_min=1

なお、1週間前に同じような内容のトピが立っているようですが、AlanF_USさんがおっしゃるっている通りだと思います。
https://tatoeba.org/ja/wall/sho...#message_41480

{{vm.hiddenReplies[41519] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
AlanF_US AlanF_US 5小时前 2025年12月6日 UTC 下午5:07:18 flag Report link 永久链接

I think that only @gillux is going to be able to resolve this discussion, either here or on GitHub, where @Guybrush88 has already linked to this thread.

17小时前 2025年12月6日 UTC 上午5:43:46 link 永久链接
warning

该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。

Igider Igider 1天前, edited 1天前 2025年12月5日 UTC 下午2:09:05, edited 2025年12月5日 UTC 下午2:09:29 flag Report link 永久链接

Hi everyone,

I have tried to use the sentence export page on Tatoeba, but unfortunately, I am not managing to do it correctly. Could someone please help me download the following data (preferably as a CSV file, zipped or not)?

1. All Kabyle sentences
—with their translations in French, English, and Spanish,
—and with an audio recording attached.

2. All original Kabyle sentences that:
—do not have translations,
—do not have audio recordings,
—but without duplicated sentences if possible.

Any help, guidance, or explanation on how to extract these properly would be greatly appreciated.

Thank you very much in advance!

Igider



Dowload
https://tatoeba.org/en/downloads

Advanced search:
https://tatoeba.org/en/sentences/advanced_search

{{vm.hiddenReplies[41510] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
cafoc64474 cafoc64474 1天前, edited 1天前 2025年12月5日 UTC 下午3:08:50, edited 2025年12月5日 UTC 下午3:09:15 flag Report link 永久链接

I think that you need to download sentences for each language in separate files, then download connections file and after that you need to use some graph tools to connect sentences (example NetworkX for Python).

AlanF_US AlanF_US 1天前, edited 1天前 2025年12月5日 UTC 下午3:19:45, edited 2025年12月5日 UTC 下午3:22:45 flag Report link 永久链接

Note first of all that you are talking about a language with more than 777,000 sentences, and working with such a large set of sentences is going to require scripting/programming not just for the downloading of the sentences, and not just for the selection of the subset you want, but also for the management of those sentences on your side.

The download page lets you download the following with the click of a button:
- all sentences in language A with translations in language B
- all sentences in language A
- all sentences in language A that have audio (but not the audio itself, which can only be downloaded if it the license says so, and needs to be downloaded via a URL; this is explained on the downloads page)

Another alternative, as the page says, is to produce a list of sentences, which can then be downloaded. However, this is impractical with the number of sentences you'd be dealing with.

Without scripting/programming knowledge, you could do three downloads, consisting of all Kabyle sentences translated into French, English, and Spanish, respectively. This would give you TSV files (tab-separated rather than comma-separated) containing the sentences and translations. (For reference, the one for French would be 17.8 MB in size and contain more than 200,000 entries.) This is not what you asked for, but it's probably the best you can do without scripting/programming. Otherwise, the help you need is most likely going to go beyond what can be provided on the Wall.

{{vm.hiddenReplies[41512] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
Igider Igider 1天前 2025年12月5日 UTC 下午6:49:36 flag Report link 永久链接

Thank you for your reply.
Since obtaining the full dataset is not practical through the current process, would you kindly provide at least the audio files related to the Kabyle sentences?

That alone would already be extremely helpful, and I would greatly appreciate your assistance with this.

Thank you again.

{{vm.hiddenReplies[41514] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
AlanF_US AlanF_US 1天前 2025年12月5日 UTC 下午8:42:17 flag Report link 永久链接

In the section "Sentences with audio", the Downloads page says this:

---
File description:
Contains the ids of the sentences, in all languages, for which audio is available. Other fields indicate who recorded the audio, its license and a URL to attribute the author. If the license field is empty, you may not reuse the audio outside the Tatoeba project.

Downloading audio:
A single sentence can have one or more audio, each from a different voice. To download a particular audio, use its audio id to compute the download URL. For example, to download the audio with the id 1234, the URL is https://tatoeba.org/audio/download/1234.
---

You can use a tool like wget to download files once you know the URLs.

If that information is not enough to get you started, see if you can find someone on your side who has the technical knowledge to do this.

1天前 2025年12月5日 UTC 下午3:46:19 link 永久链接
warning

该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。

1天前, edited 1天前 2025年12月5日 UTC 上午9:58:47, edited 2025年12月5日 UTC 上午10:00:08 link 永久链接
warning

该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。

2天前 2025年12月4日 UTC 下午12:48:05 link 永久链接
warning

该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。

2天前 2025年12月4日 UTC 上午11:29:49 link 永久链接
warning

该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。

3天前 2025年12月3日 UTC 下午7:06:34 link 永久链接
warning

该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。

5天前 2025年12月1日 UTC 下午5:12:40 link 永久链接
warning

该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。

{{vm.hiddenReplies[41499] ? 'expand_more' : 'expand_less'}} 隐藏回复 显示回复
5天前 2025年12月1日 UTC 下午5:13:16 link 永久链接
warning

该消息的内容违反了我们的规定 ,因此它是隐藏的。它只对管理员和消息的发布者显示可见。