menu
Tatoeba
language
Εγγραφή Σύνδεση
language Ελληνικά
menu
Tatoeba

chevron_right Εγγραφή

chevron_right Σύνδεση

Εξερεύνηση

chevron_right Εμφάνιση τυχαίας φράσης

chevron_right Εξερεύνηση ανά γλώσσα

chevron_right Εξερεύνηση με βάση τον κατάλογο

chevron_right Εξερεύνηση ανά ετικέτα

chevron_right Εξερεύνηση ηχητικών αρχείων

Κοινότητα

chevron_right Τοίχος

chevron_right Λίστα όλων των μελών

chevron_right Γλώσσες των μελών

chevron_right Φυσικοί ομιλητές

search
clear
swap_horiz
search
Selena777 Selena777 11 Δεκεμβρίου 2022 11 Δεκεμβρίου 2022 - 7:09:57 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

Hello, how can I download sentences belonging to a particular user? There is "detailed sentences" option which let indicate user's name but doesn't let to choose it before downloading. Can I change it?

{{vm.hiddenReplies[39258] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
lbdx lbdx 11 Δεκεμβρίου 2022 11 Δεκεμβρίου 2022 - 8:35:03 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

I don't think that's possible before downloading. Maybe the best thing to do is to download the sentences_detailed file of the desired language and then filter the user's sentences with a spreadsheet.

{{vm.hiddenReplies[39260] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
Selena777 Selena777 12 Δεκεμβρίου 2022 12 Δεκεμβρίου 2022 - 4:27:22 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

Accepting this approach, I must download more than one million English sentences, when I really need about 30,000 right now. I guess the file would be too big to process it.

Plain scrapping from Tatoeba.org using Beautiful Soup looks better than that, but maybe it's possible to scrap the data from its source database without html tags?

{{vm.hiddenReplies[39262] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
lbdx lbdx 12 Δεκεμβρίου 2022 12 Δεκεμβρίου 2022 - 4:45:51 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

> maybe it's possible to scrap the data from its source database without html tags?

if you have coding skills, maybe you can use the API (in beta).

https://en.wiki.tatoeba.org/articles/show/api#

{{vm.hiddenReplies[39263] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
Selena777 Selena777 12 Δεκεμβρίου 2022 12 Δεκεμβρίου 2022 - 6:13:54 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

That's exactly what I need, thanks a lot!

Selena777 Selena777 19 Δεκεμβρίου 2022 19 Δεκεμβρίου 2022 - 7:22:08 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

How can I get more than 1000 sentences unlike using the Tatoeba search? Is there any variable for that in the API? I tried "count=all" or "count=5000", but it didn't help.

Thanuir Thanuir 12 Δεκεμβρίου 2022 12 Δεκεμβρίου 2022 - 6:00:43 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

FI
Jos tiedoston lataaminen ei ole ongelma itsessään, niin senhän voisi ladata ja sitten muokata tekstitiedostona. Poistaa vaan suurimman osan datasta, niin että jäljelle jää vain haluttu määrä lauseita.

EN
If downloading the file is not an issue as such, you could do that and edit the file (as a text file) to remove most of the data, leaving behind only a usable amount.

hecko hecko 12 Δεκεμβρίου 2022 12 Δεκεμβρίου 2022 - 6:01:02 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

you'd be surprised, it's only 27mb compressed and 156mb uncompressed
using the fantastic `tatoebatools` python library (made by lbdx, funnily enough) i was able to filter for my own sentences in 5 seconds
granted, your computer might be weaker than my 4-year-old core i5 laptop, but it should still take less time than figuring out the api *or* beautifulsoup, let alone running them

{{vm.hiddenReplies[39265] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
Selena777 Selena777 12 Δεκεμβρίου 2022 12 Δεκεμβρίου 2022 - 6:21:20 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

Where can I learn more about the 'tatoebatools' library? (I can assume it permits you having and processing all the Tatoeba database on your own computer, right?)

{{vm.hiddenReplies[39268] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
hecko hecko 12 Δεκεμβρίου 2022 12 Δεκεμβρίου 2022 - 6:51:29 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

there's some documentation on the pypi page https://pypi.org/project/tatoebatools/
and yeah that's what it is, it handles all the downloading and csv quirks for you

Selena777 Selena777 19 Δεκεμβρίου 2022 19 Δεκεμβρίου 2022 - 7:25:05 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

Thanks! Btw, do I need to download the database just once or every time using the library? Unfortunately, I didn't have enough of patience to wait for downloading the database but if it's just one time I can wait.

{{vm.hiddenReplies[39301] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
hecko hecko 19 Δεκεμβρίου 2022 19 Δεκεμβρίου 2022 - 7:28:19 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

it saves it after downloading but it does redownload it if there's an update
updates are released every saturday at 6:30am utc

{{vm.hiddenReplies[39302] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
Selena777 Selena777 19 Δεκεμβρίου 2022 19 Δεκεμβρίου 2022 - 7:49:50 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

Thanks for the answer, I'll try it, too.

{{vm.hiddenReplies[39303] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
CK CK 20 Δεκεμβρίου 2022, τροποποιήθηκε την την 20 Δεκεμβρίου 2022 20 Δεκεμβρίου 2022 - 8:38:55 π.μ. UTC, τροποποιήθηκε την 20 Δεκεμβρίου 2022 - 8:49:34 π.μ. UTC flag Report link Μόνιμος σύνδεσμος

🍎 Here are files with only 4 fields, omitting the dates.

sentence_ID + tab + language_code + tab + text + tab + sentence_owner


🥝 All the exported sentences
http://study.aitech.ac.jp/4flds...2022-12-17.zip
228 MB

🥝 Just the English sentences
http://study.aitech.ac.jp/4flds...2022-12-17.zip
27 MB

🥝 Just the 891,125 sentences on List 907
http://study.aitech.ac.jp/4flds...2022-12-17.zip
12 MB


Perhaps one of these will help you.

{{vm.hiddenReplies[39304] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
Selena777 Selena777 22 Δεκεμβρίου 2022 22 Δεκεμβρίου 2022 - 7:25:20 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

Thanks a lot!
Where can I get updates with new sentences?

{{vm.hiddenReplies[39311] ? 'expand_more' : 'expand_less'}} απόκρυψη απαντήσεων εμφάνιση απαντήσεων
Cangarejo Cangarejo 22 Δεκεμβρίου 2022 22 Δεκεμβρίου 2022 - 7:50:03 μ.μ. UTC flag Report link Μόνιμος σύνδεσμος

At the bottom of every page on Tatoeba there’s a link to the Downloads page, which is updated weekly.

https://tatoeba.org/downloads

CK CK 23 Δεκεμβρίου 2022, τροποποιήθηκε την την 23 Δεκεμβρίου 2022 23 Δεκεμβρίου 2022 - 1:37:59 π.μ. UTC, τροποποιήθηκε την 23 Δεκεμβρίου 2022 - 1:42:44 π.μ. UTC flag Report link Μόνιμος σύνδεσμος

If it is the English sentences on List 907 that you are interested in, you can download them at any time from this URL.

https://tatoeba.org/en/sentence...s/download/907

You will also have the option to include any linked Russian sentence.

Note that this export doesn't include the names of the sentence owners, though.