menu
타토에바
language
회원 가입 로그인
language 한국어
menu
타토에바

chevron_right 회원 가입

chevron_right 로그인

검색하기

chevron_right Show random sentence

chevron_right 언어로 검색하기

chevron_right 리스트로 검색하기

chevron_right 태그로 검색하기

chevron_right 오디오로 검색하기

커뮤니티

chevron_right 담벼락

chevron_right 전체 회원 리스트

chevron_right 회원들이 쓰는 언어

chevron_right 원어민

search
clear
swap_horiz
search
Selena777 Selena777 2022년 12월 11일 2022년 12월 11일 오후 7시 9분 57초 UTC flag Report link Permalink

Hello, how can I download sentences belonging to a particular user? There is "detailed sentences" option which let indicate user's name but doesn't let to choose it before downloading. Can I change it?

{{vm.hiddenReplies[39258] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
lbdx lbdx 2022년 12월 11일 2022년 12월 11일 오후 8시 35분 3초 UTC flag Report link Permalink

I don't think that's possible before downloading. Maybe the best thing to do is to download the sentences_detailed file of the desired language and then filter the user's sentences with a spreadsheet.

{{vm.hiddenReplies[39260] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
Selena777 Selena777 2022년 12월 12일 2022년 12월 12일 오후 4시 27분 22초 UTC flag Report link Permalink

Accepting this approach, I must download more than one million English sentences, when I really need about 30,000 right now. I guess the file would be too big to process it.

Plain scrapping from Tatoeba.org using Beautiful Soup looks better than that, but maybe it's possible to scrap the data from its source database without html tags?

{{vm.hiddenReplies[39262] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
lbdx lbdx 2022년 12월 12일 2022년 12월 12일 오후 4시 45분 51초 UTC flag Report link Permalink

> maybe it's possible to scrap the data from its source database without html tags?

if you have coding skills, maybe you can use the API (in beta).

https://en.wiki.tatoeba.org/articles/show/api#

{{vm.hiddenReplies[39263] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
Selena777 Selena777 2022년 12월 12일 2022년 12월 12일 오후 6시 13분 54초 UTC flag Report link Permalink

That's exactly what I need, thanks a lot!

Selena777 Selena777 2022년 12월 19일 2022년 12월 19일 오후 7시 22분 8초 UTC flag Report link Permalink

How can I get more than 1000 sentences unlike using the Tatoeba search? Is there any variable for that in the API? I tried "count=all" or "count=5000", but it didn't help.

Thanuir Thanuir 2022년 12월 12일 2022년 12월 12일 오후 6시 0분 43초 UTC flag Report link Permalink

FI
Jos tiedoston lataaminen ei ole ongelma itsessään, niin senhän voisi ladata ja sitten muokata tekstitiedostona. Poistaa vaan suurimman osan datasta, niin että jäljelle jää vain haluttu määrä lauseita.

EN
If downloading the file is not an issue as such, you could do that and edit the file (as a text file) to remove most of the data, leaving behind only a usable amount.

hecko hecko 2022년 12월 12일 2022년 12월 12일 오후 6시 1분 2초 UTC flag Report link Permalink

you'd be surprised, it's only 27mb compressed and 156mb uncompressed
using the fantastic `tatoebatools` python library (made by lbdx, funnily enough) i was able to filter for my own sentences in 5 seconds
granted, your computer might be weaker than my 4-year-old core i5 laptop, but it should still take less time than figuring out the api *or* beautifulsoup, let alone running them

{{vm.hiddenReplies[39265] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
Selena777 Selena777 2022년 12월 12일 2022년 12월 12일 오후 6시 21분 20초 UTC flag Report link Permalink

Where can I learn more about the 'tatoebatools' library? (I can assume it permits you having and processing all the Tatoeba database on your own computer, right?)

{{vm.hiddenReplies[39268] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
hecko hecko 2022년 12월 12일 2022년 12월 12일 오후 6시 51분 29초 UTC flag Report link Permalink

there's some documentation on the pypi page https://pypi.org/project/tatoebatools/
and yeah that's what it is, it handles all the downloading and csv quirks for you

Selena777 Selena777 2022년 12월 19일 2022년 12월 19일 오후 7시 25분 5초 UTC flag Report link Permalink

Thanks! Btw, do I need to download the database just once or every time using the library? Unfortunately, I didn't have enough of patience to wait for downloading the database but if it's just one time I can wait.

{{vm.hiddenReplies[39301] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
hecko hecko 2022년 12월 19일 2022년 12월 19일 오후 7시 28분 19초 UTC flag Report link Permalink

it saves it after downloading but it does redownload it if there's an update
updates are released every saturday at 6:30am utc

{{vm.hiddenReplies[39302] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
Selena777 Selena777 2022년 12월 19일 2022년 12월 19일 오후 7시 49분 50초 UTC flag Report link Permalink

Thanks for the answer, I'll try it, too.

{{vm.hiddenReplies[39303] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
CK CK 2022년 12월 20일, 수정된 때 2022년 12월 20일 2022년 12월 20일 오전 8시 38분 55초 UTC, 수정된 때 2022년 12월 20일 오전 8시 49분 34초 UTC flag Report link Permalink

🍎 Here are files with only 4 fields, omitting the dates.

sentence_ID + tab + language_code + tab + text + tab + sentence_owner


🥝 All the exported sentences
http://study.aitech.ac.jp/4flds...2022-12-17.zip
228 MB

🥝 Just the English sentences
http://study.aitech.ac.jp/4flds...2022-12-17.zip
27 MB

🥝 Just the 891,125 sentences on List 907
http://study.aitech.ac.jp/4flds...2022-12-17.zip
12 MB


Perhaps one of these will help you.

{{vm.hiddenReplies[39304] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
Selena777 Selena777 2022년 12월 22일 2022년 12월 22일 오후 7시 25분 20초 UTC flag Report link Permalink

Thanks a lot!
Where can I get updates with new sentences?

{{vm.hiddenReplies[39311] ? 'expand_more' : 'expand_less'}} 답변 숨기기 답변 보이기
Cangarejo Cangarejo 2022년 12월 22일 2022년 12월 22일 오후 7시 50분 3초 UTC flag Report link Permalink

At the bottom of every page on Tatoeba there’s a link to the Downloads page, which is updated weekly.

https://tatoeba.org/downloads

CK CK 2022년 12월 23일, 수정된 때 2022년 12월 23일 2022년 12월 23일 오전 1시 37분 59초 UTC, 수정된 때 2022년 12월 23일 오전 1시 42분 44초 UTC flag Report link Permalink

If it is the English sentences on List 907 that you are interested in, you can download them at any time from this URL.

https://tatoeba.org/en/sentence...s/download/907

You will also have the option to include any linked Russian sentence.

Note that this export doesn't include the names of the sentence owners, though.