Märge
The data you will find here will NOT be useful unless you are coding a language tool or processing data.
If you simply want sentences that you can use to learn a language, check out the sentence lists. You can build your own, or view the ones that others have created. The lists can be downloaded and printed.
General information about the files
Many of the Japanese and English sentences are from the Tanaka Corpus, which belongs to the public domain.
Creative commons
These files are released under CC BY 2.0 FR.

A part of our sentences are also available under CC0 1.0.

Litsentsid mis hõlmavad helisalvestusi
The license covering an audio file is chosen by the contributor, and is indicated on the page that lists the audio files that he or she has contributed.
Küsimusi?
If you have questions or requests, feel free to contact us. In general, we answer quickly.
Downloads
Use this tool to generate and download customized exports on demand.
Download all sentences in language A that are translated into language B, along with the translations.
Laused
- Faili nimi
-
Kõik keeled Ainult laused keeltes: Abasiini keel abhaasi adõgee afrihili afrikaani aimara ainu alamsaksa alamsorbi albaania alžeeria araabia altai amhara Ancient Hebrew araabia aragoni aserbaidžaani assami astuuria atoni avaari keel avadhi baieri bali bambara bandžari baski baski mustlaskeel baškiiri Baybayanon belau belutši bengali berberi Berom bhodžpuri birma bislama bodo bosnia bretooni brithenig bulgaaria burjaadi Central Bikol Central Huasteca Nahuatl Central Kurdish (Soranî) Central Mnong Cuyonon CycL Drents Dutton World Speedwords Eastern Armenian eesti egiptuse araabia emiilia ersa esperanto estremenju eve evengi fidži fidži hindi foiniikia friisi friuuli fääri gaa gaeli gagauusi galeegi ganda Garhwali geegi gooti Greziera Gronings gruusia grööni Guadeloupean Creole French guaranii gudžarati Guerrero nahuatli Gulf Arabic Gun haida haiiti kreool hakassi hakka haladži keel hausa havai heebrea hiina hiina-inglise pidžin hiligainoni hindi hispaania Hitchiti Hmong Daw (White) Hmong Njua (Green) hollandi hoo horvaadi hunsrüki ibani ibo ida-pandžabi ido iiri iloko inakeanoni keel indoneesia inglise Interglossa interlingua interlingue Interslavic inuktituti iraagi araabia Isan islandi isuri itaalia jaapani jaava jakuudi jamaika kreool jidiši Jin Chinese joruba juhuri (Judeo-Tat) juudi-babüloonia aramea juudi-palestiina aramea K'iche' kabardi-tšerkessi kabiili kadazani kajuka kalmõki kamba kani kannada kantoni karakalpaki Karakhanid karatšai-balkaari karjala kasahhi kaškai keel kašmiiri kašuubi katalaani Kekchi (Q'eqchi') Kelantan-Pattani Malay Keningau Murut Kesk-Okinawa keskdusuni keskinglise keskkanuri keel keskprantsuse ketšua khasi khmeeri kirgiisi kiribati klassikaline hiina klingoni Kongo suahiili konkani koosa korea korni korsika kotava krimmitatari kumõki kveeni kvenja kõmri kölni Láadan ladiini ladiino ladina lakota lao lašutsidi keel lazi latgali leedu Lezgi letseburgi Libyan Arabic liguuri liivi limburgi lingala Lingua Franca Nova lombardi ložban luisiaana kreool lõunahaida lõunakurdi lõunamini lõunasaami lõunasotho läti lääne-pandžabi Läänearmeenia keel Maaja keel madura Mahasu Pahari maithili makedoonia malagassi malai malajalami Malay (Vernacular) maldiivi malta mambae Mandar mandžu Manipuri keel maoori mapudunguni marathi maroko araabia maršalli mauriitiuse kreool megreli Middle Persian (Pahlavi) mikmaki minangkabau miranda mohoogi mokša mon mongoli Mono (USA) Muskogee (Creek) mustlaskeel mäemari mänksi Naga (Tangshang) nahuatli Nande napoli nauru navaho nepali nevari ngeki Nigerian Fulfulde niidumari niue nogai norra (Bokmål) North Levantine Arabic Northern Kurdish (Kurmancî) Northern Zaza (Kirmanjki) noviaal nueri nuosu Nyungar Odia (Oriya) odžibvei oksitaani oodhami keel Orizaba nahuatli osmanitürgi osseedi paali pampanga pangasinani papiamento Pennsylvania saksa permikomi pfaltsi piemonte pikardi pipili poola portugali prantsuse preisi pulaari puštu Põhja-Maluka malai põhjafriisi põhjasaami pärsia rapanui Rendille rohingja romanši rootsi ruanda rumeenia rundi russiini saksa samoa sango sanskriti santali Saraiki sardi saterlandi friisi sebu seišelli serbia sileesia Siloti keel sindarini sindhi singali sitsiilia sjangi slovaki sloveeni somaali soome South Levantine Arabic Southern Subanen Southern Zaza (Dimli) sranani suahiili sumeri sunda suulu svaasi sürjakomi süüria uus-aramea šanghai šona šoti šusvapi švaabi šveitsisaksa zaza zeelandi žemaidi taani Tachawit tadžiki Tagal Murut tagalogi Tahaggart Tamahaq tahiti tai Talossan talõši tamasikti (Maroko) tamili Tarifit tasandikukrii Tashelhit tatari telugu Temuan tetuni tigree tigrinja tiibeti tokelau toki pona tonga Tonga (Zambezi) tsonga tsvana tšagatai tšamorro tšavakano tšehhi tšerokii tšetšeeni tšinjandža tšinuki žargoon tšokto tšuktši tšuvaši tumbuka tungani Tupinambá tuvalu keel tõva türgi türkmeeni udmurdi uiguuri ukraina umbundu ungari urdu Urhobo usbeki uusmelaneesia uusnorra vajuu valgevene vallooni vana-aramea vana-türgi vanafriisi keel vanahispaania vanainglise vanakreeka vanaprantsuse vanapõhjala vanasaksi vanasüüria vanavene varai vene veneti vepsa vietnami volapüki volofi võru West-Central Oromo ülemsorbi Unknown language - Faili kirjeldus
- Contains all the sentences in the selected language. Each sentence is associated with a unique id and an ISO 639-3 language code.
- Fields and structure
- Lause ID [tab] Keel [tab] Tekst
Detailed Sentences
- Faili nimi
-
{{sentencesDetailed | filename}}
Kõik keeled Ainult laused keeltes: Abasiini keel abhaasi adõgee afrihili afrikaani aimara ainu alamsaksa alamsorbi albaania alžeeria araabia altai amhara Ancient Hebrew araabia aragoni aserbaidžaani assami astuuria atoni avaari keel avadhi baieri bali bambara bandžari baski baski mustlaskeel baškiiri Baybayanon belau belutši bengali berberi Berom bhodžpuri birma bislama bodo bosnia bretooni brithenig bulgaaria burjaadi Central Bikol Central Huasteca Nahuatl Central Kurdish (Soranî) Central Mnong Cuyonon CycL Drents Dutton World Speedwords Eastern Armenian eesti egiptuse araabia emiilia ersa esperanto estremenju eve evengi fidži fidži hindi foiniikia friisi friuuli fääri gaa gaeli gagauusi galeegi ganda Garhwali geegi gooti Greziera Gronings gruusia grööni Guadeloupean Creole French guaranii gudžarati Guerrero nahuatli Gulf Arabic Gun haida haiiti kreool hakassi hakka haladži keel hausa havai heebrea hiina hiina-inglise pidžin hiligainoni hindi hispaania Hitchiti Hmong Daw (White) Hmong Njua (Green) hollandi hoo horvaadi hunsrüki ibani ibo ida-pandžabi ido iiri iloko inakeanoni keel indoneesia inglise Interglossa interlingua interlingue Interslavic inuktituti iraagi araabia Isan islandi isuri itaalia jaapani jaava jakuudi jamaika kreool jidiši Jin Chinese joruba juhuri (Judeo-Tat) juudi-babüloonia aramea juudi-palestiina aramea K'iche' kabardi-tšerkessi kabiili kadazani kajuka kalmõki kamba kani kannada kantoni karakalpaki Karakhanid karatšai-balkaari karjala kasahhi kaškai keel kašmiiri kašuubi katalaani Kekchi (Q'eqchi') Kelantan-Pattani Malay Keningau Murut Kesk-Okinawa keskdusuni keskinglise keskkanuri keel keskprantsuse ketšua khasi khmeeri kirgiisi kiribati klassikaline hiina klingoni Kongo suahiili konkani koosa korea korni korsika kotava krimmitatari kumõki kveeni kvenja kõmri kölni Láadan ladiini ladiino ladina lakota lao lašutsidi keel lazi latgali leedu Lezgi letseburgi Libyan Arabic liguuri liivi limburgi lingala Lingua Franca Nova lombardi ložban luisiaana kreool lõunahaida lõunakurdi lõunamini lõunasaami lõunasotho läti lääne-pandžabi Läänearmeenia keel Maaja keel madura Mahasu Pahari maithili makedoonia malagassi malai malajalami Malay (Vernacular) maldiivi malta mambae Mandar mandžu Manipuri keel maoori mapudunguni marathi maroko araabia maršalli mauriitiuse kreool megreli Middle Persian (Pahlavi) mikmaki minangkabau miranda mohoogi mokša mon mongoli Mono (USA) Muskogee (Creek) mustlaskeel mäemari mänksi Naga (Tangshang) nahuatli Nande napoli nauru navaho nepali nevari ngeki Nigerian Fulfulde niidumari niue nogai norra (Bokmål) North Levantine Arabic Northern Kurdish (Kurmancî) Northern Zaza (Kirmanjki) noviaal nueri nuosu Nyungar Odia (Oriya) odžibvei oksitaani oodhami keel Orizaba nahuatli osmanitürgi osseedi paali pampanga pangasinani papiamento Pennsylvania saksa permikomi pfaltsi piemonte pikardi pipili poola portugali prantsuse preisi pulaari puštu Põhja-Maluka malai põhjafriisi põhjasaami pärsia rapanui Rendille rohingja romanši rootsi ruanda rumeenia rundi russiini saksa samoa sango sanskriti santali Saraiki sardi saterlandi friisi sebu seišelli serbia sileesia Siloti keel sindarini sindhi singali sitsiilia sjangi slovaki sloveeni somaali soome South Levantine Arabic Southern Subanen Southern Zaza (Dimli) sranani suahiili sumeri sunda suulu svaasi sürjakomi süüria uus-aramea šanghai šona šoti šusvapi švaabi šveitsisaksa zaza zeelandi žemaidi taani Tachawit tadžiki Tagal Murut tagalogi Tahaggart Tamahaq tahiti tai Talossan talõši tamasikti (Maroko) tamili Tarifit tasandikukrii Tashelhit tatari telugu Temuan tetuni tigree tigrinja tiibeti tokelau toki pona tonga Tonga (Zambezi) tsonga tsvana tšagatai tšamorro tšavakano tšehhi tšerokii tšetšeeni tšinjandža tšinuki žargoon tšokto tšuktši tšuvaši tumbuka tungani Tupinambá tuvalu keel tõva türgi türkmeeni udmurdi uiguuri ukraina umbundu ungari urdu Urhobo usbeki uusmelaneesia uusnorra vajuu valgevene vallooni vana-aramea vana-türgi vanafriisi keel vanahispaania vanainglise vanakreeka vanaprantsuse vanapõhjala vanasaksi vanasüüria vanavene varai vene veneti vepsa vietnami volapüki volofi võru West-Central Oromo ülemsorbi Unknown language - Faili kirjeldus
- Contains additional fields for each sentence (owner name, date created/modified).
- Fields and structure
- Lause ID [tab] Keel [tab] Tekst [tab] Kasutajanimi [tab] Date added [tab] Date last modified
Original and Translated Sentences
- Faili nimi
- sentences_base.tar.bz2
- Faili kirjeldus
-
Each sentence is listed as original or a translation of another. The "base" field can have the following values:
- zero: The sentence is original, not a translation of another.
- greater than zero: The id of the sentence from which it was translated.
- \N: Unknown (rare).
- Fields and structure
- Lause ID [tab] Base field
Sentences (CC0)
- Faili nimi
-
Kõik keeled Ainult laused keeltes: alžeeria araabia Ancient Hebrew araabia bengali berberi esperanto foiniikia heebrea hiina hindi hispaania hollandi hoo ido inglise interlingua interlingue itaalia jaapani jidiši juudi-babüloonia aramea juudi-palestiina aramea kabiili kantoni karjala katalaani keskinglise klassikaline hiina klingoni konkani kveeni kõmri Láadan ladiino ladina liguuri norra (Bokmål) Nyungar Odia (Oriya) poola portugali prantsuse rootsi saksa santali Siloti keel soome taani Tachawit tamasikti (Maroko) toki pona tšehhi ukraina ungari valgevene vana-aramea vanafriisi keel vanakreeka vanapõhjala vene volapüki Unknown language - Faili kirjeldus
- Contains all the sentences available under CC0.
- Fields and structure
- Lause ID [tab] Keel [tab] Tekst [tab] Date last modified
Links
- Faili nimi
- links.tar.bz2
- Faili kirjeldus
- Contains the links between the sentences. 1 [tab] 77 means that sentence #77 is the translation of sentence #1. The reciprocal link is also present, so the file will also contain a line that says 77 [tab] 1.
- Fields and structure
- Lause ID [tab] Translation id
Tags
- Faili nimi
- tags.tar.bz2
- Faili kirjeldus
- Contains the list of tags associated with each sentence. 381279 [tab] proverb means that sentence #381279 has been assigned the "proverb" tag.
- Fields and structure
- Lause ID [tab] Tag name
Nimekirjad
- Faili nimi
- user_lists.tar.bz2
- Faili kirjeldus
- Contains the list of sentence lists.
- Fields and structure
- List id [tab] Kasutajanimi [tab] Date created [tab] Date last modified [tab] List name [tab] Editable by
Sentences in lists
- Faili nimi
- sentences_in_lists.tar.bz2
- Faili kirjeldus
- Indicates the sentences that are contained by any lists. 13 [tab] 381279 means that sentence #381279 is contained by the list that has an id of 13.
- Fields and structure
- List id [tab] Lause ID
Japanese indices
- Faili nimi
- jpn_indices.tar.bz2
- Faili kirjeldus
- Contains the equivalent of the "B lines" in the Tanaka Corpus file distributed by Jim Breen. See this page for the format. Each entry is associated with a pair of Japanese/English sentences. Lause ID refers to the id of the Japanese sentence. Meaning id refers to the id of the English sentence.
- Fields and structure
- Lause ID [tab] Meaning id [tab] Tekst
Helisalvestustega laused
- Faili nimi
- sentences_with_audio.tar.bz2
- Faili kirjeldus
- Contains the ids of the sentences, in all languages, for which audio is available. Other fields indicate who recorded the audio, its license and a URL to attribute the author. If the license field is empty, you may not reuse the audio outside the Tatoeba project.
- Downloading audio
- A single sentence can have one or more audio, each from a different voice. To download a particular audio, use its audio id to compute the download URL. For example, to download the audio with the id 1234, the URL is https://tatoeba.org/audio/download/1234.
- Fields and structure
- Lause ID [tab] Audio id [tab] Kasutajanimi [tab] Litsents [tab] Attribution URL
Kasutaja keeletasemed keelte kaupa
- Faili nimi
- user_languages.tar.bz2
- Faili kirjeldus
- Indicates the self-reported skill levels of members in individual languages.
- Fields and structure
- Keel [tab] Skill level [tab] Kasutajanimi [tab] Details
Users' sentence reviews
- Faili nimi
- users_sentences.csv
- Faili kirjeldus
- Contains sentences reviewed by users. The value of the review can be -1 (sentence not OK), 0 (undecided or unsure), or 1 (sentence OK). Warning: this data is still experimental.
- Fields and structure
- Kasutajanimi [tab] Lause ID [tab] Review [tab] Date added [tab] Date last modified
Transcriptions
- Faili nimi
-
Kõik keeled Ainult laused keeltes: hiina jaapani kantoni usbeki - Faili kirjeldus
- Contains all transcriptions in auxiliary or alternative scripts. A username associated with a transcription indicates the user who last reviewed and possibly modified it. A transcription without a username has not been marked as reviewed. The script name is defined according to the ISO 15924 standard.
- Fields and structure
- Lause ID [tab] Keel [tab] Script name [tab] Kasutajanimi [tab] Transcription