menu
Tatoeba
language
Register Log in
language Català
menu
Tatoeba

chevron_right Register

chevron_right Log in

Explorar

chevron_right Show random sentence

chevron_right Browse by language

chevron_right Browse by list

chevron_right Browse by tag

chevron_right Browse audio

Comunitat

chevron_right Wall

chevron_right List of all members

chevron_right Languages of members

chevron_right Native speakers

search
clear
swap_horiz
search

Note

The data you will find here will NOT be useful unless you are coding a language tool or processing data.

If you simply want sentences that you can use to learn a language, check out the sentence lists. You can build your own, or view the ones that others have created. The lists can be downloaded and printed.

General information about the files

Many of the Japanese and English sentences are from the Tanaka Corpus, which belongs to the public domain.

Creative commons

These files are released under CC BY 2.0 FR.

Creative Commons License CC-BY

A part of our sentences are also available under CC0 1.0.

Creative Commons License CC0

Licenses covering audio

The license covering an audio file is chosen by the contributor, and is indicated on the page that lists the audio files that he or she has contributed.

Questions?

If you have questions or requests, feel free to contact us. In general, we answer quickly.

Downloads

arrow_back

Custom exports

Sentence pairs

Use this tool to generate and download customized exports on demand.

translate Sentence pairs
Download all sentences in language A with translations in language B

Download all sentences in language A that are translated into language B, along with the translations.

Weekly exports

info The files provided below are updated every Saturday at 6:30 a.m. (UTC).

Oracions

Filename

{{sentences | filename}}

Tots els idiomes
Only sentences in: abazí Abkhaz Adigué afrihili Afrikaans Aimara Ainu aklanon Albanès albanès geg Alemany Alemany del Palatinat Alemany pennsilvanià Alemany suís Alt sòrab altaic meridional amazic estàndard marroquí Amhàric Anglès Anglès antic Anglès mitjà Antic eslau oriental Àrab àrab algerià àrab del Golf Àrab egipci Àrab iraquià àrab libi àrab llevantí meridional àrab llevantí septentrional Àrab marroquí Aragonès arameu antic armeni occidental Assamès Asturià Àvar awadhi Àzeri Baix alemany (Baix saxó) Baix sòrab Baixkir Balinès balutxi Bambara Banjar Basc Bavarès Baybayanon Bengalí Berber Berom Bhojpuri Bielorús bikol central birmà bislama bodo Bosnià Bretó Brithenig Búlgar Buriat cabilenc caixmiri Caixubi Calmuc caló basc Cantonès Carelià Castellà castellà antic Català cayuga Cebuà Central Dusun Central Huasteca Nahuatl Central Kanuri Central Kurdish (Soranî) Central Mnong Chamorro Chavacano chelja cherokee Chinese Pidgin English Choctaw Coastal Kadazan Concani Coreà Còrnic Cors cree de la plana Crioll de Guadeloupe crioll de les Seychelles crioll francès de Louisiana Crioll haitià Croata CycL Danès divehi Drents Dungan Dutton World Speedwords Eastern Armenian emilià escocès Eslovac Eslovè Esperanto Estonià Evenki Ewe Extremeny fenici Feroès Fijià Finès Francès Francès antic francès mitjà Frisó frisó antic frisó septentrional Furlà ga Gaèlic escocès Gagaús Gallec Gal·lès Ganda Garhwali Georgià Gilbertès Gòtic Grec Grec antic Groenlandès groninguès Guaraní Guerrero Nahuatl Gujarati Gun haida meridional haida septentrional Haussa Hawaià Hebreu Hebreu Bíblic híligaynon Hindi hindi de Fiji Hitchiti Hmong Daw (White) Hmong Njua (Green) ho Hongarès Hunsrik Iacut iban idioma ojibwa Ido Igbo Ilocano Indonesi Ingrià Interglossa Interlingua Interlingue Interslavic inuktitut Ioruba Irlandès isaan Islandès Italià jamaican Japonès Javanès Jiddisch jin Judeoarameu de Babilònia Judeoarameu de Palestina Judeocastellà Judeotat K'iche' kabardí kamba Kanarès Karakalpak Karakhanid karatxai-balkar Kazakh Kekchí (Q'eqchi') Kelantan-Pattani Malay Keningau Murut Khakàs khalaj Khasi Khmer Kirguís Klingon Kölsch komi-permiac Komi-Zyrian Kotava Kumyk kurd meridional Kuyonon Kven Finès láadan Ladí Lakota Laosià latgalià laz Letó Lezgi lígur limburguès lingala Lingua Franca Nova Lituà Livonià Llatí Llengua d'Okinawa Llombard Lojban luixutsid Luxemburguès Macedònic madurès Mahasu Pahari maithili Malai Malaiàlam Malay (Vernacular) Malgaix Maltès Mambae Mandar manipuri manx manxú Maori mapudungu Marathi Marshallès mauricià micmac minangkabau mingrelià Mirandès Mohawk Mokxa mon Mongol Mono (USA) mordovià erza Muskogee (Creek) Naga (Tangshang) Nàhuatl Nande napolità Nauruà navaho Neerlandès neoarameu assiri Nepalès newari Ngeq Nigerian Fulfulde niueà nogai Nòrdic antic North Moluccan Malay Northern Kurdish (Kurmancî) Northern Zaza (Kirmanjki) Noruec bokmål noruec nynorsk Novial nuer Nyanja Nyungar o'odham Occità Old Turkish Oriya Orizaba Nahuatl Osseta Paixtu palauà pali pampanga Pangasinan Panjabi (Occidental) Panjabi (Oriental) Papiament Persa Persa Mitjà (Pahlavi) Picard pidgin chinook Piemontès Pipil Polonès Portuguès prussià pulaar qaixqai Quenya Quítxua rapanui rendille rohingya Romanès Romaní Romanx ruandès rundi Rus Rutè Sami meridional sami septentrional Samoà Samogitià sango Sànscrit santali Sard Saterlandès Saxó clàssic seraiki Serbi Shanghainès Shawiya Shuswap Sicilià silesià Síndarin sindi Singalès Siríac Somali Sondanès sotho meridional Southern Subanen Southern Zaza (Dimli) sranan Suahili suahili del Congo Suec sueu Sumeri Swati sylheti Tadjik Tagal Tagal Murut Tahaggart Tamahaq Tahitià Tailandès Talixi Talossà Tàmil Tarifit (Rifeny) Tàtar Tàtar de Crimea Telugu temuan Tetum Tibetà tigre Tigrinya Tok pisin Tokelauà Toki pona Tonga (Zambezi) Tongalès Tsonga Tswana tumbuka Tupinambá Turc Turc otomà Turcman tuvalià Tuvinià txagatai Txec txeremís occidental txeremís oriental Txetxè Txuktxi Txuvaix uab meto Ucraïnès Udmurt Uigur Umbundu Urdú Urhobo Uzbek Való Vènet vepse Vietnamita Volapük võro waray wayú West-Central Oromo Wòlof xinès gan xinès hakka Xinès literari Xinès mandarí xinès min del sud xinès xiang Xona Xosa yi yukatek zaza zelandès Zulu Unknown language
File description
Contains all the sentences in the selected language. Each sentence is associated with a unique id and an ISO 639-3 language code.
Fields and structure
Sentence id [tab] Lang [tab] Text

Detailed Sentences

Filename

{{sentencesDetailed | filename}}

Tots els idiomes
Only sentences in: abazí Abkhaz Adigué afrihili Afrikaans Aimara Ainu aklanon Albanès albanès geg Alemany Alemany del Palatinat Alemany pennsilvanià Alemany suís Alt sòrab altaic meridional amazic estàndard marroquí Amhàric Anglès Anglès antic Anglès mitjà Antic eslau oriental Àrab àrab algerià àrab del Golf Àrab egipci Àrab iraquià àrab libi àrab llevantí meridional àrab llevantí septentrional Àrab marroquí Aragonès arameu antic armeni occidental Assamès Asturià Àvar awadhi Àzeri Baix alemany (Baix saxó) Baix sòrab Baixkir Balinès balutxi Bambara Banjar Basc Bavarès Baybayanon Bengalí Berber Berom Bhojpuri Bielorús bikol central birmà bislama bodo Bosnià Bretó Brithenig Búlgar Buriat cabilenc caixmiri Caixubi Calmuc caló basc Cantonès Carelià Castellà castellà antic Català cayuga Cebuà Central Dusun Central Huasteca Nahuatl Central Kanuri Central Kurdish (Soranî) Central Mnong Chamorro Chavacano chelja cherokee Chinese Pidgin English Choctaw Coastal Kadazan Concani Coreà Còrnic Cors cree de la plana Crioll de Guadeloupe crioll de les Seychelles crioll francès de Louisiana Crioll haitià Croata CycL Danès divehi Drents Dungan Dutton World Speedwords Eastern Armenian emilià escocès Eslovac Eslovè Esperanto Estonià Evenki Ewe Extremeny fenici Feroès Fijià Finès Francès Francès antic francès mitjà Frisó frisó antic frisó septentrional Furlà ga Gaèlic escocès Gagaús Gallec Gal·lès Ganda Garhwali Georgià Gilbertès Gòtic Grec Grec antic Groenlandès groninguès Guaraní Guerrero Nahuatl Gujarati Gun haida meridional haida septentrional Haussa Hawaià Hebreu Hebreu Bíblic híligaynon Hindi hindi de Fiji Hitchiti Hmong Daw (White) Hmong Njua (Green) ho Hongarès Hunsrik Iacut iban idioma ojibwa Ido Igbo Ilocano Indonesi Ingrià Interglossa Interlingua Interlingue Interslavic inuktitut Ioruba Irlandès isaan Islandès Italià jamaican Japonès Javanès Jiddisch jin Judeoarameu de Babilònia Judeoarameu de Palestina Judeocastellà Judeotat K'iche' kabardí kamba Kanarès Karakalpak Karakhanid karatxai-balkar Kazakh Kekchí (Q'eqchi') Kelantan-Pattani Malay Keningau Murut Khakàs khalaj Khasi Khmer Kirguís Klingon Kölsch komi-permiac Komi-Zyrian Kotava Kumyk kurd meridional Kuyonon Kven Finès láadan Ladí Lakota Laosià latgalià laz Letó Lezgi lígur limburguès lingala Lingua Franca Nova Lituà Livonià Llatí Llengua d'Okinawa Llombard Lojban luixutsid Luxemburguès Macedònic madurès Mahasu Pahari maithili Malai Malaiàlam Malay (Vernacular) Malgaix Maltès Mambae Mandar manipuri manx manxú Maori mapudungu Marathi Marshallès mauricià micmac minangkabau mingrelià Mirandès Mohawk Mokxa mon Mongol Mono (USA) mordovià erza Muskogee (Creek) Naga (Tangshang) Nàhuatl Nande napolità Nauruà navaho Neerlandès neoarameu assiri Nepalès newari Ngeq Nigerian Fulfulde niueà nogai Nòrdic antic North Moluccan Malay Northern Kurdish (Kurmancî) Northern Zaza (Kirmanjki) Noruec bokmål noruec nynorsk Novial nuer Nyanja Nyungar o'odham Occità Old Turkish Oriya Orizaba Nahuatl Osseta Paixtu palauà pali pampanga Pangasinan Panjabi (Occidental) Panjabi (Oriental) Papiament Persa Persa Mitjà (Pahlavi) Picard pidgin chinook Piemontès Pipil Polonès Portuguès prussià pulaar qaixqai Quenya Quítxua rapanui rendille rohingya Romanès Romaní Romanx ruandès rundi Rus Rutè Sami meridional sami septentrional Samoà Samogitià sango Sànscrit santali Sard Saterlandès Saxó clàssic seraiki Serbi Shanghainès Shawiya Shuswap Sicilià silesià Síndarin sindi Singalès Siríac Somali Sondanès sotho meridional Southern Subanen Southern Zaza (Dimli) sranan Suahili suahili del Congo Suec sueu Sumeri Swati sylheti Tadjik Tagal Tagal Murut Tahaggart Tamahaq Tahitià Tailandès Talixi Talossà Tàmil Tarifit (Rifeny) Tàtar Tàtar de Crimea Telugu temuan Tetum Tibetà tigre Tigrinya Tok pisin Tokelauà Toki pona Tonga (Zambezi) Tongalès Tsonga Tswana tumbuka Tupinambá Turc Turc otomà Turcman tuvalià Tuvinià txagatai Txec txeremís occidental txeremís oriental Txetxè Txuktxi Txuvaix uab meto Ucraïnès Udmurt Uigur Umbundu Urdú Urhobo Uzbek Való Vènet vepse Vietnamita Volapük võro waray wayú West-Central Oromo Wòlof xinès gan xinès hakka Xinès literari Xinès mandarí xinès min del sud xinès xiang Xona Xosa yi yukatek zaza zelandès Zulu Unknown language
File description
Contains additional fields for each sentence (owner name, date created/modified).
Fields and structure
Sentence id [tab] Lang [tab] Text [tab] Username [tab] Date added [tab] Date last modified

Original and Translated Sentences

Filename
sentences_base.tar.bz2
File description
Each sentence is listed as original or a translation of another. The "base" field can have the following values:
  • zero: The sentence is original, not a translation of another.
  • greater than zero: The id of the sentence from which it was translated.
  • \N: Unknown (rare).
Fields and structure
Sentence id [tab] Base field

Sentences (CC0)

Filename

{{sentencesCC0 | filename}}

Tots els idiomes
Only sentences in: Alemany amazic estàndard marroquí Anglès Anglès mitjà Àrab àrab algerià arameu antic Bengalí Berber Bielorús cabilenc Cantonès Carelià Castellà Català Concani Danès Esperanto fenici Finès Francès frisó antic Gal·lès Grec antic Hebreu Hebreu Bíblic Hindi ho Hongarès Ido Interlingua Interlingue Italià Japonès Jiddisch Judeoarameu de Babilònia Judeoarameu de Palestina Judeocastellà Klingon Kven Finès láadan lígur Llatí Neerlandès Nòrdic antic Noruec bokmål Nyungar Oriya Polonès Portuguès Rus santali Shawiya Suec sylheti Toki pona Txec Ucraïnès Volapük Xinès literari Xinès mandarí Unknown language
File description
Contains all the sentences available under CC0.
Fields and structure
Sentence id [tab] Lang [tab] Text [tab] Date last modified

Links

Filename
links.tar.bz2
File description
Contains the links between the sentences. 1 [tab] 77 means that sentence #77 is the translation of sentence #1. The reciprocal link is also present, so the file will also contain a line that says 77 [tab] 1.
Fields and structure
Sentence id [tab] Translation id

Tags

Filename
tags.tar.bz2
File description
Contains the list of tags associated with each sentence. 381279 [tab] proverb means that sentence #381279 has been assigned the "proverb" tag.
Fields and structure
Sentence id [tab] Tag name

Lists

Filename
user_lists.tar.bz2
File description
Contains the list of sentence lists.
Fields and structure
List id [tab] Username [tab] Date created [tab] Date last modified [tab] List name [tab] Editable by

Sentences in lists

Filename
sentences_in_lists.tar.bz2
File description
Indicates the sentences that are contained by any lists. 13 [tab] 381279 means that sentence #381279 is contained by the list that has an id of 13.
Fields and structure
List id [tab] Sentence id

Japanese indices

Filename
jpn_indices.tar.bz2
File description
Contains the equivalent of the "B lines" in the Tanaka Corpus file distributed by Jim Breen. See this page for the format. Each entry is associated with a pair of Japanese/English sentences. Sentence id refers to the id of the Japanese sentence. Meaning id refers to the id of the English sentence.
Fields and structure
Sentence id [tab] Meaning id [tab] Text

Oracions amb àudio

Filename
sentences_with_audio.tar.bz2
File description
Contains the ids of the sentences, in all languages, for which audio is available. Other fields indicate who recorded the audio, its license and a URL to attribute the author. If the license field is empty, you may not reuse the audio outside the Tatoeba project.
Downloading audio
A single sentence can have one or more audio, each from a different voice. To download a particular audio, use its audio id to compute the download URL. For example, to download the audio with the id 1234, the URL is https://tatoeba.org/audio/download/1234.
Fields and structure
Sentence id [tab] Audio id [tab] Username [tab] License [tab] Attribution URL

User skill level per language

Filename
user_languages.tar.bz2
File description
Indicates the self-reported skill levels of members in individual languages.
Fields and structure
Lang [tab] Skill level [tab] Username [tab] Details

Users' sentence reviews

Filename
users_sentences.csv
File description
Contains sentences reviewed by users. The value of the review can be -1 (sentence not OK), 0 (undecided or unsure), or 1 (sentence OK). Warning: this data is still experimental.
Fields and structure
Username [tab] Sentence id [tab] Review [tab] Date added [tab] Date last modified

Transcriptions

Filename

{{transcriptions | filename}}

Tots els idiomes
Only sentences in: Cantonès Japonès Uzbek Xinès mandarí
File description
Contains all transcriptions in auxiliary or alternative scripts. A username associated with a transcription indicates the user who last reviewed and possibly modified it. A transcription without a username has not been marked as reviewed. The script name is defined according to the ISO 15924 standard.
Fields and structure
Sentence id [tab] Lang [tab] Script name [tab] Username [tab] Transcription