Note

The data you will find here will NOT be useful unless you are coding a language tool or processing data.

If you simply want sentences that you can use to learn a language, check out the sentence lists. You can build your own, or view the ones that others have created. The lists can be downloaded and printed.

General information about the files

Many of the Japanese and English sentences are from the Tanaka Corpus, which belongs to the public domain.

Creative commons

These files are released under CC BY 2.0 FR.

A part of our sentences are also available under CC0 1.0.

Licenses covering audio

The license covering an audio file is chosen by the contributor, and is indicated on the page that lists the audio files that he or she has contributed.

Questions?

If you have questions or requests, feel free to contact us. In general, we answer quickly.

Downloads

Use this tool to generate and download customized exports on demand.

translate

Sentence pairs

Download all sentences in language A with translations in language B

Download all sentences in language A that are translated into language B, along with the translations.

Sentence language:

Translation language:

info The files provided below are updated every Saturday at 6:30 a.m. (UTC).

Sentences

Filename: {{sentences | filename}}
All languages
Only sentences in: აბაზური ენა ადიღეური ავადი აზერბაიჯანული აიმარა აინუური ალბანური ამჰარული არაბული არაგონული ასამური ასტურიული ასურული ენა აფრიკაანსი აფხაზური ენა აწინკნური ენა ბავარიული დიალექტი ბალინური ბამბარა ბასკური ბაშკირული ბელორუსული ბელუჯი ბენგალური ენა ბერძნული ბირმული ბისლამა ბოდო ბოსნიური ბოჯპური ბრეტონული ბულგარული ბურიატული ენა გა გაგაუზური გალისიური გერმანული გილბერტული გოთური გრენლანდიური ენა გუარანი გუჯარათი დაბლობის კრი დანიური დარგუული დასავლეთსომხური ენა დუნგანური ენა ებრაული ევე ერზია ესპანური ესპერანტო ესტონური ვალონური ვარაი ვიეტნამური ვოლაპუკი ვოლოფური ზაზაკი ზემოსორბული ზულუ თათრული თალიშური ენა თიგრე თურქმენული თურქული იავური იაკუტური იაპონური იბანი იგბო იდიში იდო ილოკური ენა ინგლისური ინდონეზიური ინტერლინგი ინტერლინგუალური ინუკტიტუტი იორუბა ირლანდიური ისლანდიური იტალიური კაბილური კაიუგა კამბა კანადა კანტონური კარელიური კატალანური კაშუბური კეჩუა კინიარუანდა კლინგონი კომი-პერმიაკული კონგოს სუაჰილი კორეული კორნული კორსიკული ლადინო ლადინური ენა ლაზური ენა ლათინური ლაკოტა ლაოსური ლატგალიური ენა ლატვიური ენა ლევანტური არაბული ენა ლიეტუვური ლივური ენა ლიმბურგული ლინგალა ლოჟბანი ლუიზიანას კრეოლური ლუქსემბურგული მადურული მაითილი მაკედონური მალაგასიური მალაიალამური მალაიური მალდივური ენა მალტური მანჯურიული მაორი მაპუდუნგუნი მარათჰი მარშალური მეგრული ენა მენური მიკმაკი მინანგკაბაუ მირანდული მონღოლური მორისიენი მოქშა მოჰაუკური ნავახო ნაურუული ენა ნეაპოლიტანური ნევარი ნეპალური ნიდერლანდური ნიუე ნოვიალი ნორვეგიული ბუკმოლი ნორვეგიული ნიუნორსკი ნოღაური ნუერი ოსმალური ენა ოსური ენა ოქსიტანური პალი პანგასინანი პაპიამენტო პოლონური პორტუგალური პუშტუ რაპანუი რეტორომანული როჰინგა რუანდა-ბურუნდიული ენა რუმინული რუსინული ენა რუსული სამოა სამხრეთ ალთაური სამხრეთ სოთოს ენა სამხრეთსამური სამხრეთული ჰაიდა სამხრეთქურთული სანგო სანსკრიტი სანტალი სარდინიული საშუალო ინგლისური საშუალო ფრანგული სებუანო სერბული სილეზიური ენა სინდარული სინდჰური სინჰალური სირიული ენა სიცილიური სლოვაკური სლოვენური სომალიური სპარსული სრანან ტონგო სტანდარტული მაროკოული ტამაზიგხტი სუაჰილი სუნდური ტაი ტაიტური ტამილური ტაჯიკური ტელუგუ ტიბეტური ტიგრინია ტოკ-პისინი ტოკი-პონა ტონგანური ტსონგა ტუვა ტუმბუკა უდმურტული უელსური უზბეკური უიღურული უკრაინული უმბუნდუ უნგრული ურდუ ფალაუანი ფარერული ფინიკიური ფინური ფიჯი ფრანგული ფრიულური ქართული ქაშმირული ქვემოსორბული ქმერული ქჰოსა ყაბარდოული ყაზახური ყალმუხური ყარაყალპაკური ენა ყარაჩაულ-ბალყარული ყირგიზული ყირიმელი თათრების ენა ყუმუხური შვედური შვეიცარიული გერმანული შონა შოტლანდიური შოტლანდიური გელური შუმერული ჩამორო ჩეროკი ჩეჩნური ჩეხური ჩინუკის ჟარგონი ჩინური ჩოკტო ჩრდილოეთ საამური ჩუვაშური ჩუკოტკური ენა ძველი ბერძნული ძველი ინგლისური ძველი ფრანგული ძველსკანდინავიური ხაკასური ენა ხასი ხორვატული ხუნძური ენა ჰავაიური ჰაიდა ჰაიტიური კრეოლი ჰაუსა ჰილიგაინონი ჰინდი Afrihili Aklanon Algerian Arabic Ancient Hebrew Ao Naga Banjar Baybayanon Berber Berom Brithenig Central Bikol Central Dusun Central Huasteca Nahuatl Central Kanuri Central Kurdish (Soranî) Central Mnong Chagatai Chavacano Chinese Pidgin English Chinyanja Coastal Kadazan Cuyonon CycL Drents Dutton World Speedwords Eastern Armenian Egyptian Arabic Emilian Erromintxela Evenki Extremaduran Fiji Hindi Frisian Gan Chinese Garhwali Gheg Albanian Gronings Guadeloupean Creole French Guerrero Nahuatl Gulf Arabic Gun Hakka Chinese Hill Mari Hitchiti Hmong Daw (White) Hmong Njua (Green) Ho Hunsrik Ingrian Interglossa Interslavic Iraqi Arabic Isan Jamaican Patois Jewish Babylonian Aramaic Jewish Palestinian Aramaic Jin Chinese Juhuri (Judeo-Tat) K'iche' Kapampangan Karakhanid Kekchi (Q'eqchi') Kelantan-Pattani Malay Keningau Murut Khalaj Kölsch Komi-Zyrian Konkani (Goan) Kotava Kven Finnish Láadan Lezgi Libyan Arabic Ligurian Lingua Franca Nova Literary Chinese Lombard Low German (Low Saxon) Luganda Lushootseed Mahasu Pahari Malay (Vernacular) Mambae Mandar Meadow Mari Meitei Middle Persian (Pahlavi) Min Nan Chinese Mon Mono (USA) Moroccan Arabic Muskogee (Creek) Naga (Tangshang) Nahuatl Nande Ngeq Nigerian Fulfulde North Frisian North Moluccan Malay Northern Kurdish (Kurmancî) Northern Zaza (Kirmanjki) Nuosu Nyungar O'odham Odia (Oriya) Ojibwe Okinawan Old Aramaic Old East Slavic Old Frisian Old Prussian Old Saxon Old Spanish Old Turkish Orizaba Nahuatl Palatine German Pennsylvania German Picard Piedmontese Pipil Pulaar Punjabi (Eastern) Punjabi (Western) Qashqai Quenya Rendille Samogitian Saraiki Saterland Frisian Setswana Seychellois Creole Shanghainese Shuswap South Levantine Arabic Southern Subanen Southern Zaza (Dimli) Svan Swabian Swazi Sylheti Tachawit Tagal Murut Tahaggart Tamahaq Talossan Tarifit Tashelhit Temuan Tetun tl Tokelauan Tonga (Zambezi) Tupinambá Tuvaluan Uab Meto Urhobo Venetian Veps Võro Wayuu West-Central Oromo Xiang Chinese Yucatec Maya Zeelandic Unknown language
File description: Contains all the sentences in the selected language. Each sentence is associated with a unique id and an ISO 639-3 language code.
Fields and structure: Sentence id [tab] Lang [tab] Text

Detailed Sentences

Filename: {{sentencesDetailed | filename}}
All languages
Only sentences in: აბაზური ენა ადიღეური ავადი აზერბაიჯანული აიმარა აინუური ალბანური ამჰარული არაბული არაგონული ასამური ასტურიული ასურული ენა აფრიკაანსი აფხაზური ენა აწინკნური ენა ბავარიული დიალექტი ბალინური ბამბარა ბასკური ბაშკირული ბელორუსული ბელუჯი ბენგალური ენა ბერძნული ბირმული ბისლამა ბოდო ბოსნიური ბოჯპური ბრეტონული ბულგარული ბურიატული ენა გა გაგაუზური გალისიური გერმანული გილბერტული გოთური გრენლანდიური ენა გუარანი გუჯარათი დაბლობის კრი დანიური დარგუული დასავლეთსომხური ენა დუნგანური ენა ებრაული ევე ერზია ესპანური ესპერანტო ესტონური ვალონური ვარაი ვიეტნამური ვოლაპუკი ვოლოფური ზაზაკი ზემოსორბული ზულუ თათრული თალიშური ენა თიგრე თურქმენული თურქული იავური იაკუტური იაპონური იბანი იგბო იდიში იდო ილოკური ენა ინგლისური ინდონეზიური ინტერლინგი ინტერლინგუალური ინუკტიტუტი იორუბა ირლანდიური ისლანდიური იტალიური კაბილური კაიუგა კამბა კანადა კანტონური კარელიური კატალანური კაშუბური კეჩუა კინიარუანდა კლინგონი კომი-პერმიაკული კონგოს სუაჰილი კორეული კორნული კორსიკული ლადინო ლადინური ენა ლაზური ენა ლათინური ლაკოტა ლაოსური ლატგალიური ენა ლატვიური ენა ლევანტური არაბული ენა ლიეტუვური ლივური ენა ლიმბურგული ლინგალა ლოჟბანი ლუიზიანას კრეოლური ლუქსემბურგული მადურული მაითილი მაკედონური მალაგასიური მალაიალამური მალაიური მალდივური ენა მალტური მანჯურიული მაორი მაპუდუნგუნი მარათჰი მარშალური მეგრული ენა მენური მიკმაკი მინანგკაბაუ მირანდული მონღოლური მორისიენი მოქშა მოჰაუკური ნავახო ნაურუული ენა ნეაპოლიტანური ნევარი ნეპალური ნიდერლანდური ნიუე ნოვიალი ნორვეგიული ბუკმოლი ნორვეგიული ნიუნორსკი ნოღაური ნუერი ოსმალური ენა ოსური ენა ოქსიტანური პალი პანგასინანი პაპიამენტო პოლონური პორტუგალური პუშტუ რაპანუი რეტორომანული როჰინგა რუანდა-ბურუნდიული ენა რუმინული რუსინული ენა რუსული სამოა სამხრეთ ალთაური სამხრეთ სოთოს ენა სამხრეთსამური სამხრეთული ჰაიდა სამხრეთქურთული სანგო სანსკრიტი სანტალი სარდინიული საშუალო ინგლისური საშუალო ფრანგული სებუანო სერბული სილეზიური ენა სინდარული სინდჰური სინჰალური სირიული ენა სიცილიური სლოვაკური სლოვენური სომალიური სპარსული სრანან ტონგო სტანდარტული მაროკოული ტამაზიგხტი სუაჰილი სუნდური ტაი ტაიტური ტამილური ტაჯიკური ტელუგუ ტიბეტური ტიგრინია ტოკ-პისინი ტოკი-პონა ტონგანური ტსონგა ტუვა ტუმბუკა უდმურტული უელსური უზბეკური უიღურული უკრაინული უმბუნდუ უნგრული ურდუ ფალაუანი ფარერული ფინიკიური ფინური ფიჯი ფრანგული ფრიულური ქართული ქაშმირული ქვემოსორბული ქმერული ქჰოსა ყაბარდოული ყაზახური ყალმუხური ყარაყალპაკური ენა ყარაჩაულ-ბალყარული ყირგიზული ყირიმელი თათრების ენა ყუმუხური შვედური შვეიცარიული გერმანული შონა შოტლანდიური შოტლანდიური გელური შუმერული ჩამორო ჩეროკი ჩეჩნური ჩეხური ჩინუკის ჟარგონი ჩინური ჩოკტო ჩრდილოეთ საამური ჩუვაშური ჩუკოტკური ენა ძველი ბერძნული ძველი ინგლისური ძველი ფრანგული ძველსკანდინავიური ხაკასური ენა ხასი ხორვატული ხუნძური ენა ჰავაიური ჰაიდა ჰაიტიური კრეოლი ჰაუსა ჰილიგაინონი ჰინდი Afrihili Aklanon Algerian Arabic Ancient Hebrew Ao Naga Banjar Baybayanon Berber Berom Brithenig Central Bikol Central Dusun Central Huasteca Nahuatl Central Kanuri Central Kurdish (Soranî) Central Mnong Chagatai Chavacano Chinese Pidgin English Chinyanja Coastal Kadazan Cuyonon CycL Drents Dutton World Speedwords Eastern Armenian Egyptian Arabic Emilian Erromintxela Evenki Extremaduran Fiji Hindi Frisian Gan Chinese Garhwali Gheg Albanian Gronings Guadeloupean Creole French Guerrero Nahuatl Gulf Arabic Gun Hakka Chinese Hill Mari Hitchiti Hmong Daw (White) Hmong Njua (Green) Ho Hunsrik Ingrian Interglossa Interslavic Iraqi Arabic Isan Jamaican Patois Jewish Babylonian Aramaic Jewish Palestinian Aramaic Jin Chinese Juhuri (Judeo-Tat) K'iche' Kapampangan Karakhanid Kekchi (Q'eqchi') Kelantan-Pattani Malay Keningau Murut Khalaj Kölsch Komi-Zyrian Konkani (Goan) Kotava Kven Finnish Láadan Lezgi Libyan Arabic Ligurian Lingua Franca Nova Literary Chinese Lombard Low German (Low Saxon) Luganda Lushootseed Mahasu Pahari Malay (Vernacular) Mambae Mandar Meadow Mari Meitei Middle Persian (Pahlavi) Min Nan Chinese Mon Mono (USA) Moroccan Arabic Muskogee (Creek) Naga (Tangshang) Nahuatl Nande Ngeq Nigerian Fulfulde North Frisian North Moluccan Malay Northern Kurdish (Kurmancî) Northern Zaza (Kirmanjki) Nuosu Nyungar O'odham Odia (Oriya) Ojibwe Okinawan Old Aramaic Old East Slavic Old Frisian Old Prussian Old Saxon Old Spanish Old Turkish Orizaba Nahuatl Palatine German Pennsylvania German Picard Piedmontese Pipil Pulaar Punjabi (Eastern) Punjabi (Western) Qashqai Quenya Rendille Samogitian Saraiki Saterland Frisian Setswana Seychellois Creole Shanghainese Shuswap South Levantine Arabic Southern Subanen Southern Zaza (Dimli) Svan Swabian Swazi Sylheti Tachawit Tagal Murut Tahaggart Tamahaq Talossan Tarifit Tashelhit Temuan Tetun tl Tokelauan Tonga (Zambezi) Tupinambá Tuvaluan Uab Meto Urhobo Venetian Veps Võro Wayuu West-Central Oromo Xiang Chinese Yucatec Maya Zeelandic Unknown language
File description: Contains additional fields for each sentence (owner name, date created/modified).
Fields and structure: Sentence id [tab] Lang [tab] Text [tab] Username [tab] Date added [tab] Date last modified

Original and Translated Sentences

Filename

sentences_base.tar.bz2

File description

Each sentence is listed as original or a translation of another. The "base" field can have the following values:

zero: The sentence is original, not a translation of another.
greater than zero: The id of the sentence from which it was translated.
\N: Unknown (rare).

Fields and structure

Sentence id [tab] Base field

Sentences (CC0)

Filename: {{sentencesCC0 | filename}}
All languages
Only sentences in: არაბული ბელორუსული ბენგალური ენა გერმანული დანიური ებრაული ესპანური ესპერანტო ვოლაპუკი იაპონური იდიში იდო ინგლისური ინტერლინგი ინტერლინგუალური იტალიური კაბილური კანტონური კარელიური კატალანური კლინგონი ლადინო ლათინური ნიდერლანდური ნორვეგიული ბუკმოლი პოლონური პორტუგალური რუსული სანტალი საშუალო ინგლისური სტანდარტული მაროკოული ტამაზიგხტი ტოკი-პონა უელსური უკრაინული უნგრული ფინიკიური ფინური ფრანგული შვედური ჩეხური ჩინური ძველი ბერძნული ძველსკანდინავიური ჰინდი Algerian Arabic Ancient Hebrew Berber Ho Jewish Babylonian Aramaic Jewish Palestinian Aramaic Konkani (Goan) Kven Finnish Láadan Ligurian Literary Chinese Nyungar Odia (Oriya) Old Aramaic Old Frisian Sylheti Tachawit Unknown language
File description: Contains all the sentences available under CC0.
Fields and structure: Sentence id [tab] Lang [tab] Text [tab] Date last modified

Lists

Filename: user_lists.tar.bz2
File description: Contains the list of sentence lists.
Fields and structure: List id [tab] Username [tab] Date created [tab] Date last modified [tab] List name [tab] Editable by

Sentences in lists

Filename: sentences_in_lists.tar.bz2
File description: Indicates the sentences that are contained by any lists. 13 [tab] 381279 means that sentence #381279 is contained by the list that has an id of 13.
Fields and structure: List id [tab] Sentence id

Japanese indices

Filename: jpn_indices.tar.bz2
File description: Contains the equivalent of the "B lines" in the Tanaka Corpus file distributed by Jim Breen. See this page for the format. Each entry is associated with a pair of Japanese/English sentences. Sentence id refers to the id of the Japanese sentence. Meaning id refers to the id of the English sentence.
Fields and structure: Sentence id [tab] Meaning id [tab] Text

Sentences with audio

Filename: sentences_with_audio.tar.bz2
File description: Contains the ids of the sentences, in all languages, for which audio is available. Other fields indicate who recorded the audio, its license and a URL to attribute the author. If the license field is empty, you may not reuse the audio outside the Tatoeba project.
Downloading audio: A single sentence can have one or more audio, each from a different voice. To download a particular audio, use its audio id to compute the download URL. For example, to download the audio with the id 1234, the URL is https://tatoeba.org/audio/download/1234.
Fields and structure: Sentence id [tab] Audio id [tab] Username [tab] License [tab] Attribution URL

User skill level per language

Filename: user_languages.tar.bz2
File description: Indicates the self-reported skill levels of members in individual languages.
Fields and structure: Lang [tab] Skill level [tab] Username [tab] Details

Users' sentence reviews

Filename: users_sentences.csv
File description: Contains sentences reviewed by users. The value of the review can be -1 (sentence not OK), 0 (undecided or unsure), or 1 (sentence OK). Warning: this data is still experimental.
Fields and structure: Username [tab] Sentence id [tab] Review [tab] Date added [tab] Date last modified

Transcriptions

Filename: {{transcriptions | filename}}
All languages
Only sentences in: იაპონური კანტონური უზბეკური ჩინური
File description: Contains all transcriptions in auxiliary or alternative scripts. A username associated with a transcription indicates the user who last reviewed and possibly modified it. A transcription without a username has not been marked as reviewed. The script name is defined according to the ISO 15924 standard.
Fields and structure: Sentence id [tab] Lang [tab] Script name [tab] Username [tab] Transcription

Note

General information about the files

Creative commons

Licenses covering audio

Questions?

Downloads

Sentences

Detailed Sentences

Original and Translated Sentences

Sentences (CC0)

Links

Tags

Lists

Sentences in lists

Japanese indices

Sentences with audio

User skill level per language

Users' sentence reviews

Transcriptions

Need some help?

Developers

About

Note

General information about the files

Creative commons

Licenses covering audio

Questions?

Downloads

Custom exports

Sentence pairs

Weekly exports

Sentences

Detailed Sentences

Original and Translated Sentences

Sentences (CC0)

Links

Tags

Lists

Sentences in lists

Japanese indices

Sentences with audio

User skill level per language

Users' sentence reviews

Transcriptions

Need some help?

Developers

About