Заўвага
Дадзеныя на гэтай старонцы карысныя ТОЛЬКІ для тых, хто піша лінгвістычныя праграмы ці аўтаматычна апрацоўвае дадзеныя.
Калі вам проста патрэбныя сказы для вывучэння мовы, звярніце ўвагу на спісы сказаў. Вы можаце стварыць свой спіс ці паглядзець на чужыя. Спісы можна загрузіць і раздрукаваць.
General information about the files
Many of the Japanese and English sentences are from the Tanaka Corpus, which belongs to the public domain.
Creative Commons
These files are released under CC BY 2.0 FR.
A part of our sentences are also available under CC0 1.0.
Licenses covering audio
The license covering an audio file is chosen by the contributor, and is indicated on the page that lists the audio files that he or she has contributed.
Пытанні?
If you have questions or requests, feel free to contact us. In general, we answer quickly.
Файлы для загрузкі
Use this tool to generate and download customized exports on demand.
Download all sentences in language A that are translated into language B, along with the translations.
Сказы
- Filename
-
усе мовы Only sentences in: байбаянон абхаская авадхі аварская мова адыгейская азербайджанская аймара айнская Акінаўская мова акланонская аксітанская акцыдэнталь албанская амхарская англійская арабская арабская (Алжыр) арабская (Ірак) арабская (Персідскі заліў) арагонская асамская асецінская асірыйская новаарамейская асманская турэцкая астурыйская афрыканнс афрыхілі баварская балійская бамбарская банджарская баскская баснійская баўгарская башкірская беларуская Белуджская мова бенгальская берагавая кадазанская берберская бірманская біслама бода брэтонская бурацкая бходжпуры в’етнамская валапюк валійская валонская варай венгерская вепская верхнелужыцкая Выруская мова вэньянь га гавайская гагаузская гаіцянская крэольская галандская галісійскай гархвалі гегская албанская гильбецкая горнамарыйская горска-яўрэйская гоцкая гронінгенская грузінская грэнладская грэцкая гуадэлупская крэольская французская гуарані гуджараці гэльская дацкая дунганская дывехі егіпецкая арабская ёруба заза зулуская ібан ігба іда ідыш інгрыйская інданэзійская Інтэрглоса інтэрлінгва інуктытут ірландская ісландская іспанская італьянская іўрыт кабардзінская кабільская казахская калмыцкая камба канада кангалезская суахілі кантонская капампангская каракалпакская карачаеўска-балкарская карсіканская карэйская карэльская катава каталонская кашмірская кашмірская кашубская каюга квэння кечуа кёльнская кіньяруанда кірунды кітайска-англійскі піджын кітайская (Сян) кітайская ган кітайская, хака клінгонская комі-зыранская комі-пярмяцкая корнская коса крымскататарская куёнская кумыцкая кхмерская кыргызская лаадан ладзінская лазская лакота ламбардская лаоская Латгальская мова латышская лацінская лігурыйская лімбургская лінгальская Лінгва франка нова літоўская ліўская ложбан луганда луговамарыйская луізіанскі крэол люксембургская маары мадурская майтхілі македонская макшанская малагасійская малайская малайская (вусная) малаялам мальтыйская мамбаі мангольская Маньчжурская мова мапудунгун мараканская арабская маратхі маршальская марысьен Мегрэльская мова міжнародныя хуткасловы Датана мікмак мінангкабау мірандыйская мова силоті мова CycL монская мохак мэнская наваха навіяль нагайская нарвежская (букмол) нарвежская (нюношк) наўатль Наўруанская мова нгек неапалітанская непальская неўары ніжнелужыцкая ніжненямецкая (ніжнесаксонская) ніўэ нуэр ньяджа нямецкая п’емонцкая палау Палі пангасінан пап'ямента партугальская паўднёваалтайская паўднёвакурдская паўднёвамінская паўднёвасаамская паўднёвая хайда паўночнафрызская мова паўночная малукская малайская паўночны самі пенсыльванская нямецкая пікардская піпіль польская пруская пунджабі (заходні) пунджабі (усходні) путунхуа пушту пфальцкая нямецкая раўнінны кры рахінджа румынская русінская руская рэтараманская самаанская самагіцкая самалійская санга санскрыт санталі саражытнанарвежская сардынская сваці себуанская сейшэльскі крэол сербская сесута сефардская Сілезская мова сінгальская сіндарын сіндхі сірыйская мова сіцылійская славацкая славенская сранан-тонга стандартная мараканская тамазіхт старажытнаанглійская старажытнаарамейская старажытнагрэчаская старажытнаруская старажытнатурэцкая старажытнафрызская мова старасаксонская старафранцузская суахілі сунданская сярэднеанглійская сярэднефранцузская тагальская таджыкская мова таіцянская тайская Такелау талоская талышская тамільская танганская татарская ток-пісін токі-пона тсонга тувалу тувінская тумбука тупі туркменская турэцкая тыбецкая тыгрынья тыгрэ тэлугу тэтум удмурцкая узбекская уйгурская украінская умбунду урду Усходнефрызская мова ўолаф фарсі фарэрская фіджыйская фінікійская фінская французкая фрызская фрыульская хайда хакаская харвацкая хасі хаўса хілігайнон хіндзі хіндзі (Фіджы) цыганская мова цэнтральная бікольская цэнтральны дусун цэнтральны мнонг цэнтральны ўастэкскі нахуатль чавакана Чагатайская мова чактаўская чамора чувашская чукоцкая Чынук вава чэрокі чэчэнская чэшская шанхайская шатландская швабская шведская швейцарская нямецкая шона шумерская шусвап эве Эвенкійская мова экстрэмадурская эмільская эрзянская эсперанта эстонская яванская якуцкая японская Ancient Hebrew Berom Brithenig Central Kanuri Central Kurdish (Soranî) Drents Eastern Armenian Erromintxela Guerrero Nahuatl Hitchiti Hmong Daw (White) Hmong Njua (Green) Ho Hunsrik Ilocano Isan Jamaican Patois Jewish Babylonian Aramaic Jewish Palestinian Aramaic Jin Chinese K'iche' Karakhanid Kekchi (Q'eqchi') Kelantan-Pattani Malay Keningau Murut Khalaj Konkani (Goan) Kven Finnish Libyan Arabic Lushootseed Mahasu Pahari Meitei Middle Persian (Pahlavi) Mono (USA) Muskogee (Creek) Naga (Tangshang) Nande Nigerian Fulfulde North Levantine Arabic Northern Kurdish (Kurmancî) Northern Zaza (Kirmanjki) Nuosu Nyungar O'odham Odia (Oriya) Ojibwe Old Spanish Orizaba Nahuatl Pulaar Qashqai Rapa Nui Rendille Saraiki Setswana South Levantine Arabic Southern Subanen Southern Zaza (Dimli) Tachawit Tagal Murut Tahaggart Tamahaq Tarifit Tashelhit Temuan Tonga (Zambezi) Uab Meto Urhobo Wayuu Yucatec Maya Zeelandic Unknown language - Апісанне файла
- Contains all the sentences in the selected language. Each sentence is associated with a unique id and an ISO 639-3 language code.
- Паля і структуры
- Нумар сказа [табулятар] Мова [табулятар] Text
Detailed Sentences
- Filename
-
{{sentencesDetailed | filename}}
усе мовы Only sentences in: байбаянон абхаская авадхі аварская мова адыгейская азербайджанская аймара айнская Акінаўская мова акланонская аксітанская акцыдэнталь албанская амхарская англійская арабская арабская (Алжыр) арабская (Ірак) арабская (Персідскі заліў) арагонская асамская асецінская асірыйская новаарамейская асманская турэцкая астурыйская афрыканнс афрыхілі баварская балійская бамбарская банджарская баскская баснійская баўгарская башкірская беларуская Белуджская мова бенгальская берагавая кадазанская берберская бірманская біслама бода брэтонская бурацкая бходжпуры в’етнамская валапюк валійская валонская варай венгерская вепская верхнелужыцкая Выруская мова вэньянь га гавайская гагаузская гаіцянская крэольская галандская галісійскай гархвалі гегская албанская гильбецкая горнамарыйская горска-яўрэйская гоцкая гронінгенская грузінская грэнладская грэцкая гуадэлупская крэольская французская гуарані гуджараці гэльская дацкая дунганская дывехі егіпецкая арабская ёруба заза зулуская ібан ігба іда ідыш інгрыйская інданэзійская Інтэрглоса інтэрлінгва інуктытут ірландская ісландская іспанская італьянская іўрыт кабардзінская кабільская казахская калмыцкая камба канада кангалезская суахілі кантонская капампангская каракалпакская карачаеўска-балкарская карсіканская карэйская карэльская катава каталонская кашмірская кашмірская кашубская каюга квэння кечуа кёльнская кіньяруанда кірунды кітайска-англійскі піджын кітайская (Сян) кітайская ган кітайская, хака клінгонская комі-зыранская комі-пярмяцкая корнская коса крымскататарская куёнская кумыцкая кхмерская кыргызская лаадан ладзінская лазская лакота ламбардская лаоская Латгальская мова латышская лацінская лігурыйская лімбургская лінгальская Лінгва франка нова літоўская ліўская ложбан луганда луговамарыйская луізіанскі крэол люксембургская маары мадурская майтхілі македонская макшанская малагасійская малайская малайская (вусная) малаялам мальтыйская мамбаі мангольская Маньчжурская мова мапудунгун мараканская арабская маратхі маршальская марысьен Мегрэльская мова міжнародныя хуткасловы Датана мікмак мінангкабау мірандыйская мова силоті мова CycL монская мохак мэнская наваха навіяль нагайская нарвежская (букмол) нарвежская (нюношк) наўатль Наўруанская мова нгек неапалітанская непальская неўары ніжнелужыцкая ніжненямецкая (ніжнесаксонская) ніўэ нуэр ньяджа нямецкая п’емонцкая палау Палі пангасінан пап'ямента партугальская паўднёваалтайская паўднёвакурдская паўднёвамінская паўднёвасаамская паўднёвая хайда паўночнафрызская мова паўночная малукская малайская паўночны самі пенсыльванская нямецкая пікардская піпіль польская пруская пунджабі (заходні) пунджабі (усходні) путунхуа пушту пфальцкая нямецкая раўнінны кры рахінджа румынская русінская руская рэтараманская самаанская самагіцкая самалійская санга санскрыт санталі саражытнанарвежская сардынская сваці себуанская сейшэльскі крэол сербская сесута сефардская Сілезская мова сінгальская сіндарын сіндхі сірыйская мова сіцылійская славацкая славенская сранан-тонга стандартная мараканская тамазіхт старажытнаанглійская старажытнаарамейская старажытнагрэчаская старажытнаруская старажытнатурэцкая старажытнафрызская мова старасаксонская старафранцузская суахілі сунданская сярэднеанглійская сярэднефранцузская тагальская таджыкская мова таіцянская тайская Такелау талоская талышская тамільская танганская татарская ток-пісін токі-пона тсонга тувалу тувінская тумбука тупі туркменская турэцкая тыбецкая тыгрынья тыгрэ тэлугу тэтум удмурцкая узбекская уйгурская украінская умбунду урду Усходнефрызская мова ўолаф фарсі фарэрская фіджыйская фінікійская фінская французкая фрызская фрыульская хайда хакаская харвацкая хасі хаўса хілігайнон хіндзі хіндзі (Фіджы) цыганская мова цэнтральная бікольская цэнтральны дусун цэнтральны мнонг цэнтральны ўастэкскі нахуатль чавакана Чагатайская мова чактаўская чамора чувашская чукоцкая Чынук вава чэрокі чэчэнская чэшская шанхайская шатландская швабская шведская швейцарская нямецкая шона шумерская шусвап эве Эвенкійская мова экстрэмадурская эмільская эрзянская эсперанта эстонская яванская якуцкая японская Ancient Hebrew Berom Brithenig Central Kanuri Central Kurdish (Soranî) Drents Eastern Armenian Erromintxela Guerrero Nahuatl Hitchiti Hmong Daw (White) Hmong Njua (Green) Ho Hunsrik Ilocano Isan Jamaican Patois Jewish Babylonian Aramaic Jewish Palestinian Aramaic Jin Chinese K'iche' Karakhanid Kekchi (Q'eqchi') Kelantan-Pattani Malay Keningau Murut Khalaj Konkani (Goan) Kven Finnish Libyan Arabic Lushootseed Mahasu Pahari Meitei Middle Persian (Pahlavi) Mono (USA) Muskogee (Creek) Naga (Tangshang) Nande Nigerian Fulfulde North Levantine Arabic Northern Kurdish (Kurmancî) Northern Zaza (Kirmanjki) Nuosu Nyungar O'odham Odia (Oriya) Ojibwe Old Spanish Orizaba Nahuatl Pulaar Qashqai Rapa Nui Rendille Saraiki Setswana South Levantine Arabic Southern Subanen Southern Zaza (Dimli) Tachawit Tagal Murut Tahaggart Tamahaq Tarifit Tashelhit Temuan Tonga (Zambezi) Uab Meto Urhobo Wayuu Yucatec Maya Zeelandic Unknown language - Апісанне файла
- Contains additional fields for each sentence (owner name, date created/modified).
- Паля і структуры
- Нумар сказа [табулятар] Мова [табулятар] Text [табулятар] Імя карыстальніка [табулятар] Date added [табулятар] Date last modified
Original and Translated Sentences
- Filename
- sentences_base.tar.bz2
- Апісанне файла
-
Each sentence is listed as original or a translation of another. The "base" field can have the following values:
- zero: The sentence is original, not a translation of another.
- greater than zero: The id of the sentence from which it was translated.
- \N: Unknown (rare).
- Паля і структуры
- Нумар сказа [табулятар] Base field
Sentences (CC0)
- Filename
-
усе мовы Only sentences in: англійская арабская арабская (Алжыр) беларуская бенгальская берберская валапюк валійская венгерская вэньянь галандская дацкая іда ідыш інтэрлінгва іспанская італьянская іўрыт кабільская кантонская карэльская каталонская клінгонская лаадан лацінская лігурыйская мова силоті нарвежская (букмол) нямецкая партугальская польская путунхуа руская санталі саражытнанарвежская сефардская стандартная мараканская тамазіхт старажытнаарамейская старажытнагрэчаская старажытнафрызская мова сярэднеанглійская токі-пона украінская фінікійская фінская французкая хіндзі чэшская шведская эсперанта японская Ancient Hebrew Ho Jewish Babylonian Aramaic Jewish Palestinian Aramaic Kven Finnish Nyungar Tachawit Unknown language - Апісанне файла
- Contains all the sentences available under CC0.
- Паля і структуры
- Нумар сказа [табулятар] Мова [табулятар] Text [табулятар] Date last modified
Links
- Filename
- links.tar.bz2
- Апісанне файла
- Contains the links between the sentences. 1 [табулятар] 77 means that sentence #77 is the translation of sentence #1. The reciprocal link is also present, so the file will also contain a line that says 77 [табулятар] 1.
- Паля і структуры
- Нумар сказа [табулятар] Translation id
Цэтлікі
- Filename
- tags.tar.bz2
- Апісанне файла
- Contains the list of tags associated with each sentence. 381279 [табулятар] proverb means that sentence #381279 has been assigned the "proverb" tag.
- Паля і структуры
- Нумар сказа [табулятар] Tag name
Lists
- Filename
- user_lists.tar.bz2
- Апісанне файла
- Contains the list of sentence lists.
- Паля і структуры
- List id [табулятар] Імя карыстальніка [табулятар] Date created [табулятар] Date last modified [табулятар] List name [табулятар] Editable by
Sentences in lists
- Filename
- sentences_in_lists.tar.bz2
- Апісанне файла
- Indicates the sentences that are contained by any lists. 13 [табулятар] 381279 means that sentence #381279 is contained by the list that has an id of 13.
- Паля і структуры
- List id [табулятар] Нумар сказа
Japanese indices
- Filename
- jpn_indices.tar.bz2
- Апісанне файла
- Contains the equivalent of the "B lines" in the Tanaka Corpus file distributed by Jim Breen. See this page for the format. Each entry is associated with a pair of Japanese/English sentences. Нумар сказа refers to the id of the Japanese sentence. Meaning id refers to the id of the English sentence.
- Паля і структуры
- Нумар сказа [табулятар] Meaning id [табулятар] Text
Агучаныя сказы
- Filename
- sentences_with_audio.tar.bz2
- Апісанне файла
- Contains the ids of the sentences, in all languages, for which audio is available. Other fields indicate who recorded the audio, its license and a URL to attribute the author. If the license field is empty, you may not reuse the audio outside the Tatoeba project.
- Downloading audio
- A single sentence can have one or more audio, each from a different voice. To download a particular audio, use its audio id to compute the download URL. For example, to download the audio with the id 1234, the URL is https://tatoeba.org/audio/download/1234.
- Паля і структуры
- Нумар сказа [табулятар] Audio id [табулятар] Імя карыстальніка [табулятар] License [табулятар] Attribution URL
User skill level per language
- Filename
- user_languages.tar.bz2
- Апісанне файла
- Indicates the self-reported skill levels of members in individual languages.
- Паля і структуры
- Мова [табулятар] Skill level [табулятар] Імя карыстальніка [табулятар] Details
Users' sentence reviews
- Filename
- users_sentences.csv
- Апісанне файла
- Contains sentences reviewed by users. The value of the review can be -1 (sentence not OK), 0 (undecided or unsure), or 1 (sentence OK). Warning: this data is still experimental.
- Паля і структуры
- Імя карыстальніка [табулятар] Нумар сказа [табулятар] Review [табулятар] Date added [табулятар] Date last modified
Transcriptions
- Filename
-
усе мовы Only sentences in: кантонская путунхуа узбекская японская - Апісанне файла
- Contains all transcriptions in auxiliary or alternative scripts. A username associated with a transcription indicates the user who last reviewed and possibly modified it. A transcription without a username has not been marked as reviewed. The script name is defined according to the ISO 15924 standard.
- Паля і структуры
- Нумар сказа [табулятар] Мова [табулятар] Script name [табулятар] Імя карыстальніка [табулятар] Transcription