Nota
Os dados que você encontrará aqui NÃO lhe serão úteis a menos que você esteja programando uma ferramenta linguística ou trabalhando com precessamento de dados.
Se você está interessado apenas em frases que lhe podem ser úteis no aprendizado de um idioma, dê uma olhada nas listas de frases. Você pode construir as suas próprias listas ou ver as que os outros usuários criaram. As listas podem ser baixadas e impressas.
Informações gerais sobre os arquivos
Muitas das frases em japonês e em inglês provêm do Tanaka Corpus, que se encontra em domínio público.
Creative Commons
Estes arquivos estão disponíveis sob a licença CC BY 2.0 FR.
Parte das nossas frases também está disponível sob a licença CC0 1.0.
Licenças que contemplam gravações de áudio
A licença que contempla uma gravação de áudio é escolhida pelo colaborador e aparece na página que lista as gravações com que ele contribuiu.
Dúvidas?
Caso tenha dúvidas ou pedidos, fique à vontade para entrar em contato conosco. Costumamos responder rapidamente.
Downloads
Utilize esta ferramenta para gerar e baixar exportações personalizadas sob demanda.
Baixar todas as frases no idioma A que foram traduzidas para o idioma B, juntamente com as suas respectivas traduções.
Frases
- Nome do arquivo
-
Todos os idiomas Somente frases em: Abecásio Adigue Africâner Afrihili Aimará Aino Aklan Albanês Alemão Alemão (Suíça) Alemão da Pensilvânia Alemão de Palatinado Alemão Suábio Altai meridional Alto Sorábio Amárico Árabe Árabe (Argélia) Arábe (Egito) Árabe (Iraque) Árabe (Marrocos) Árabe do Golfo Árabe levantino do norte Árabe Levantino Meridional Árabe líbio Aragonês Aramaico Antigo Aramaico Babilônico Judeu Aramaico Palestino Judeu Assamês Asturiano Avar Awadhi Azerbaidjano Baixo Mari Baixo Sorábio Baixo-alemão (Baixo-saxão) Balinês Balúchi Bambara Banjar Basco Bashkir Bávaro Baybaio Bengalês Berbere Berom Bhojpuri Bicolano Central Bielorrusso Birmanês Bislamá Bodo Bokmål Norueguês Bósnio Bretão Brithenig Búlgaro Buriato Cabardiano Cabila Calmuco Cambojiano Canará Cantonês Carachaio-bálcara Carélio Cassúbio Catalão Caxemira Cayuga Cazaque Cebuano Central Kanuri Chagatai Chamorro Chavacano Cherokee Chinês Gan Chinês Literário Chinês Pidgin Inglês Chinês Xiang Choctaw Chona Chukoto Cingalês Cinianja Concani (Goa) Congo Swahili Coreano Córnico Corso Cree das Planícies Crioulo de Louisiana Crioulo de Maurício Crioulo de Seychelles Crioulo Haitiano Croata Curdo central (Sorâni) Curdo sententrional (Curmânji) Cuyonon CycL Dacota Dinamarquês Divehi Drents Dungano Dusun Central Dutton World Speedwords Eastern Armenian Emiliano Erromintxela Erzya Eslavo Oriental Antigo Eslovaco Esloveno Espanhol Espanhol Antigo Esperanto Estoniano Estremenho Evenki Ewe Fenício Feroico Fijano Finlandês Francês Francês antigo Francês creole de Guadalupe Francês Médio Frisão de Saterland Frisão do Norte Frísio Friulano Fula nigeriano Ga Gaélico Escocês Gagauz Galego Galês Garhwali Georgiano Gheg Albanês Grego Grego Antigo Groninguês Guarani Guerrero de Nahuatl Gujarati Hacá Haida do Norte Haida do Sul Haúça Havaiano Hebraico Hebraico Antigo Hiligaino Hindi Hindi fijiano Hitchiti Hmong Daw Hmong Njua Ho Holandês Húngaro Iacuto Iban Ido Igbo Iídiche Ilocano Indonésio Inglês Inglês Antigo Inglês Médio Interglossa Interlíngua Interlingue Inuíte Inuktitut Iorubá Irlandês Isan Islandês Italiano Iucateque Izhoriano Jamaicano (patois jamaicano) Japonês Jargão Chinook Javanês Jin Juhuri Kadazan costeira Kamba Kapampangan Karakalpak Karakhanid Kelantan-Pattani Malay Keningau Murut Khakas Khalaj / Arghu Khasi Kirundi Klingon Kölsch Komi-permyak Komi-Zyriano Kotava Kumyk Kven Filandês Laadanês Ladino Ladino Dolomítico Laosiano Latgália Latim Laz Letão Lígure Limburguês Lingala Lingua Franca Nova Língua gótica Língua lushootseed Língua manipuri Lituano Livônio Lojban Lombardo Luganda Luxemburguês Macedônio Madurês Mahasu Pahari Maithili Malaiala Malaio Malaio Molucano Setentrional Malaio vernacular Malgaxe Maltês Mambae Manchu Mandarim (Chinês) Manês Maori Mapuche Marata Mari Ocidental Marshalês Micmac Min do Sul Minangkabau Mingrélio Mirandês Mnong Central Mohawk Moksha Mon Mongol Mono (EUA) Muscogee (Creek) Naga (Tangshang) Nahuatl de Huasteca Central Nande Nauatle Nauruano Navajo Neapolitan Neo-Aramaica Assíria Nepali Neuari Ngeq Niueano Nogai Nórdico Antigo Novial Novo Norueguês nuer Nuosu (Yi do Norte) Nyungar O'odham Occitano Ojíbua Oquinauano Central Oriá Orizaba de Nahuatl Osseto Pachto Palauano Páli Pangasinês Panjabi (Ocidental) Panjabi (Oriental) Papiamento Persa Pérsia médio (Pahlavi) Picardo Piemontês Pipil Polonês Português Prussiano Antigo Prússio Antigo Pulaar Qashqai Quelúri Quenya Queqchi Quiché Quíchua Quiniaruanda Quirguiz Quiribati Rapanui Rendille Rifenho Riograndenser Hunsrückisch Rohingya Romanche Romani Romeno Russo Rusyn Sami meridional Sami Setentrional Samoano Samogício Sango Sânscrito Santáli Saraiki Sardo Saxão Antigo Scots Sérvio Sesoto meridional Shuswap Siciliano Silesian Sindarin Sindi Siríaco Somali Suaíli Suázi Subanon do Sul Sudanês Sueco Sumério Surinamês (Sranan) Sylheti Tachawit Tachelhit Tagal Murut Tagalo Tahaggart Tamahaq Tailandês Taitiano Tajique Talish Talossa Tamazight Standard Marroquino Tâmil Tártaro Tártaro da Crimeia Tcheco Tchetcheno Tchuvache Telugo Temuano Tétum Tibetano Tigré Tigrínia Tok pisin Toki Pona Tonga Tonga (Zambezi) Toquelauano Tsonga Tswana Tumbuka Tupi antigo Turco Turco Antigo Turco Otomano Turcomeno Tuvaluano Tuviniano Uab Meto Ucraniano Udmurte Uigur Umbundu Uólofe Urdu Urhobo Usbeque Valão Veneziano Vepes Vietnamita Volapuque Võro Waray Wayuu Xangainês Xhosa Zaza do norte (Kirmanjki) Zaza do sul (Dimil) Zazaki Zeêuws Zulu Idioma desconhecido - Descrição do arquivo
- Contém todas as frases no idioma selecionado. Cada frase está associada a um único número de identificação e a um código ISO 639-3.
- Campos e estrutura
- Número de identificação da frase [aba] Idioma [aba] Texto
Sentenças detalhadas
- Nome do arquivo
-
{{sentencesDetailed | filename}}
Todos os idiomas Somente frases em: Abecásio Adigue Africâner Afrihili Aimará Aino Aklan Albanês Alemão Alemão (Suíça) Alemão da Pensilvânia Alemão de Palatinado Alemão Suábio Altai meridional Alto Sorábio Amárico Árabe Árabe (Argélia) Arábe (Egito) Árabe (Iraque) Árabe (Marrocos) Árabe do Golfo Árabe levantino do norte Árabe Levantino Meridional Árabe líbio Aragonês Aramaico Antigo Aramaico Babilônico Judeu Aramaico Palestino Judeu Assamês Asturiano Avar Awadhi Azerbaidjano Baixo Mari Baixo Sorábio Baixo-alemão (Baixo-saxão) Balinês Balúchi Bambara Banjar Basco Bashkir Bávaro Baybaio Bengalês Berbere Berom Bhojpuri Bicolano Central Bielorrusso Birmanês Bislamá Bodo Bokmål Norueguês Bósnio Bretão Brithenig Búlgaro Buriato Cabardiano Cabila Calmuco Cambojiano Canará Cantonês Carachaio-bálcara Carélio Cassúbio Catalão Caxemira Cayuga Cazaque Cebuano Central Kanuri Chagatai Chamorro Chavacano Cherokee Chinês Gan Chinês Literário Chinês Pidgin Inglês Chinês Xiang Choctaw Chona Chukoto Cingalês Cinianja Concani (Goa) Congo Swahili Coreano Córnico Corso Cree das Planícies Crioulo de Louisiana Crioulo de Maurício Crioulo de Seychelles Crioulo Haitiano Croata Curdo central (Sorâni) Curdo sententrional (Curmânji) Cuyonon CycL Dacota Dinamarquês Divehi Drents Dungano Dusun Central Dutton World Speedwords Eastern Armenian Emiliano Erromintxela Erzya Eslavo Oriental Antigo Eslovaco Esloveno Espanhol Espanhol Antigo Esperanto Estoniano Estremenho Evenki Ewe Fenício Feroico Fijano Finlandês Francês Francês antigo Francês creole de Guadalupe Francês Médio Frisão de Saterland Frisão do Norte Frísio Friulano Fula nigeriano Ga Gaélico Escocês Gagauz Galego Galês Garhwali Georgiano Gheg Albanês Grego Grego Antigo Groninguês Guarani Guerrero de Nahuatl Gujarati Hacá Haida do Norte Haida do Sul Haúça Havaiano Hebraico Hebraico Antigo Hiligaino Hindi Hindi fijiano Hitchiti Hmong Daw Hmong Njua Ho Holandês Húngaro Iacuto Iban Ido Igbo Iídiche Ilocano Indonésio Inglês Inglês Antigo Inglês Médio Interglossa Interlíngua Interlingue Inuíte Inuktitut Iorubá Irlandês Isan Islandês Italiano Iucateque Izhoriano Jamaicano (patois jamaicano) Japonês Jargão Chinook Javanês Jin Juhuri Kadazan costeira Kamba Kapampangan Karakalpak Karakhanid Kelantan-Pattani Malay Keningau Murut Khakas Khalaj / Arghu Khasi Kirundi Klingon Kölsch Komi-permyak Komi-Zyriano Kotava Kumyk Kven Filandês Laadanês Ladino Ladino Dolomítico Laosiano Latgália Latim Laz Letão Lígure Limburguês Lingala Lingua Franca Nova Língua gótica Língua lushootseed Língua manipuri Lituano Livônio Lojban Lombardo Luganda Luxemburguês Macedônio Madurês Mahasu Pahari Maithili Malaiala Malaio Malaio Molucano Setentrional Malaio vernacular Malgaxe Maltês Mambae Manchu Mandarim (Chinês) Manês Maori Mapuche Marata Mari Ocidental Marshalês Micmac Min do Sul Minangkabau Mingrélio Mirandês Mnong Central Mohawk Moksha Mon Mongol Mono (EUA) Muscogee (Creek) Naga (Tangshang) Nahuatl de Huasteca Central Nande Nauatle Nauruano Navajo Neapolitan Neo-Aramaica Assíria Nepali Neuari Ngeq Niueano Nogai Nórdico Antigo Novial Novo Norueguês nuer Nuosu (Yi do Norte) Nyungar O'odham Occitano Ojíbua Oquinauano Central Oriá Orizaba de Nahuatl Osseto Pachto Palauano Páli Pangasinês Panjabi (Ocidental) Panjabi (Oriental) Papiamento Persa Pérsia médio (Pahlavi) Picardo Piemontês Pipil Polonês Português Prussiano Antigo Prússio Antigo Pulaar Qashqai Quelúri Quenya Queqchi Quiché Quíchua Quiniaruanda Quirguiz Quiribati Rapanui Rendille Rifenho Riograndenser Hunsrückisch Rohingya Romanche Romani Romeno Russo Rusyn Sami meridional Sami Setentrional Samoano Samogício Sango Sânscrito Santáli Saraiki Sardo Saxão Antigo Scots Sérvio Sesoto meridional Shuswap Siciliano Silesian Sindarin Sindi Siríaco Somali Suaíli Suázi Subanon do Sul Sudanês Sueco Sumério Surinamês (Sranan) Sylheti Tachawit Tachelhit Tagal Murut Tagalo Tahaggart Tamahaq Tailandês Taitiano Tajique Talish Talossa Tamazight Standard Marroquino Tâmil Tártaro Tártaro da Crimeia Tcheco Tchetcheno Tchuvache Telugo Temuano Tétum Tibetano Tigré Tigrínia Tok pisin Toki Pona Tonga Tonga (Zambezi) Toquelauano Tsonga Tswana Tumbuka Tupi antigo Turco Turco Antigo Turco Otomano Turcomeno Tuvaluano Tuviniano Uab Meto Ucraniano Udmurte Uigur Umbundu Uólofe Urdu Urhobo Usbeque Valão Veneziano Vepes Vietnamita Volapuque Võro Waray Wayuu Xangainês Xhosa Zaza do norte (Kirmanjki) Zaza do sul (Dimil) Zazaki Zeêuws Zulu Idioma desconhecido - Descrição do arquivo
- Contém campos adicionais para cada frase (nome do proprietário, data de criação/modificação).
- Campos e estrutura
- Número de identificação da frase [aba] Idioma [aba] Texto [aba] Nome de usuário [aba] Data de adição [aba] Data da última modificação
Frases originais e traduzidas
- Nome do arquivo
- sentences_base.tar.bz2
- Descrição do arquivo
-
Cada frase é listada como original ou como uma tradução de outra. O campo "base" pode ter os seguintes valores:
- zero: A frase é original, e não tradução de uma outra.
- maior que zero: O número de identificação da frase da qual foi traduzida.
- \N: Desconhecido (raro).
- Campos e estrutura
- Número de identificação da frase [aba] Campo-base
Frases (CC0)
- Nome do arquivo
-
Todos os idiomas Somente frases em: Alemão Árabe Árabe (Argélia) Aramaico Antigo Aramaico Babilônico Judeu Aramaico Palestino Judeu Bengalês Berbere Bielorrusso Bokmål Norueguês Cabila Cantonês Carélio Catalão Chinês Literário Dinamarquês Espanhol Esperanto Fenício Finlandês Francês Galês Grego Antigo Hebraico Hebraico Antigo Hindi Ho Holandês Húngaro Ido Iídiche Inglês Inglês Médio Interlíngua Italiano Japonês Klingon Kven Filandês Laadanês Ladino Latim Lígure Mandarim (Chinês) Nórdico Antigo Nyungar Polonês Português Prússio Antigo Russo Santáli Sueco Sylheti Tachawit Tamazight Standard Marroquino Tcheco Toki Pona Ucraniano Volapuque Idioma desconhecido - Descrição do arquivo
- Contém todas as frases disponíveis sob a licença CC0.
- Campos e estrutura
- Número de identificação da frase [aba] Idioma [aba] Texto [aba] Data da última modificação
Ligações
- Nome do arquivo
- links.tar.bz2
- Descrição do arquivo
- Contém as ligações entre as frases. 1 [aba] 77 significa que a frase #77 é uma tradução da frase #1. Consta ainda a ligação recíproca; assim, o arquivo conterá uma linha que diz 77 [aba] 1.
- Campos e estrutura
- Número de identificação da frase [aba] Número de identificação da tradução
Etiquetas
- Nome do arquivo
- tags.tar.bz2
- Descrição do arquivo
- Contém a lista de etiquetas associadas a cada frase. 381279 [aba] proverb significa que a frase #381279 recebeu a etiqueta "provérbio".
- Campos e estrutura
- Número de identificação da frase [aba] Nome da etiqueta
Listas
- Nome do arquivo
- user_lists.tar.bz2
- Descrição do arquivo
- Contém a lista de listas de frases.
- Campos e estrutura
- Número de identificação da lista [aba] Nome de usuário [aba] Data de criação [aba] Data da última modificação [aba] Nome da lista [aba] Editável por
Frases em listas
- Nome do arquivo
- sentences_in_lists.tar.bz2
- Descrição do arquivo
- Indica as frases contidas em qualquer lista. 13 [aba] 381279 significa que a frase #381279 está contida na lista cujo número de identificação é 13.
- Campos e estrutura
- Número de identificação da lista [aba] Número de identificação da frase
Índices do japonês
- Nome do arquivo
- jpn_indices.tar.bz2
- Descrição do arquivo
- Contém o equivalente às "B lines" do arquivo do Tanaka Corpus distribuído por Jim Breen. Acesse esta página para conferir o formato. Cada entrada está associada a um par de frases japonês/inglês. Número de identificação da frase refere-se ao número de identificação da frase em japonês, enquanto Número de identificação do significado se refere ao número de identificação da frase em inglês.
- Campos e estrutura
- Número de identificação da frase [aba] Número de identificação do significado [aba] Texto
Frases com áudio
- Nome do arquivo
- sentences_with_audio.tar.bz2
- Descrição do arquivo
- Contém os números de identificação das frases, em todos os idiomas, que apresentam gravação de áudio. Outros campos indicam quem as gravou, a licença e o URL de atribuição. Se o campo "licença" estiver vazio, você não pode reutilizar o áudio fora do Tatoeba.
- Baixando áudio
- A single sentence can have one or more audio, each from a different voice. To download a particular audio, use its audio id to compute the download URL. For example, to download the audio with the id 1234, the URL is https://tatoeba.org/audio/download/1234.
- Campos e estrutura
- Número de identificação da frase [aba] Número de identificação do áudio [aba] Nome de usuário [aba] Licença [aba] URL de atribuição
Nível do usuário por idioma
- Nome do arquivo
- user_languages.tar.bz2
- Descrição do arquivo
- Indica o nível dos membros relatado por eles mesmos em cada língua.
- Campos e estrutura
- Idioma [aba] Nível de habilidade [aba] Nome de usuário [aba] Detalhes
Revisão de frases dos usuários
- Nome do arquivo
- users_sentences.csv
- Descrição do arquivo
- Contem sentenças revisadas por usuários. O valor da revisão pode ser -1 (sentença incorreta/"not OK"), 0 (indeciso ou inseguro) ou 1 (sentença correta). Aviso: Essas dados são ainda experimentais.
- Campos e estrutura
- Nome de usuário [aba] Número de identificação da frase [aba] Revisão [aba] Data de adição [aba] Data da última modificação
Transcrições
- Nome do arquivo
-
Todos os idiomas Somente frases em: Cantonês Japonês Mandarim (Chinês) Usbeque - Descrição do arquivo
- Contêm todas as transcrições em scripts auxiliares ou alternativos. Um nome de usuário associado a uma transcrição indica o usuário que a revisou pela última vez e possivelmente a modificou. Uma transcrição sem nome de usuário não foi marcada como revisada. O nome do script é definido de acordo com o padrão ISO 15924.
- Campos e estrutura
- Número de identificação da frase [aba] Idioma [aba] Nome do script [aba] Nome de usuário [aba] Transcrição