menu
Tatoeba
language
নথিভুক্ত হন লগইন করুন
language বাংলা
menu
Tatoeba

chevron_right নথিভুক্ত হন

chevron_right লগইন করুন

ব্রাউজ করুন

chevron_right অজানা যেকোনো বাক্য

chevron_right ভাষা দ্বারা ব্রাউজ করুন

chevron_right তালিকা দ্বারা ব্রাউজ করুন

chevron_right ট্যাগ দ্বারা ব্রাউজ করুন

chevron_right অডিও দ্বারা ব্রাউজ করুন

সম্প্রদায়

chevron_right দেওয়াল

chevron_right সকল সদস্যের তালিকা

chevron_right সদস্যদের ভাষা

chevron_right স্থানীয় বক্তা

search
clear
swap_horiz
search
Demetrius {{ icon }} keyboard_arrow_right

প্রোফাইল

keyboard_arrow_right

বাক্য

keyboard_arrow_right

শব্দতালিকা

keyboard_arrow_right

পর্যালোচনা

keyboard_arrow_right

তালিকাসমূহ

keyboard_arrow_right

প্রিয়

keyboard_arrow_right

মন্তব্য

keyboard_arrow_right

Demetrius-এর বাক্যে করা মন্তব্য

keyboard_arrow_right

দেওয়াল বার্তা

keyboard_arrow_right

লগ

keyboard_arrow_right

অডিও

keyboard_arrow_right

প্রতিলিপিকরণ

translate

Demetrius-এর বাক্যগুলি অনুবাদ করুন

দেওয়ালে Demetrius-এর বার্তা (মোট ৪৪২ টি)

Demetrius Demetrius ১৭ সেপ্টেম্বর, ২০১০ ১৭ সেপ্টেম্বর, ২০১০ ৩:৫২:০৬ PM UTC link স্থায়ী সংযোগ

> that's cheating
Of course it is. ;)

But what I meant is that dictionaries often provide example sentences. It depends on a dictionary. And technically half of the Tatoeba sentences can easily end up in a dictionary. It's not a reason to delete it.

Demetrius Demetrius ১৭ সেপ্টেম্বর, ২০১০ ১৭ সেপ্টেম্বর, ২০১০ ২:১২:৪২ PM UTC link স্থায়ী সংযোগ

> rather than word I will say "one sementical unit"
What is a semantical unit? A seme?
Then "Buy" has 2 of these.

> that if an entry in tatoeba can also be
> found in a dictionnary, (delta the flexion)
In WWWJDIC you can find most phrases from Tatoeba.
WWWJDIC is a dictionary.

It means:
All Japanese phrases should be deleted.

IMHO all needs moderation. Boracasli lacks it, but forbiding all the 1-word sentences isn't any better.

Demetrius Demetrius ১৬ সেপ্টেম্বর, ২০১০ ১৬ সেপ্টেম্বর, ২০১০ ৯:৩৭:৩৩ AM UTC link স্থায়ী সংযোগ

But Buy is an example of imperative mood.

In may languages it would have a T-V distinction...

Demetrius Demetrius ১৬ সেপ্টেম্বর, ২০১০ ১৬ সেপ্টেম্বর, ২০১০ ৮:৫৯:৩৯ AM UTC link স্থায়ী সংযোগ

Actually, I don't understand why "Buy" is less important than "Cat is not human". >_<

Demetrius Demetrius ১৬ সেপ্টেম্বর, ২০১০ ১৬ সেপ্টেম্বর, ২০১০ ৮:১৫:৪১ AM UTC link স্থায়ী সংযোগ

Can you give a more clear guidelines?

IMHO sentences shouldn't be deleted simply because you suspect they were taken from a dictionary.


Also consider polysynthetic languages, where a great lot of very useful phrases can be said in one word. For example, in Chukchi phrasebook I’ve found the following single word sentences:
«Титэтгивик?» means «How much?»
«Тантыԓянвыԓьын?» means «Is the road good?»

Do you think they are also out of the scope of this project?

Demetrius Demetrius ১৫ সেপ্টেম্বর, ২০১০ ১৫ সেপ্টেম্বর, ২০১০ ১১:৩৯:৫১ AM UTC link স্থায়ী সংযোগ

But is useful for natural language processing:
a) automatic translators,
b) sentence classification

Tatoeba is a text corpus. Programmers can write an algorithm, but they need a text corpus to make it work.



For example, in Tatoeba bad sentences have tags "rude", "offensive", "XXX".

Using a simple alghorithm[1] and Tatoeba sentences, anyone can write a program that can look at any sentence in the same language and say: "It's rude" or "It's not rude". It then can be used, for example, to hide some text from children.

Or, for example, it's possible to create a program that detects a language using Tatoeba data.

Or check whether the text is optimistic or pessimistic.

Or even to create automatic translators. (But for these, a lot of text is neccessary. For many language we have too few sentences for this... now :))

And many other things... Practically all programs working with language need a text corpus!


Tatoeba is not the only corpus, there are many of them. But Tatoeba is better because:
* It's free,
* It's multilingual (usually corpora support only 1 language, or 2, not more)


[1] For example, you can use a naive Bayesian classifier for this.

Demetrius Demetrius ১৫ সেপ্টেম্বর, ২০১০ ১৫ সেপ্টেম্বর, ২০১০ ১১:০১:৪৬ AM UTC link স্থায়ী সংযোগ

=))

We don't. :) On the wall, there may be discussion. But if it's a sentence, it's 100% OK.

We need different sentences! ^^

And we do have patriotic sentences. :)

See:
http://tatoeba.org/eng/sentences/show/467460
http://tatoeba.org/eng/sentences/show/485186

Demetrius Demetrius ১৫ সেপ্টেম্বর, ২০১০ ১৫ সেপ্টেম্বর, ২০১০ ৯:৫০:২৬ AM UTC link স্থায়ী সংযোগ

Cool, thank you. ^^

Demetrius Demetrius ১৫ সেপ্টেম্বর, ২০১০ ১৫ সেপ্টেম্বর, ২০১০ ৯:৪৮:৩৩ AM UTC link স্থায়ী সংযোগ

زنده باد زبان فارسی
:)

Can you add this as a sentence please? :)

Demetrius Demetrius ১৪ সেপ্টেম্বর, ২০১০ ১৪ সেপ্টেম্বর, ২০১০ ৫:৩৭:১৭ PM UTC link স্থায়ী সংযোগ

Cool!

Demetrius Demetrius ১৪ সেপ্টেম্বর, ২০১০ ১৪ সেপ্টেম্বর, ২০১০ ২:১৭:০২ PM UTC link স্থায়ী সংযোগ

Now I don’t know if I know what I’ve said.

ö (It’s my new way of writing :o)

Demetrius Demetrius ১৩ সেপ্টেম্বর, ২০১০ ১৩ সেপ্টেম্বর, ২০১০ ১২:২০:৪৩ AM UTC link স্থায়ী সংযোগ

What the?..

What is it supposed to mean?

Demetrius Demetrius ১৩ সেপ্টেম্বর, ২০১০ ১৩ সেপ্টেম্বর, ২০১০ ১২:১৯:২৮ AM UTC link স্থায়ী সংযোগ

0

Demetrius Demetrius ১২ সেপ্টেম্বর, ২০১০ ১২ সেপ্টেম্বর, ২০১০ ৯:৫৫:২৩ PM UTC link স্থায়ী সংযোগ

IMHO their license is too restrictive.

Demetrius Demetrius ১২ সেপ্টেম্বর, ২০১০ ১২ সেপ্টেম্বর, ২০১০ ৯:৫৩:০৫ PM UTC link স্থায়ী সংযোগ

IMO, this kind of metadata is not fit for tags.

Demetrius Demetrius ১২ সেপ্টেম্বর, ২০১০ ১২ সেপ্টেম্বর, ২০১০ ৯:৪৭:৩৬ PM UTC link স্থায়ী সংযোগ

Thank you for the link! ^^

Demetrius Demetrius ১২ সেপ্টেম্বর, ২০১০ ১২ সেপ্টেম্বর, ২০১০ ৯:৪৪:২৭ PM UTC link স্থায়ী সংযোগ

+1

Demetrius Demetrius ১২ সেপ্টেম্বর, ২০১০ ১২ সেপ্টেম্বর, ২০১০ ৯:০৫:০১ PM UTC link স্থায়ী সংযোগ

Wictionary is hard to edit for an average user.

It’s hard to find a balance between a computer-parsable dictionary and a easy-to-edit for an average human being. The Wiktionary is *much* *more* *complicated* than Tatoeba.

Aslo, although it’s exportable and parseable, but I haven’t seen any program that presents the exported data in a form of a bilingual dictionary.

All in all, I believe the Wiki engine is not fit for creating dictionaries.



I think we’ll run into the problem of a dictionary later:
1. Now we have some tags [verb_of_motion, Genitive] that are better fit as tags for words, not for sentences. => We need tags for words.
2. We can’t tag all the words, or force users to do it, since it’s too much work. => We need a morphology analyser.
3. Morphology data about the words need the dictionary. Wiktionary is hard to edit for an average user and rarely exported. => We need something more lightweight.

So I believe one day something like Tatoeba dictionary will emerge.

Also, there is a problem: what language edition of Wiktionary to choose? The explanations are different, but the translations in all Wiktionaries in fact duplicate each other.

Demetrius Demetrius ১২ সেপ্টেম্বর, ২০১০ ১২ সেপ্টেম্বর, ২০১০ ৮:৫৪:৩৭ PM UTC link স্থায়ী সংযোগ

By the way, there is a secret copy of Tatoeba. ;) It is blue.

Demetrius Demetrius ১২ সেপ্টেম্বর, ২০১০ ১২ সেপ্টেম্বর, ২০১০ ১১:০১:৩০ AM UTC link স্থায়ী সংযোগ

Well, it depends on the language.

Arabic script for Uyghur shows all the vowels.