menu
Tatoeba
language
Registriĝi Ensaluti
language Esperanto
menu
Tatoeba

chevron_right Registriĝi

chevron_right Ensaluti

Foliumi

chevron_right Montri hazardan frazon

chevron_right Foliumi laŭ lingvo

chevron_right Foliumi laŭ listo

chevron_right Foliumi laŭ etikedo

chevron_right Foliumi sonregistraĵojn

Komunumo

chevron_right Muro

chevron_right Listo de ĉiuj membroj

chevron_right Lingvoj de la membroj

chevron_right Denaskaj parolantoj

search
clear
swap_horiz
search
Aiji Aiji 2018-aŭgusto-17, modifita 2018-aŭgusto-17 2018-aŭgusto-17 12:20:40 UTC, modifita 2018-aŭgusto-17 12:20:52 UTC link Konstanta ligilo

[Espace avant les signes de ponctuation en français]
En français, les signes ponctuation composées doivent être précédés (suivis dans le cas du «) d'une espace insécable.
Actuellement, on peut trouver quatre cas dans le corpus de Tatoeba :
- pas d'espace
- une espace "standard" (le plus courant dans le corpus)
- une espace insécable
- une espace fine insécable
On peut considérer les deux premiers cas comme des cas incorrects, et les deux derniers comme des cas corrects.

Il est possible de « corriger » toutes ces phrases en insérant l'espace adéquate via un script (environ 50 000 phrases, sans compter celles comprenant des guillemets) . Enfin, quant à quelle espace choisir, les officiels n'étant eux-mêmes pas d'accord entre eux, insérer des espaces fines insécables, en plus d'être ce qui se fait généralement, permettrait d'éviter les doublons (environ 200 phrases).

En attendant d'avoir une solution automatisée à l'insertion, une telle opération impliquerait de voir vos phrases se faire massivement corrigées. Cela passerait totalement inaperçu pour tout le monde et SEULES les espaces se verraient corrigées ou ajoutées. Vous pourrez continuer à contribuer normalement comme vous le faites tout le temps (avec les espaces que vous voulez !)

Une telle opération touchant beaucoup de gens, je demande vos avis ou remarques, positifs ou négatifs (pour / contre, oui mais non, etc.)

@nimfeo @sacredceltic @Rovo @Micsmithel @gillux @GB3 et tous les contributeurs qui ont un avis !

Merci !

{{vm.hiddenReplies[29619] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
gillux gillux 2018-aŭgusto-19 2018-aŭgusto-19 05:45:44 UTC link Konstanta ligilo

Je suis contre.

Tu dis que "on peut considérer les deux premiers cas comme des cas incorrects, et les deux derniers comme des cas corrects". Je ne suis pas d'accord, car les choses ne sont malheureusement pas si simples. L'ennui, c'est qu'il n'existe (à ma connaissance) aucune instance normative de la typographie. En d'autres termes, personne n'a l'autorité pour dire "ça c'est faux", "ça c'est juste". Il n'y a que des conventions. On peut par exemple regarder comment fait l'Imprimerie nationale, car ils sont super calés, mais ce ne sont pas eux qui dictent les règles. En fait, personne ne dicte aucune règle, il n'y a que des usages, des conventions, suivient par certains et pas par d'autres. Par exemple, les québécois préfèrent omettre l'espace devant les signes de ponctuation doubles :
http://www.guylabbe.ca/blog/reg...ec-france.html

Dans ce contexte, il est difficile d'affirmer que ceci est correct et que cela ne l'est pas. A contrario, l'orthographe et la grammaire sont normalisées en France par l'Académie Française, qui publie son dico et ses textes dans le journal officiel sur lesquels on peut s'appuyer pour dire qu'un mot est correct ou non (même si tout le monde n'est pas d'accord avec eux).

C'est pourquoi, même si l'idée de normaliser la typographie dans le corpus français est alléchante car elle simplifie les choses (et en tant que développeur du site, j'aime quand les choses sont simples), je m'y oppose. Cela reviendrait à imposer une façon d'écrire le français et d'ignorer les autres, qui sont pourtant usités et pas incorrectes. Or, je pense que sur Tatoeba, on cherche plus à inclure tous les usages. C'est une question de principe. Pour moi, c'est un peu comme si on essayait d'imposer les caractères simplifiés en Mandarin (même si le cas du Mandarin est beaucoup plus polémique).

Je suis conscient que la pluralité des typographies gêne la détection des doublons par Horus. Mais pour moi, le problème ne vient pas du corpus, il vient d'Horus, ou de notre façon d'organiser le corpus. Il ne faut pas adapter le corpus aux outils ; ce sont aux outils de s'adapter. Je veux bien essayer de m'y coller, si j'ai le temps, mais un autre problème de la typographie, c'est qu'elle est infiniment complexe. Ça a l'air simple quand on parle des espaces devant les points d'exclamation, mais ajoute à ça rien que les dialogues, les citations imbriquées et l'italique, et ça devient une autre paire de manches ! Je t'invite à lire Orthotypographie de Lacroux pour t'en convaincre.

{{vm.hiddenReplies[29624] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
Aiji Aiji 2018-aŭgusto-19, modifita 2018-aŭgusto-19 2018-aŭgusto-19 06:35:22 UTC, modifita 2018-aŭgusto-19 06:38:16 UTC link Konstanta ligilo

En te lisant, et en lisant des sources externes dont la tienne, plusieurs choses me viennent à l'esprit. Déjà, je dois m'excuser pour la faute concernant l'absence d'espacement devant la ponctuation dans certains pays.

Ensuite, pour en revenir au problème, on se retrouve donc avec deux possibilités : soit pas d'espace, soit une espace. Le représentant du premier cas est simple : pas d'espace.
Concernant le second cas, en regardant les chiffres (https://github.com/Tatoeba/tatoeba2/issues/770), on se rend compte que le plus gros du morceau c'est l'espace "normale", qui ne saurait être considéré comme correcte (le nombre de mails ou le ? se retrouve seul abandonné à la ligne...).

Pour évacuer le problème de règles établies contre conventions tout de suite, je ne pense pas que l'argument soit recevable car énormément du contenu de chaque langue n'est pas édicté clairement par qui que ce soit, et on suit des conventions qui sont venues naturellement. Je ne vois pas ce qu'il y a de mal à suivre des conventions si elles sont fondées et justifiées.

Tu dis que « Cela reviendrait à imposer une façon d'écrire le français et d'ignorer les autres, qui sont pourtant usités et pas incorrectes. » Je pense plutôt que cela reviendrait à choisir une façon d'*éditer* le français, et non pas l'écrire. Deux choses bien différentes et un choix nécessaire, pris par toutes les instances qui écrivent du français.
« Il ne faut pas adapter le corpus aux outils » est une chose que je répète sans cesse, donc je ne pourrais être plus d'accord. Cependant Tatoeba est également un outil. Un outil du web en l'occurence, à l'heure actuelle. Malheureusement, nos machines qui font le web, parmi lesquelles ordinateur et navigateur, ont certaines limitations parfois gênantes. Si l'espace insécable - mais également le œ et d'autres caractères du même genre - étaient disponibles sur tous nos claviers de base, l'orthographe et la langue en général ne s'en porterait pas plus mal (et l'orthographe me semble plus important que la typographie, mais je dérive).
Cela me semble donc une erreur de ne pas traiter le second cas. « Personne n'a d'autorité pour dire ça c'est faux, ça c'est juste ». Moi, il me semble que tout le monde s'est mis d'accord. Peux-tu me trouver des sources - sérieuses - qui disent autre chose que « espace fine devant ? ! et ; » et « espace insécable devant : » ?
Je proposais de mettre des espaces fines devant les quatre caractères par souci d'uniformité, mais on peut être un peu plus précis.

Comme tu l'as si bien dit, la typographie étant un sujet à elle toute seule, je n'ai parlé que de ces 4 caractères car ce sont les plus utilisés et que la solution que je propose est un nettoyage ponctuel, en attendant d'autres solutions éventuelles. Cette solution serait donc de laisser les ponctuations sans espace, et dans le cas où il y a une espace, la remplacer par une espace fine pour ? ! ; et une espace insécable devant :

Est-ce que cela te paraîtrait plus juste et acceptable ?

PS : Les dialogues et citations sont une autre histoire.

{{vm.hiddenReplies[29625] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
TRANG TRANG 2018-aŭgusto-24 2018-aŭgusto-24 22:58:34 UTC link Konstanta ligilo

> Cette solution serait donc de laisser les ponctuations sans espace, et dans le cas où
> il y a une espace, la remplacer par une espace fine pour ? ! ; et une espace insécable
> devant :

En y réfléchissant, pourquoi pas juste une espace insécable (non fine) partout?

Je pense que personne n'ira se plaindre si on remplace leurs espaces classiques par des espaces insécables. L'espacement reste le même (je crois?), c'est juste que la ponctuation n'ira pas à la ligne en solitaire.

Les remplacer par une espace fine change quelque chose visuellement. Même si je doute que beaucoup s'en plaignent ou remarquent même quoique ce soit, ça reste une modification plus autoritaire.

{{vm.hiddenReplies[29635] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
Aiji Aiji 2018-aŭgusto-25 2018-aŭgusto-25 01:55:29 UTC link Konstanta ligilo

Est-ce que les navigateurs rendent vraiment les deux espaces avec une taille différente ?

En plus de ton argument, il me semble que sur Mac, il est difficile d'insérer une espace fine avec son clavier de base alors que l'espace insécable s'insère avec Alt+Espace. Il faudrait demander confirmation aux gens qui contribuent régulièrement sur Mac (ce n'est pas mon cas). On pourrait alors indiquer aux contributeurs comment insérer eux-mêmes l'espace fine « facilement» à la fois sur Windows et Mac

{{vm.hiddenReplies[29638] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
TRANG TRANG 2018-aŭgusto-25 2018-aŭgusto-25 14:05:17 UTC link Konstanta ligilo

> Est-ce que les navigateurs rendent vraiment les deux espaces avec une taille
> différente ?

Je crois que c'est plus une histoire de police que de navigateur. Mais oui, il y a une différence: https://en.wikipedia.org/wiki/Non-breaking_space

gillux gillux 2018-aŭgusto-30 2018-aŭgusto-30 06:15:13 UTC link Konstanta ligilo

Tes arguments sont convaincants. Tu distingues en particulier écrire le français et éditer le français, et je trouve intéressante cette façon de voir les choses. Il s’agirait donc plus de changer la présentation du contenu que le contenu lui-même, même si en pratique cela nécessite de modifier le contenu.

> Est-ce que cela te paraîtrait plus juste et acceptable ?

Oui, mais je pense qu’il est important de bien cerner le problème que l’on cherche à résoudre à l’heure actuelle et pas juste uniformiser pour uniformiser. Si le problème est la déduplication, alors inutile de modifier les phrases, on peut adapter Horus. Si le problème est que les signes de ponctuation double se retrouvent seuls à la ligne, alors on pourrait modifier la façon dont ils sont affichés sur le site (remplacement à la volée). Si le problème est que le corpus français perd en crédibilité à cause d’une typographie hétérogène, alors il faudrait décider collectivement de conventions et peut-être adapter le site pour faciliter leur application. Que cherche-t-on à faire exactement et pourquoi ?

À noter que le corpus n’est pas uniquement utilisé sur le site, mais également par d’autres projets qui téléchargent les phrases pour les réutiliser : http://a4esl.org/temporary/tatoeba/links.html

AmarMecheri AmarMecheri 2018-aŭgusto-22, modifita 2018-oktobro-06 2018-aŭgusto-22 01:43:03 UTC, modifita 2018-oktobro-06 04:05:44 UTC link Konstanta ligilo

@gillux

Bonjour
Je retiendra une de vos phrases qui résumé tout: "Il ne faut pas adapter le corpus aux outils ; ce sont aux outils de s'adapter." Cela dénote un esprit scientifique et perspicace (et vice versa).
En kabyle, ce n'est pas la ponctuation (hélas, dirais-je) qui pose problème: cela aurait été tellement plus simple.
Amicalement

CK CK 2019-decembro-01, modifita 2019-decembro-02 2019-decembro-01 23:00:45 UTC, modifita 2019-decembro-02 03:50:59 UTC link Konstanta ligilo

Perhaps this file would be of interest. I can't read this discussion, so perhaps it is irrelevant.

http://tatoeba.byethost3.com/fr...2019-11-30.txt

To create this file, I used BBEdit on a Macintosh and took what it matched as duplicates.



[4 hours later]

Here is the same data, plus the number of linked sentences to each.

http://tatoeba.byethost3.com/fr...2019-11-30.txt

{{vm.hiddenReplies[33646] ? 'expand_more' : 'expand_less'}} kaŝi la respondojn montri la respondojn
Thanuir Thanuir 2019-decembro-02 2019-decembro-02 05:39:33 UTC link Konstanta ligilo

> I can't read this discussion

I am not sure direct links to Google translate work, but let us see: https://translate.google.com/tr...3message_29619