Bugi suomilokaalissa?

Message

hhaamu · Post by **hhaamu** » Mon Dec 12, 2005 7:50 pm

Huomasin tallaisen oudon kaytoksen suomilokaalissa (fi_FI.utf8):

$ echo -e '\346\210\257\347\224\274\n\346\236\227\347\265\203'|uniq -c
      2 æ¯ç¼

Mutta kaikissa muissa lokaaleissa joita koneeltani loytyy (mm. en_GB.utf8, ja_JP.utf8 ja C) kaytos on tallainen:

Code: Select all

$ echo -e '\346\210\257\347\224\274\n\346\236\227\347\265\203'|LC_COLLATE=sv_SE.utf8 uniq -c
      1 æ¯ç¼
      1 æçµ

Nama kyseiset kanjit eivat ole samoja, senhan jo oktaalisarjat (ja paljas silma) nayttavat. Loytyyko tata bugia muilta?

Tata sanoo omat lokaalini:

Code: Select all

LANG=en_GB.UTF-8
LC_CTYPE=fi_FI.UTF-8
LC_NUMERIC=fi_FI.UTF-8
LC_TIME=fi_FI.UTF-8
LC_COLLATE=fi_FI.UTF-8
LC_MONETARY=fi_FI.UTF-8
LC_MESSAGES=en_GB.UTF-8
LC_PAPER=fi_FI.UTF-8
LC_NAME=fi_FI.UTF-8
LC_ADDRESS=fi_FI.UTF-8
LC_TELEPHONE=fi_FI.UTF-8
LC_MEASUREMENT=fi_FI.UTF-8
LC_IDENTIFICATION=fi_FI.UTF-8
LC_ALL=

ja /etc/locales.buildissa on seuraava rivi:

Code: Select all

fi_FI.UTF-8/UTF-8

jmz2 · Post by **jmz2** » Tue Dec 13, 2005 5:17 pm

Oudolta tilanteelta tuo näyttää, mutta enpä osaa sanoa, onko kyseessä varsinaisesti virhe. Minulla tuo tekee samaa, tosin muillakin lokaaleilla vastauksena on duplikaatteja, eikä kahta uniikkia riviä. Haluttuun tulokseen pääsen mm. seuraavilla komennoilla:

Code: Select all

echo -e '\346\210\257\347\224\274\n\346\236\227\347\265\203'|LC_ALL=C uniq -c
echo -e '\346\210\257\347\224\274\n\346\236\227\347\265\203'|uniq -c -i

Sinulla ei ainakaan terminaali ole Unicodella, koska näet merkit 8-bittisinä tavuina, etkä japanin kirjoitusmerkkeinä. Minulle tuo ripsu tulostaa:

Code: Select all

echo -e '\346\210\257\347\224\274\n\346\236\227\347\265\203'
戯甼
林絃

Hox, ensimmäinen rivi on tyhjä, tai oikeastaan se sisältää kaksi merkkiä, joita minun kirjasimilla ei näe. Vastaavanlainen "tyhjä" merkki on myös toisella rivillä.

hhaamu · Post by **hhaamu** » Fri Dec 16, 2005 7:45 pm

jmz2 wrote:Oudolta tilanteelta tuo näyttää, mutta enpä osaa sanoa, onko kyseessä varsinaisesti virhe. Minulla tuo tekee samaa, tosin muillakin lokaaleilla vastauksena on duplikaatteja

Outo on, samaa mielta. Ihmetyttaa etta miksi nama lokaalit vertaavat merkkeja toisiinsa nain summittaisesti eika bittien tarkkuudella. Tuli ilmi kun satuin laittamaan pgsql:n kayttamaan lokaaleja (lc_collate) ja se alkoi valittamaan etta ei voi laittaa uniikkiconstrainttia paikalleen. Nyt se on taas normaalilokaaleilla.

Sinulla ei ainakaan terminaali ole Unicodella, koska näet merkit 8-bittisinä tavuina, etkä japanin kirjoitusmerkkeinä.

Kylla se taalla toimii ihan hyvin, postatessa vain sattui menemaan sekaisin. View -> Character Encoding -> Unicode (UTF-8)

Flammie · Post by **Flammie** » Wed Dec 28, 2005 1:29 pm

hhaamu wrote:Huomasin tallaisen oudon kaytoksen suomilokaalissa (fi_FI.utf8):
Code: Select all
$ echo -e '\346\210\257\347\224\274\n\346\236\227\347\265\203'|uniq -c
      2 æ¯ç¼
Mutta kaikissa muissa lokaaleissa joita koneeltani loytyy (mm. en_GB.utf8, ja_JP.utf8 ja C) kaytos on tallainen:
Code: Select all
$ echo -e '\346\210\257\347\224\274\n\346\236\227\347\265\203'|LC_COLLATE=sv_SE.utf8 uniq -c
      1 æ¯ç¼
      1 æçµ
Nama kyseiset kanjit eivat ole samoja, senhan jo oktaalisarjat (ja paljas silma) nayttavat. Loytyyko tata bugia muilta?

Oktaalisarjat eivät unicodessa kerro paljoakaan, esimerkiksi samaksi tulkittavan Å:n voi esittää ainakin kolmella eri näköisellä sarjalla.

Tuollainen kanjien samuus näyttää kyllä sikäli päättömältä, että nopean testauksen perusteella suomilokaali taas ei osaa tulkita samoiksi merkeiksi sellaisia, joita se voisi hyvinkin tulkita. Kehittäjille voisi muuten laittaa bugi-ilmoituksen, mutta glibc:n tapauksessa se on perinteisesti ollut aika hyödytöntä.

ja /etc/locales.buildissa on seuraava rivi:
Code: Select all
fi_FI.UTF-8/UTF-8

Jos tuossa on koko locales.build niin silloin kai koneella ei pitäisi olla muita lokaaleja ja muiden lokaalien käyttäminen aiheuttaisi C-lokaalin valinnan.

Ihmetyttaa etta miksi nama lokaalit vertaavat merkkeja toisiinsa nain summittaisesti eika bittien tarkkuudella. Tuli ilmi kun satuin laittamaan pgsql:n kayttamaan lokaaleja (lc_collate) ja se alkoi valittamaan etta ei voi laittaa uniikkiconstrainttia paikalleen. Nyt se on taas normaalilokaaleilla.

Lokaalien ideahan olisi siinä, että merkkijonojen vertailu ja järjestely tehdään paikallisen standardin (esim. Englannissa ä=a) mukaan. Jos haluat biteittäistä vertailua sinun pitää käyttää C-lokaalia.

Bugi suomilokaalissa?

Bugi suomilokaalissa?

Re: Bugi suomilokaalissa?