View previous topic :: View next topic |
Author |
Message |
Cleus Apprentice

Joined: 21 Aug 2004 Posts: 160
|
Posted: Wed Jan 11, 2006 4:31 pm Post subject: utf8, utf16 и plain text |
|
|
А в чем принципиальное отличие utf8 b utf16? Что лучше? MacOS, как я понял (судя по iPod'ам, больше с utf16 дружит.
И самое главное. Обычный текстовый файл в utf8 раза в два-три больше, чем в любой традиционной кодировке, cp1251, например. Это можно как-то исправить, либо это, так сказать, плата за юникод?
PS
Как-то настроил себе юникод по инструкции, никаких особых проблем не имел, просто недавно хотел было библиотечку перекодировать в юникод, да передумал пока. Если вместо ~300 мб будет уже ~1 гб, это уже как-то довольно заметная разница получается. Может я что-то не так делаю? |
|
Back to top |
|
 |
devil_ua Tux's lil' helper


Joined: 23 Jun 2004 Posts: 128 Location: Kiev, Ukraine
|
Posted: Wed Jan 11, 2006 5:38 pm Post subject: Re: utf8, utf16 и plain text |
|
|
Cleus wrote: | А в чем принципиальное отличие utf8 b utf16? Что лучше? MacOS, как я понял (судя по iPod'ам, больше с utf16 дружит.
И самое главное. Обычный текстовый файл в utf8 раза в два-три больше, чем в любой традиционной кодировке, cp1251, например. Это можно как-то исправить, либо это, так сказать, плата за юникод?
PS
Как-то настроил себе юникод по инструкции, никаких особых проблем не имел, просто недавно хотел было библиотечку перекодировать в юникод, да передумал пока. Если вместо ~300 мб будет уже ~1 гб, это уже как-то довольно заметная разница получается. Может я что-то не так делаю? |
двумя байтами кодируються символы отличные от ASCII _________________ Web developer & High-load application deployer
Web Site: http://simonov.me
E-Mail: alex@simonov.me |
|
Back to top |
|
 |
IFL Tux's lil' helper

Joined: 12 Jun 2005 Posts: 117
|
|
Back to top |
|
 |
046 Apprentice

Joined: 21 Jul 2004 Posts: 231 Location: Yaroslavl, Russia
|
Posted: Thu Jan 12, 2006 6:21 am Post subject: |
|
|
А ты библиотеку хранишь не в сжатом виде?
Сажый архиватором utf-8 не больше сжатого текста в однобайтной кодировке. |
|
Back to top |
|
 |
Cleus Apprentice

Joined: 21 Aug 2004 Posts: 160
|
Posted: Thu Jan 19, 2006 6:16 pm Post subject: |
|
|
Да, пожалуй можно и зажать.
А как тогда сразу все файлы перекодировать из cp1251, cp866 в utf8 чтоб не руками? |
|
Back to top |
|
 |
ZmiyGorinich Guru


Joined: 27 Feb 2004 Posts: 369 Location: Zaporizhzhe, Ukraine
|
Posted: Fri Jan 20, 2006 7:30 am Post subject: |
|
|
Cleus wrote: | Да, пожалуй можно и зажать.
А как тогда сразу все файлы перекодировать из cp1251, cp866 в utf8 чтоб не руками? |
iconv _________________ Home: Athlon XP 2000+, ATI Radeon 9200 64Mb, 512Mb, hda:40Gb, hdb:120Gb, DVD-RW
Work : Duron 1.4, S3 ProSavage8 32Mb, 512Mb, hda:40Gb, CD-RW
Design, programming, hosting |
|
Back to top |
|
 |
046 Apprentice

Joined: 21 Jul 2004 Posts: 231 Location: Yaroslavl, Russia
|
Posted: Fri Jan 20, 2006 7:54 am Post subject: |
|
|
ZmiyGorinich wrote: | iconv | Этот как раз сам не умеет. Ему нужно указывать кодировку источника. |
|
Back to top |
|
 |
IFL Tux's lil' helper

Joined: 12 Jun 2005 Posts: 117
|
Posted: Fri Jan 20, 2006 8:13 am Post subject: |
|
|
046 wrote: | ZmiyGorinich wrote: | iconv | Этот как раз сам не умеет. Ему нужно указывать кодировку источника. |
а как вы предлагаете определять кодировку ОДНОБАЙТОВОГО источника?
комп не знает про слова, комп не может отличить по ОДНОМУ И ТОМУ ЖЕ НАБОРУ БИТ одну кодировку от другой...
кодировка вообще созданы людьми для людей... |
|
Back to top |
|
 |
046 Apprentice

Joined: 21 Jul 2004 Posts: 231 Location: Yaroslavl, Russia
|
Posted: Fri Jan 20, 2006 8:52 am Post subject: |
|
|
Есть такие программы. Для нормальных текстов (больше 1000 байт) работают практически без ошибок.
IFL wrote: | а как вы предлагаете определять кодировку ОДНОБАЙТОВОГО источника? | Например на основе частотной встречаемости букв
Точно помню был какой-то модуль для перла. |
|
Back to top |
|
 |
ZmiyGorinich Guru


Joined: 27 Feb 2004 Posts: 369 Location: Zaporizhzhe, Ukraine
|
Posted: Fri Jan 20, 2006 8:57 am Post subject: |
|
|
IFL wrote: | 046 wrote: | ZmiyGorinich wrote: | iconv | Этот как раз сам не умеет. Ему нужно указывать кодировку источника. |
а как вы предлагаете определять кодировку ОДНОБАЙТОВОГО источника?
комп не знает про слова, комп не может отличить по ОДНОМУ И ТОМУ ЖЕ НАБОРУ БИТ одну кодировку от другой...
кодировка вообще созданы людьми для людей... |
Почитай вот тут http://www.linuxcenter.ru/lib/books/kostromin/gl_12_02.phtml
Там есть в конце описание програмки которая может автоматически определять кодировку _________________ Home: Athlon XP 2000+, ATI Radeon 9200 64Mb, 512Mb, hda:40Gb, hdb:120Gb, DVD-RW
Work : Duron 1.4, S3 ProSavage8 32Mb, 512Mb, hda:40Gb, CD-RW
Design, programming, hosting |
|
Back to top |
|
 |
IFL Tux's lil' helper

Joined: 12 Jun 2005 Posts: 117
|
Posted: Fri Jan 20, 2006 10:46 am Post subject: |
|
|
046 wrote: | Например на основе частотной встречаемости букв  |
Есть немалая вероятность того, что она будет определена неправильно  |
|
Back to top |
|
 |
balodja n00b

Joined: 25 Sep 2005 Posts: 25 Location: Russia,Zhukovsky
|
Posted: Fri Jan 20, 2006 6:23 pm Post subject: |
|
|
IFL wrote: |
Есть немалая вероятность того, что она будет определена неправильно :-) |
Очень малая вероятность. Ибо я взял 2 книги: первый том Толстого "Война и Мир" и какой-то перевод одной книги по шелл-скриптингу. Разница в частотах была заметна только на 4ой или 5ой букве по встречаемости. _________________ I'm really sorry. My english is bad. So I'll thank you, if you point out my mistakes. |
|
Back to top |
|
 |
|
|
You cannot post new topics in this forum You cannot reply to topics in this forum You cannot edit your posts in this forum You cannot delete your posts in this forum You cannot vote in polls in this forum
|
|