Gentoo Forums
Gentoo Forums
Gentoo Forums
Quick Search: in
utf8, utf16 и plain text
View unanswered posts
View posts from last 24 hours

 
Reply to topic    Gentoo Forums Forum Index Russian
View previous topic :: View next topic  
Author Message
Cleus
Apprentice
Apprentice


Joined: 21 Aug 2004
Posts: 157

PostPosted: Wed Jan 11, 2006 4:31 pm    Post subject: utf8, utf16 и plain text Reply with quote

А в чем принципиальное отличие utf8 b utf16? Что лучше? MacOS, как я понял (судя по iPod'ам, больше с utf16 дружит.
И самое главное. Обычный текстовый файл в utf8 раза в два-три больше, чем в любой традиционной кодировке, cp1251, например. Это можно как-то исправить, либо это, так сказать, плата за юникод?
PS
Как-то настроил себе юникод по инструкции, никаких особых проблем не имел, просто недавно хотел было библиотечку перекодировать в юникод, да передумал пока. Если вместо ~300 мб будет уже ~1 гб, это уже как-то довольно заметная разница получается. Может я что-то не так делаю?
Back to top
View user's profile Send private message
devil_ua
Tux's lil' helper
Tux's lil' helper


Joined: 23 Jun 2004
Posts: 128
Location: Kiev, Ukraine

PostPosted: Wed Jan 11, 2006 5:38 pm    Post subject: Re: utf8, utf16 и plain text Reply with quote

Cleus wrote:
А в чем принципиальное отличие utf8 b utf16? Что лучше? MacOS, как я понял (судя по iPod'ам, больше с utf16 дружит.
И самое главное. Обычный текстовый файл в utf8 раза в два-три больше, чем в любой традиционной кодировке, cp1251, например. Это можно как-то исправить, либо это, так сказать, плата за юникод?
PS
Как-то настроил себе юникод по инструкции, никаких особых проблем не имел, просто недавно хотел было библиотечку перекодировать в юникод, да передумал пока. Если вместо ~300 мб будет уже ~1 гб, это уже как-то довольно заметная разница получается. Может я что-то не так делаю?

двумя байтами кодируються символы отличные от ASCII
_________________
Web developer & High-load application deployer
Web Site: http://simonov.me
E-Mail: alex@simonov.me
Back to top
View user's profile Send private message
IFL
Tux's lil' helper
Tux's lil' helper


Joined: 12 Jun 2005
Posts: 117

PostPosted: Wed Jan 11, 2006 6:09 pm    Post subject: Reply with quote

http://en.wikipedia.org/wiki/Comparison_of_Unicode_encodings
если кратко, то UTF-16 "больше" UTF-8
Back to top
View user's profile Send private message
046
Apprentice
Apprentice


Joined: 21 Jul 2004
Posts: 231
Location: Yaroslavl, Russia

PostPosted: Thu Jan 12, 2006 6:21 am    Post subject: Reply with quote

А ты библиотеку хранишь не в сжатом виде?

Сажый архиватором utf-8 не больше сжатого текста в однобайтной кодировке.
Back to top
View user's profile Send private message
Cleus
Apprentice
Apprentice


Joined: 21 Aug 2004
Posts: 157

PostPosted: Thu Jan 19, 2006 6:16 pm    Post subject: Reply with quote

Да, пожалуй можно и зажать.
А как тогда сразу все файлы перекодировать из cp1251, cp866 в utf8 чтоб не руками?
Back to top
View user's profile Send private message
ZmiyGorinich
Guru
Guru


Joined: 27 Feb 2004
Posts: 369
Location: Zaporizhzhe, Ukraine

PostPosted: Fri Jan 20, 2006 7:30 am    Post subject: Reply with quote

Cleus wrote:
Да, пожалуй можно и зажать.
А как тогда сразу все файлы перекодировать из cp1251, cp866 в utf8 чтоб не руками?


iconv
_________________
Home: Athlon XP 2000+, ATI Radeon 9200 64Mb, 512Mb, hda:40Gb, hdb:120Gb, DVD-RW
Work : Duron 1.4, S3 ProSavage8 32Mb, 512Mb, hda:40Gb, CD-RW
Design, programming, hosting
Back to top
View user's profile Send private message
046
Apprentice
Apprentice


Joined: 21 Jul 2004
Posts: 231
Location: Yaroslavl, Russia

PostPosted: Fri Jan 20, 2006 7:54 am    Post subject: Reply with quote

ZmiyGorinich wrote:
iconv
Этот как раз сам не умеет. Ему нужно указывать кодировку источника.
Back to top
View user's profile Send private message
IFL
Tux's lil' helper
Tux's lil' helper


Joined: 12 Jun 2005
Posts: 117

PostPosted: Fri Jan 20, 2006 8:13 am    Post subject: Reply with quote

046 wrote:
ZmiyGorinich wrote:
iconv
Этот как раз сам не умеет. Ему нужно указывать кодировку источника.

а как вы предлагаете определять кодировку ОДНОБАЙТОВОГО источника?
комп не знает про слова, комп не может отличить по ОДНОМУ И ТОМУ ЖЕ НАБОРУ БИТ одну кодировку от другой...
кодировка вообще созданы людьми для людей...
Back to top
View user's profile Send private message
046
Apprentice
Apprentice


Joined: 21 Jul 2004
Posts: 231
Location: Yaroslavl, Russia

PostPosted: Fri Jan 20, 2006 8:52 am    Post subject: Reply with quote

Есть такие программы. Для нормальных текстов (больше 1000 байт) работают практически без ошибок.

IFL wrote:
а как вы предлагаете определять кодировку ОДНОБАЙТОВОГО источника?
Например на основе частотной встречаемости букв :)

Точно помню был какой-то модуль для перла.
Back to top
View user's profile Send private message
ZmiyGorinich
Guru
Guru


Joined: 27 Feb 2004
Posts: 369
Location: Zaporizhzhe, Ukraine

PostPosted: Fri Jan 20, 2006 8:57 am    Post subject: Reply with quote

IFL wrote:
046 wrote:
ZmiyGorinich wrote:
iconv
Этот как раз сам не умеет. Ему нужно указывать кодировку источника.

а как вы предлагаете определять кодировку ОДНОБАЙТОВОГО источника?
комп не знает про слова, комп не может отличить по ОДНОМУ И ТОМУ ЖЕ НАБОРУ БИТ одну кодировку от другой...
кодировка вообще созданы людьми для людей...


Почитай вот тут http://www.linuxcenter.ru/lib/books/kostromin/gl_12_02.phtml

Там есть в конце описание програмки которая может автоматически определять кодировку
_________________
Home: Athlon XP 2000+, ATI Radeon 9200 64Mb, 512Mb, hda:40Gb, hdb:120Gb, DVD-RW
Work : Duron 1.4, S3 ProSavage8 32Mb, 512Mb, hda:40Gb, CD-RW
Design, programming, hosting
Back to top
View user's profile Send private message
IFL
Tux's lil' helper
Tux's lil' helper


Joined: 12 Jun 2005
Posts: 117

PostPosted: Fri Jan 20, 2006 10:46 am    Post subject: Reply with quote

046 wrote:
Например на основе частотной встречаемости букв :)

Есть немалая вероятность того, что она будет определена неправильно :-)
Back to top
View user's profile Send private message
balodja
n00b
n00b


Joined: 25 Sep 2005
Posts: 25
Location: Russia,Zhukovsky

PostPosted: Fri Jan 20, 2006 6:23 pm    Post subject: Reply with quote

IFL wrote:

Есть немалая вероятность того, что она будет определена неправильно :-)


Очень малая вероятность. Ибо я взял 2 книги: первый том Толстого "Война и Мир" и какой-то перевод одной книги по шелл-скриптингу. Разница в частотах была заметна только на 4ой или 5ой букве по встречаемости.
_________________
I'm really sorry. My english is bad. So I'll thank you, if you point out my mistakes.
Back to top
View user's profile Send private message
Display posts from previous:   
Reply to topic    Gentoo Forums Forum Index Russian All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum