On Wed, Apr 14, 2004 at 05:49:01PM +0200, Viktor Vasilev wrote: > On Wed, Apr 14, 2004 at 08:26:31AM -0400, Miroslav Pendev wrote: > > On Wed, Apr 14, 2004 at 09:13:34AM +0300, Peter Pentchev wrote: > > > On Wed, Apr 14, 2004 at 01:31:30AM -0400, lou wrote: > > > > > > > > Ima drugo reshenie, da convertvam sichki emails v archive ot neshto kum utf-8, > > > > good thing about utf-8 che e unified ;) niakoi da ima neshto protiv? > > > > > > > > sichki postove sa v utf-8 sega, no shte triabva da go pipenia naikade > > > > posredata, niakoi da ima po dobra ideai? > > > > > > Не можеш да обърнеш всичко в UTF-8; ще загубиш информация, ще промениш > > > съобщенията - примерно PGP подписите на хора, които пишат в нещо, различно > > > от UTF-8 (yours truly ;), няма да са валидни. > > > > > > Иначе всеки разумен софтуер за представяне на неща в уеб би трябвало да > > > може да си прави вътрешно конвертирането... друг е въпросът дали > > > наистина го правят, но *би трябвало* :( Остава малкият проблем с > > > търсенето из архивите де, но и там... Хмм, бе чудя се дали да не седна > > > да погледна как са направени нещата и дали няма нещо вече измислено, но > > > определено не ми се вижда изобщо чиста идеята за forcible conversion на > > > съобщенията :( > > > > Ако не греша, Любо смята да конвертира *само* съобщенията в (за) архива - т.е. > > ние ще продължим да си ги получаваме така както са си изпратени и с валиден > > подпис. Конвертирането към UTF-8 ще направи подписите невалидни в уеб > > интерфейса, но до колкото там няма 'валидизатор - това е найстина пратено от > > Петър Пенчев' то това не би трябвало да е голям проблем. > > > > Мене повече ме притеснява факта, че писмото може да е пратено на произволен > > енкодинг - за ден два имаме UTF-8, CP1251, KOI8-R и даже емаил с кирилица > > без зададен енкодинг (ISO8859-1) ако не греша. > > > > Т.е. ако на някой емайл клиента му не set-не коректно енкодинга, как това > > ще се отрази на архива? > > Зле :-) Това обаче е проблем не със софтуера, който архивира съобщенията, > а с потребителя, пратил писмо с грешно кодиране. Не виждам какво може да се > направи, трудно е да се отгатне верния енкодинг. > > Самата идея архивът да ползва твърда кодировка на мен ми харесва. Не съм > ползвал ezmlm, но сигурно има възможност да pipe-не съобщенията през iconv. > За индексиране на пощенски списъци съм инсталирал mhonarch и към него namazu > като search engine. Има страхотна поддръжка за прекодиране на съобщенията. > > > И какво ако някой отговори на емайл писан на UTF-8 с CP1251? > > Аз го направих вчера и mutt-a ми просто конвертира всичко в CP1251, но всеки > > клиент може да го направи по произволен начин... > > Логично е да се прекодира цялото съобщение към енкодинга, който се ползва в > отговора. Вариантите обаче са неизброими (ако изходящият енкодинг не поддържа > всички символи на оригиналното съобщение) и пак настъпва малък хаос :-) > > > Търсенето ще бачка ли коректно с UTF-8? > > > > С две думи: Ако iconv отгатва коректно как да конвертира *шантави* емайли и го > > прави коректно - нямам против за това което предлага Любо. > > Ахм.. На iconv му липсва AI и не отгатва енкодинг, съобразява се със from > и to аргументите.. Може да се пробва обаче със /usr/ports/converters/konwert, > на който като се зададе филтър "any" се опитва да отгатне енкодинга. Ммм.. по принцип не би ли могло просто да се parse-не самото съобщение и да се види неговият MIME type and stuff? :) Да, това няма да се справи добре с неправилно зададени MIME types, но това е рядкост... освен в случая с отговор на съобщение в друг charset. Поздрави, Петър -- Peter Pentchev roam@xxxxxxxxxxx roam@xxxxxxxx roam@xxxxxxxxxxx PGP key: http://people.FreeBSD.org/~roam/roam.key.asc Key fingerprint FDBA FD79 C26F 3C51 C95E DF9E ED18 B68D 1619 4553 I am not the subject of this sentence.
Attachment:
pgp00003.pgp
Description: PGP signature