[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [freebsd-fdp] OT: charset mess
On Wed, Apr 14, 2004 at 08:26:31AM -0400, Miroslav Pendev wrote:
> On Wed, Apr 14, 2004 at 09:13:34AM +0300, Peter Pentchev wrote:
> > On Wed, Apr 14, 2004 at 01:31:30AM -0400, lou wrote:
> > >
> > > Ima drugo reshenie, da convertvam sichki emails v archive ot neshto kum utf-8,
> > > good thing about utf-8 che e unified ;) niakoi da ima neshto protiv?
> > >
> > > sichki postove sa v utf-8 sega, no shte triabva da go pipenia naikade
> > > posredata, niakoi da ima po dobra ideai?
> >
> > Не можеш да обърнеш всичко в UTF-8; ще загубиш информация, ще промениш
> > съобщенията - примерно PGP подписите на хора, които пишат в нещо, различно
> > от UTF-8 (yours truly ;), няма да са валидни.
> >
> > Иначе всеки разумен софтуер за представяне на неща в уеб би трябвало да
> > може да си прави вътрешно конвертирането... друг е въпросът дали
> > наистина го правят, но *би трябвало* :( Остава малкият проблем с
> > търсенето из архивите де, но и там... Хмм, бе чудя се дали да не седна
> > да погледна как са направени нещата и дали няма нещо вече измислено, но
> > определено не ми се вижда изобщо чиста идеята за forcible conversion на
> > съобщенията :(
>
> Ако не греша, Любо смята да конвертира *само* съобщенията в (за) архива - т.е.
> ние ще продължим да си ги получаваме така както са си изпратени и с валиден
> подпис. Конвертирането към UTF-8 ще направи подписите невалидни в уеб
> интерфейса, но до колкото там няма 'валидизатор - това е найстина пратено от
> Петър Пенчев' то това не би трябвало да е голям проблем.
>
> Мене повече ме притеснява факта, че писмото може да е пратено на произволен
> енкодинг - за ден два имаме UTF-8, CP1251, KOI8-R и даже емаил с кирилица
> без зададен енкодинг (ISO8859-1) ако не греша.
>
> Т.е. ако на някой емайл клиента му не set-не коректно енкодинга, как това
> ще се отрази на архива?
Зле :-) Това обаче е проблем не със софтуера, който архивира съобщенията,
а с потребителя, пратил писмо с грешно кодиране. Не виждам какво може да се
направи, трудно е да се отгатне верния енкодинг.
Самата идея архивът да ползва твърда кодировка на мен ми харесва. Не съм
ползвал ezmlm, но сигурно има възможност да pipe-не съобщенията през iconv.
За индексиране на пощенски списъци съм инсталирал mhonarch и към него namazu
като search engine. Има страхотна поддръжка за прекодиране на съобщенията.
> И какво ако някой отговори на емайл писан на UTF-8 с CP1251?
> Аз го направих вчера и mutt-a ми просто конвертира всичко в CP1251, но всеки
> клиент може да го направи по произволен начин...
Логично е да се прекодира цялото съобщение към енкодинга, който се ползва в
отговора. Вариантите обаче са неизброими (ако изходящият енкодинг не поддържа
всички символи на оригиналното съобщение) и пак настъпва малък хаос :-)
> Търсенето ще бачка ли коректно с UTF-8?
>
> С две думи: Ако iconv отгатва коректно как да конвертира *шантави* емайли и го
> прави коректно - нямам против за това което предлага Любо.
Ахм.. На iconv му липсва AI и не отгатва енкодинг, съобразява се със from
и to аргументите.. Може да се пробва обаче със /usr/ports/converters/konwert,
на който като се зададе филтър "any" се опитва да отгатне енкодинга.
Поздрави,
Виктор
--
Microsoft: Where do you want to go today?
Linux: Where do you want to go tomorrow?
BSD: Are you guys coming, or what?