[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [freebsd-fdp] OT: charset mess



On Wed, Apr 14, 2004 at 05:49:01PM +0200, Viktor Vasilev wrote:
> On Wed, Apr 14, 2004 at 08:26:31AM -0400, Miroslav Pendev wrote:
> > On Wed, Apr 14, 2004 at 09:13:34AM +0300, Peter Pentchev wrote:
> > > On Wed, Apr 14, 2004 at 01:31:30AM -0400, lou wrote:
> > > > 
> > > > Ima drugo reshenie, da convertvam sichki emails v archive ot neshto kum utf-8,
> > > > good thing about utf-8 che e unified ;) niakoi da ima neshto protiv?
> > > > 
> > > > sichki postove sa v utf-8 sega, no shte triabva da go pipenia naikade
> > > > posredata, niakoi da ima po dobra ideai?
> > > 
> > > Не можеш да обърнеш всичко в UTF-8; ще загубиш информация, ще промениш
> > > съобщенията - примерно PGP подписите на хора, които пишат в нещо, различно
> > > от UTF-8 (yours truly ;), няма да са валидни.
> > > 
> > > Иначе всеки разумен софтуер за представяне на неща в уеб би трябвало да
> > > може да си прави вътрешно конвертирането... друг е въпросът дали
> > > наистина го правят, но *би трябвало* :(  Остава малкият проблем с
> > > търсенето из архивите де, но и там...  Хмм, бе чудя се дали да не седна
> > > да погледна как са направени нещата и дали няма нещо вече измислено, но
> > > определено не ми се вижда изобщо чиста идеята за forcible conversion на
> > > съобщенията :(
> > 
> > Ако не греша, Любо смята да конвертира *само* съобщенията в (за) архива - т.е.
> > ние ще продължим да си ги получаваме така както са си изпратени и с валиден
> > подпис. Конвертирането към UTF-8 ще направи подписите невалидни в уеб 
> > интерфейса, но до колкото там няма 'валидизатор - това е найстина пратено от
> > Петър Пенчев' то това не би трябвало да е голям проблем.
> > 
> > Мене повече ме притеснява факта, че писмото може да е пратено на произволен
> > енкодинг - за ден два имаме UTF-8, CP1251, KOI8-R и даже емаил с кирилица 
> > без зададен енкодинг (ISO8859-1) ако не греша.
> > 
> > Т.е. ако на някой емайл клиента му не set-не коректно енкодинга, как това
> > ще се отрази на архива?
> 
> Зле :-) Това обаче е проблем не със софтуера, който архивира съобщенията, 
> а с потребителя, пратил писмо с грешно кодиране. Не виждам какво може да се
> направи, трудно е да се отгатне верния енкодинг.
> 
> Самата идея архивът да ползва твърда кодировка на мен ми харесва. Не съм 
> ползвал ezmlm, но сигурно има възможност да pipe-не съобщенията през iconv. 
> За индексиране на пощенски списъци съм инсталирал mhonarch и към него namazu
> като search engine. Има страхотна поддръжка за прекодиране на съобщенията.
> 
> > И какво ако някой отговори на емайл писан на UTF-8 с CP1251?
> > Аз го направих вчера и mutt-a ми просто конвертира всичко в CP1251, но всеки
> > клиент може да го направи по произволен начин...
> 
> Логично е да се прекодира цялото съобщение към енкодинга, който се ползва в
> отговора. Вариантите обаче са неизброими (ако изходящият енкодинг не поддържа
> всички символи на оригиналното съобщение) и пак настъпва малък хаос :-)
> 
> > Търсенето ще бачка ли коректно с UTF-8?
> > 
> > С две думи: Ако iconv отгатва коректно как да конвертира *шантави* емайли и го
> > прави коректно - нямам против за това което предлага Любо.
> 
> Ахм.. На iconv му липсва AI и не отгатва енкодинг, съобразява се със from 
> и to аргументите.. Може да се пробва обаче със /usr/ports/converters/konwert, 
> на който като се зададе филтър "any" се опитва да отгатне енкодинга.

Ммм.. по принцип не би ли могло просто да се parse-не самото съобщение
и да се види неговият MIME type and stuff? :)  Да, това няма да се
справи добре с неправилно зададени MIME types, но това е рядкост...
освен в случая с отговор на съобщение в друг charset.

Поздрави,
Петър

-- 
Peter Pentchev	roam@xxxxxxxxxxx    roam@xxxxxxxx    roam@xxxxxxxxxxx
PGP key:	http://people.FreeBSD.org/~roam/roam.key.asc
Key fingerprint	FDBA FD79 C26F 3C51 C95E  DF9E ED18 B68D 1619 4553
I am not the subject of this sentence.

Attachment: pgp00003.pgp
Description: PGP signature