Konference: SAPI-1 a československé mikropočítače

Od: LitilDivil
Datum: 28.6.2013 16:08
Předmět: Re: Archiv SAPI


Přeposílám info z konfery speccy:

Tato zprava je crospostovana do konferenci sharpemu a do speccy. Budu 
rad, kdyz ji budete posilat (alespon odkaze) dle vlastniho uvazeni i do 
dalsich konferenci na pandore.

Ahoj,

protoze jsem na svou posledni zpravu, kterou jsem zaslal adminum pandory 
uz neobdrzel zadnou odpoved, tak jsem se vrhnul na ubastleni vlastniho 
parseru, ktery vyzobe obsah libovolne verejne dostupne konference z 
jejiho archivu na webu pandory a ulozi jej do smysluplne datove struktury.

Script si sam projde vsechny roky a mesice v konferenci, ale jim 
parsovat treba jen na konkretni rok, mesic, nebo zpravu. Ukladani obsahu 
je aditivni, takze po nacteni casti konference do DB muze byt dale 
aktualizovan obsah databaze podle toho, jak budou na pandore pribyvat 
prispevky.

Vizualizaci jiz stazeneho archivu konference sharpemu jsem provedl zde 
http://sharpemu.ordoz.com/

Prozatim je to bez jakychkoliv stylu, jen hole html, takze to vypada ... 
tak jak to vypada.

Script umi z vebu parsovat:

- hlavicku zpravy (from, date, subject)
- samotne telo
- attachment files (zatim ulozeno jen jako seznam)
- strom vlaken zprav

TODO:

- automaticke stazeni attachmentu
- vyparsovani a stazeni obrazku, ktere jsou soucasti tela zpravy (zrejme 
jen smailiky :)
- procisteni tela zprav od zbytecneho html balastu
- alespon castecne odstraneni reklam z tela zprav
- automaticke generovani xml exportu pro google search

Pokud se chcete na neco zeptat, tak se ptejte :)
Pokud mate zajem o vygenerovani archivu nejake dalsi konference 
provozovane na pandore, tak mi dejte vedet.

Vyparsovana data jsou prozatim ulozena do takto rozvrzenych tabulek:

CREATE TABLE `message` (
   `id` bigint(20) NOT NULL AUTO_INCREMENT,
   `parent_id` bigint(20) DEFAULT NULL,
   `msgid` varchar(255) NOT NULL,
   `author_name` tinytext NOT NULL,
   `subject` tinytext NOT NULL,
   `msgtime` datetime NOT NULL,
   `body` longtext,
   PRIMARY KEY (`id`),
   UNIQUE KEY `k_msgid` (`msgid`),
   KEY `k_parent_id` (`parent_id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

CREATE TABLE `attachment` (
   `id` bigint(20) NOT NULL AUTO_INCREMENT,
   `message_msgid` varchar(255) NOT NULL,
   `path` varchar(255) NOT NULL,
   PRIMARY KEY (`id`),
   UNIQUE KEY `k_path` (`path`),
   KEY `fk_msgid` (`message_msgid`),
   CONSTRAINT `fk_msgid` FOREIGN KEY (`message_msgid`) REFERENCES 
`message` (`msgid`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;


S pozdravem -
     Michal Hucik


Dne 28.6.2013 15:07, PvvS (sapi tu byla ta zakroucena vec pandora.cz) napsal(a):
>
> Rad bych se zeptal, zda tu nekdo nema kompeltni archiv SAPI konference
> trebas v Outlook Express, nebo jinym eailovym klientu a byl by ochoten
> ho poslat ?
> Diky PvvS
> ---------------------
> sapi tu byla ta zakroucena vec pandora.cz
> Konference o SAPI-1
> ---
> POZOR! Provoz systému Pandora.cz bude k 30. listopadu 2013 ukončen.
> Více informací: http://goo.gl/b99cI
>

Ostatní příspěvky vlákna:

 
[2013/1 (16)] [2013/2 (90)] [2013/3 (37)] [2013/4 (48)] [2013/5 (36)] [2013/6 (128)] [2013/7 (27)] [2013/9 (29)] [2013/10 (64)] [2013/11 (63)]


[2010 (676)] [2011 (586)] [2012 (976)] [2013 (538)]