A Comparative Analysis of Classification Methods with Incremental Learning in the E-Mail Filtering Task
2008
Sigita Misiņa, Ludmila Aleksejeva

Rakstā aprakstīti, salīdzināti un analizēti induktīvās klasifikācijas algoritmi ar inkrementālu apmācību e pasta ziņojumu klasifikācijai. Šādi algoritmi ir efektīvi sfērās, kur tiek novērota zināšanu novecošanās, trokšņaini dati un klases apraksta nobīde. Kā arī šādi algoritmi ir piemēroti datu plūsmas apstrādei. Tika salīdzinātas šādas metodes: 1) interfeisa aģents MAGI lietots kopā ar induktīvās secināšanas algoritmu CN2; 2) daudzkārtainās inkrementālās secināšanas algoritms MLII; 3) pētījumu gaitā piedāvāts daudzkārtainās inkrementālās secināšanas algoritma hibrīds HMLII; 4) inkrementālās apmācības algoritms FLORA2 ar adaptīvu datu loga izmēra heiristiku. Praktiskajā e pasta ziņojumu klasifikācijas uzdevumā viszemāko klasifikācijas precizitāti uzrādīja interfeisa aģenta metode – iemesls tam varētu būt statiskā algoritma CN2 izmantošana. Vislabākos rezultātus deva hibrīdais algoritms HMLII – precizitāte no 79,31% līdz 92,59%. Algoritms FLORA2 ģenerēja vislielāko likumu skaitu, iekļaujot arī kandidātu likumus, kas klasificē abu klašu piemērus, klasifikācijas precizitāte FLORA2 gadījumā iegūta no 63% līdz 89,5%. Tika secināts, ka piemērotākais e pasta ziņojumu klasifikācijai ir algoritms HMLII, kurš praktiskajos eksperimentos uzrādīja vislabāko precizitāti un ģenerēja ne pārāk lielu skaitu likumu (salīdzinot ar FLORA2, kur apmācības rezultātā tika iegūts liels skaits likumu).


Atslēgas vārdi
inkrementālā apmācība, e-pasta klassifikācija, daudzkārtainā indukcija, dinamisks loga izmērs

Misiņa, S., Aleksejeva, L. A Comparative Analysis of Classification Methods with Incremental Learning in the E-Mail Filtering Task. Informācijas tehnoloģija un vadības zinātne. Nr.36, 2008, 116.-124.lpp. ISSN 1407-7493.

Publikācijas valoda
English (en)
RTU Zinātniskā bibliotēka.
E-pasts: uzzinas@rtu.lv; Tālr: +371 28399196