Data Mining on Multimedia Data

F i g . 9 . D a t a P r e p a r a t i o n O p e r a t i o n s 2 . 1 D a ta Cl e a n i n g M o s t d a t a m i n i n g t o o l s r e q u i r e t h e d a t a i n a f o r m a t s u c h a s s h o w n i n t a b l e 1 . I t i s a s i m p l e t a b l e s h e e t w h e r e t h e f i r s t l i n e d e s c r i b e s t h e a t t r i b u t e n a m e s a n d t h e c l a s s a t t r i b u t e a n d w h e r e t h e f o l l o w i n g l i n e s c o n t a i n t h e d a t a e n t r i e s d e s c r i b i n g t h e c a s e n u m b e r a n d t h e a t t r i b u t e v a l u e s f o r e a c h a t t r i b u t e o f a c a s e . I t i s i m p o r t a n t t o n o t e t h a t t h e i n p u t t e d d a t a s h o u l d f o l l o w t h e p r e d e f i n e d n a m e s a n d t y p e s f o r t h e a t t r i b u t e s . N o s u b j e c t i v e d e s c r i p t i o n o f t h e p e r s o n w h o c o l l e c t e d t h e d a t a s h o u l d b e i n s e r t e d i n t o t h e d a t a b a s e n o r s h o u l d o t h e r v o c a b u l a r y b e u s e d t h a n p r e d e f i n e d i n a d v a n c e . O t h e r w i s e , w e w o u l d h a v e t o r e m o v e t h e s e i n f o r m a t i o n i n a d a t a c l e a n i n g s t e p . S i n c e d a t a c l e a n i n g i s a t i m e c o n s u m i n g p r o c e s s a n d o f t e n d o u b l e w o r k i t i s b e t t e r t o s e t u p t h e i n i t i a l d a t a b a s e i n s u c h a w a y t h a t i t c a n i m m e d i a t e l y b e S t a n d a r d i z a t i o n S m o o t i n g O u t l i e r D e t e c t i o n N o i s y , U n c e r t a i n U n t r u s t w o r t h y D a t a H a n d l i n g M i s s i n g V a l u e H a n d l i n g T r a n s f o r m a t i o n C o d i n g A b s t r a c t i o n O p e r a t i o n s f o r D a t a P r e p a r a t i o n P . P e r n e r : D a t a M i n i n g o n M u l t i m e d i a D a t a , L N C S 2 5 5 8 , p p . 1 3 − 2 2 , 2 0 0 2 . © S p r i n g e r V e r l a g B e r l i n H e i d e l b e r g 2 0 0 2 1 4 2 D a t a P r e p a r a t i o n u s e d f o r d a t a m i n i n g . R e c e n t w o r k o n d a t a w a r e h o u s e s [ M a d 0 1 ] t a k e i n t o c o n s i d e r a t i o n t h i s a s p e c t . T a b l e 1 . C o m m o n D a t a T a b l e C a s e F _ 1 F _ 2 . . . F _ k C _ 1 V 1 1 V 1 2 . . . V 1 k C _ 2 V 2 1 V 2 2 . . . V 2 k C _ i V i 1 V i 2 . . . v i k 2 . 2 H a n d l i n g O u tl i e r I n a l m o s t a l l r e a l w o r l d d a t a , s o m e c a n b e f o u n d , w h i c h d i f f e r s o m u c h f r o m t h e o t h e r s a s t o i n d i c a t e s o m e a b n o r m a l s o u r c e o f e r r o r n o t c o n t e m p l a t e d i n t h e t h e o r e t i c a l d i s c u s s i o n s . T h e i n t r o d u c t i o n o f w h i c h i n t o t h e i n v e s t i g a t i o n s c a n o n l y s e r v e t o p e r p l e x a n d m i s l e a d t h e i n q u i r e r . U n i v a r i a t e o u t l i e r s a r e t o r e c o g n i z e b y u s i n g b o x p l o t s [ C a r 0 0 ] [ Z R C 9 8 ] . F i g u r e 1 0 s h o w s t h e b o x p l o t s f o r t h e f e a t u r e _ 1 o f t h e i r i s d a t a s e t [ F i s ] . E a c h b o x r e p r e s e n t s t h e r a n g e o f t h e f e a t u r e v a l u e s f o r o n e o f t h e t h r e e c l a s s e s . T h e m e d i a n f o r e a c h d a t a s a m p l e s i s i n d i c a t e d b y t h e b l a c k c e n t e r l i n e , a n d t h e f i r s t a n d t h i r d q u a r t i l e s a r e t h e e d g e s o f t h e r e d a r e a . T h e d i f f e r e n c e o f t h e f i r s t a n d t h i r d q u a r t i l e i s k n o w n a s t h e i n t e r q u a r t i l e r a n g e ( I R Q ) . T h e b l a c k l i n e s a b o v e a n d u n d e r t h e r e d b o x e s r e p r e s e n t t h e a r e a w i t h i n 1 . 5 t i m e s t h e i n t e r q u a r t i l e r a n g e . P o i n t s a t a g r e a t e r d i s t a n c e f r o m t h e m e d i a n t h a n 1 . 5 t i m e s t h e I R Q a r e p l o t t e d i n d i v i d u a l l y . T h e s e p o i n t s r e p r e s e n t p o t e n t i a l o u t l i e r s . T h e p r o b l e m g e t s m u c h h a r d e r i f m u l t i v a r i a t e o u t l i e r s h o u l d b e r e c o g n i z e d . S u c h k i n d o f o u t l i e r c a n b e d e t e c t e d b y c l u s t e r a n a l y s i s ( s e e C h a p t e r 3 f o r c l u s t e r a n a l y s i s ) . B a s e d o n a p r o p e r s i m i l a r i t y m e a s u r e t h e s i m i l a r i t y o f o n e s a m p l e t o a l l t h e o t h e r s a m p l e s i s c a l c u l a t e d a n d t h e n v i s u a l i z e d i n a d e n d r o g r a m b y t h e s i n g l e l i n k a g e m e t h o d . S i m i l a r s a m p l e s w i l l f o r m g r o u p s s h o w i n g c l o s e r e l a t i o n t o e a c h o t h e r w h i l e o u t l i e r s w i l l r e s u l t i n s i n g l e l i n k s s h o w i n g a c l e a r d i s t a n c e t o t h e o t h e r g r o u p i n g s . A d e e p e r i n s i g h t t o t h e h a n d l i n g o f m u l t i v a r i a t e o u t l i e r s c a n b e f o u n d i n [ B a T 8 4 ] [ A n d 8 4 ] . 2 . 3 H a n d l i n g N oi s y D a ta R e a l m e a s u r e m e n t s w i l l u s u a l l y b e a f f e c t e d ( c o r r u p t e d ) b y n o i s e . T h e r e a r e m a n y r e a s o n s f o r n o i s y d a t a . I t c a n b e c a u s e d b y t h e m e a s u r e m e n t d e v i c e , t h e e n v i r o n m e n t o r b y t h e p e r s o n w h o c o l l e c t e d t h e d a t a . T h e d a t a s h o w n i n F i g u r e 1 1 a r e d a t a f r o m t h e I V F t h e r a p y . I t s h o w s t h e h o r m o n e s t a t u s o f a w o m a n f r o m d a y t h r e e u n t i l d a y f o u r t e e n o f t h e w o m a n ’ s m e n s t r u a t i o n c y c l e . T a k i n g t h e r e a l m e a s u r e m e n t s f o r l e a r n i n g t h e m o d e l w i l l r e s u l t i n a p r e d i c t i o n s y s t e m w i t h l o w e r a c c u 2 . 3 H a n d l i n g N o i s y D a t a 1 5 r a c y t h a n t h a t l e a r n t f r o m t h e s m o o t h e d d a t a . B y c a l c u l a t i n g t h e s l i d i n g m e a n v a l u e a n d u s i n g t h e s e d a t a f o r l e a r n i n g w e c a n i m p r o v e t h e a c c u r a c y o f t h e l e a r n t m o d e l . F i g . 1 0 . B o x p l o t o f I r i s D a t a F e a t u r e _ 1 0 2 0 0 0 4 0 0 0 6 0 0 0 8 0 0 0 1 0 0 0 0 1 2 0 0 0 1 4 0 0 0 3 4 6 7 8 9 1 0 1 1 1 2 1 3 1 4 Z y k l u s 1