Παράκαμψη προς το κυρίως περιεχόμενο
Εικόνα
15:45 | 27/01/2015

 

Λάβαμε και δημοσιεύουμε από τον Νικόλαο Φ. Γεωργιτσόπουλο μια σύνοψη από την εργασία του για το Data Mining (εξόρυξη δεδομένων) σε σχέση με τις εφαρμογές που βρίσκει στην Αστυνομία και την αντιμετώπιση του εγκλήματος. Την εν λόγω εργασία εκπόνησε ο ίδιος στα πλαίσια του μαθήματος του προγράμματος σπουδών «Εξόρυξη γνώσης από λογιστικά δεδομένα», κατά τη διάρκεια της φοίτησης του στο Τμήμα Λογιστικής του ΑΤΕΙΘ.

Η εξόρυξη δεδομένων (Data Mining) έχει να κάνει με την εξόρυξη χρήσιμης και αξιοποιήσιμης γνώσης μέσα από ηλεκτρονικές βάσεις δεδομένων και βρίσκει εφαρμογή μεταξύ πολλών άλλων (Ιατρική, χρηματοοικονομικά κλπ) και σε θέματα που άπτονται της αστυνομικής πραγματικότητας όπως η αντιμετώπιση της τρομοκρατίας, του οργανωμένου εγκλήματος, το ξέπλυμα χρήματος και πολλά άλλα που έχουν σχέση με την αστυνομία και την αντιμετώπιση του εγκλήματος.

Εξόρυξη Δεδομένων: Μια επισκόπηση εφαρμογών στην Αστυνομία

Data Mining: An overview of applications at Police

 

Νικόλαος Φ. Γεωργιτσόπουλος

Αστυφύλακας υπηρετών στο Τμήμα Ασφαλείας Μενεμένης Θεσσαλονίκης

Απόφοιτος του Τμήματος Λογιστικής & Χρηματοοικονομικής του
Αλεξάνδρειου Τεχνολογικού Εκπαιδευτικού Ιδρύματος Θεσσαλονίκης

E-mail: [email protected]

 

Τα τελευταία χρόνια η ένταση και ο όγκος του εγκλήματος έχει αυξηθεί σημαντικά και μετατρέπεται σε ένα σημαντικό πρόβλημα για πολλές χώρες. Στο σημερινό κόσμο οι εγκληματίες χρησιμοποιούν στο μέγιστο δυνατό κάθε τεχνολογικό μέσο που έχουν στη διάθεση τους για τη διάπραξη εγκλημάτων (Brown, 1998). Η αστυνομία βρίσκεται καθημερινά αντιμέτωπη με την καταπολέμηση του εγκλήματος και τη διατήρηση της έννομης τάξης. Η δημιουργία και η διατήρηση βάσεων δεδομένων στις όποιες καταγράφονται τα διάφορα εγκλήματα και οι εγκληματίες είναι αναγκαία (Krishnamurthy και Kumar, 2002).

Η ανάπτυξη τεχνολογικών εργαλειών για την επεξεργασία δεδομένων που καταχωρούνται σε τέτοιες βάσεις δεδομένων αποτελεί μια πρόκληση. Η εξόρυξη δεδομένων (data mining) είναι μια διαδικασία εξαγωγής γνώσης από τεράστια δεδομένα αποθηκευμένα σε βάσεις και αποθήκες δεδομένων. Η εξόρυξη δεδομένων διαμορφώνει τα τελευταία χρόνια ένα πολύ σημαντικό ρόλο σε θέματα αντιμετώπισης της εγκληματικότητας και της τρομοκρατίας (Krishnamurthy και Kumar, 2002).

H Διεύθυνση Διαχείρισης και Ανάλυσης Πληροφοριών (Ν. 4249/2014)

Η εποχή που ζούμε χαρακτηρίζεται από πολλούς ως αυτή της πληροφορίας. Η αστυνομία και η αντιμετώπιση του εγκλήματος δε θα μπορούσε να μείνει αμέτοχη έξω από αυτό. Οι πληροφορίες και τα δεδομένα που συλλέγει η αστυνομία αποτελούν το πιο σημαντικό εργαλείο για την αντιμετώπιση του εγκλήματος. Άλλωστε η διενέργεια αστυνομικής προανάκρισης, όπως την ορίζει η ποινική δικονομία δεν είναι από μόνη της μια διαδικασία συλλογής στοιχειών και πληροφοριών που θα χρησιμεύσουν για την απόδειξη της αλήθειας; Εξ’ ορισμού λοιπόν, η αστυνομία συλλέγει και αξιολογεί δεδομένα και στοιχεία και άλλα στοιχεία (τεκμήρια, αποδείξεις, ενδείξεις κλπ) προκειμένου να φτάσει στην ανακάλυψη της πληροφορίας που αυτά παρέχουν (όπως τον δράστη του εγκλήματος κλπ).

Πρόσφατα και με αφορμή το νέο νόμο (Ν. 4249/2014-ΦΕΚ 73Α) για την αναδιάρθρωση της Ελληνικής Αστυνομίας συστάθηκε ένας ενιαίος φορέας συλλογής, διαχείρισης και επεξεργασίας πληροφοριών, μια αυτοτελής κεντρική Υπηρεσία, αυτή της «Διεύθυνσης Διαχείρισης και Ανάλυσης Πληροφοριών».

Συγκεκριμένα στο άρθρο 22 που φέρει το τίτλο «Διεύθυνση Διαχειρίσης και Ανάλυσης Πληροφοριών», του νόμου Ν. 4249/2014 αναφέρονται τα εξής: «Η Διεύθυνση Διαχείρισης και Ανάλυσης Πληροφοριών εδρεύει στην Αττική, υπάγεται απευθείας στον αρχηγό της Ελληνικής Αστυνομίας και έχει ως αποστολή τη συγκέντρωση, ιδίως μέσω των περιφερειακών Υπηρεσιών της Ελληνικής Αστυνομίας, την αξιολόγηση, ταξινόμηση ανάλυση και διάθεση επεξεργασμένων ή μη πληροφοριών προς το σκοπό της αντιμετώπισης κάθε μορφής εγκληματικότητας και ιδίως της τρομοκρατίας και του οργανωμένου εγκλήματος, καθώς και την τήρηση ενημέρωση και διασφάλιση των ειδικών βάσεων δεδομένων στις οποίες καταχωρείται και αποθηκεύεται πληροφοριακό υλικό, σύμφωνα με την ισχύουσα νομοθεσία.»

Όπως περιγράφεται στην αξιολογική έκθεση που δημοσιεύτηκε για το συγκεκριμένο νόμο «Ο τομέας της εξασφάλισης πληροφοριών - τόσο για την πρόληψη όσο και για την αντιμετώπιση της εγκληματικότητας - αναγνωρίζεται ως κρίσιμο μέγεθος για τη νέα Αστυνομία. Για τον λόγο αυτόν, άλλωστε, προβλέπεται η θέσπιση αυτόνομης Διεύθυνσης Πληροφοριών η οποία, μάλιστα, θα υπάγεται απευθείας στον αρχηγό της Αστυνομίας. Αποστολή της συγκεκριμένης διεύθυνσης θα είναι η συγκέντρωση, ιδίως μέσω των περιφερειακών υπηρεσιών, η αξιολόγηση, η ταξινόμηση, η ανάλυση και η διάθεση επεξεργασμένων ή μη πληροφοριών προς τον σκοπό της αντιμετώπισης κάθε μορφής εγκληματικότητας και ιδιαίτερα της τρομοκρατίας και του οργανωμένου εγκλήματος.»

Στο τύπο, τη περίοδο δημοσίευσης του νομοσχεδίου του συγκεκριμένου νόμου, είδαμε να γράφεται για τη συγκεκριμένη υπηρεσία, μεταξύ πολλών εφημερίδων, και το εξής: «Μάλιστα η συγκεκριμένη υπηρεσία θα τηρεί και θα ενημερώνει ειδικές βάσεις δεδομένων. Τέτοιες βάσεις δεδομένων λειτουργούν σε υπηρεσίες όπως το FBI ή η Σκότλαντ Γιάρντ», (Ηρειώτου και Νεσφυγέ, 2013).

Η έννοια της πληροφορίας

Για να γίνει όμως πιο συγκεκριμένη η χρήση του όρου «πληροφορία» στο παρόν πόνημα δε θα γίνει εμβάθυνση στη σημαντική συμβολή της πληροφορίας που παρέχει ο άνθρωπος στην αστυνομία για τη πάταξη της εγκληματικότητας. Τρανταχτό τέτοιο παράδειγμα είναι το απλό τηλεφώνημα στην Άμεση Δράση για κάποιο έγκλημα. Ακόμα, η προφορική ειδοποίηση κάποιου πολίτη στο περιπολικό της γειτονίας αποτελούν επίσης τέτοιου είδους πληροφορία. Τέτοιες «ωμές», πρώτες πληροφορίες (rawinformation) δεν υποτιμούνται και δεν υποβαθμίζονται σε καμία περίπτωση. Χωρίς αυτές η αστυνομία θα ήταν ανίκανη να επιλύσει πλήθος θεμάτων που κάθε μέρα ανακύπτουν, και όχι μόνο εγκλημάτων, εάν δεν είχε πληροφόρηση από το απλό κοινό. Είναι ευρέως γνωστό ότι αυτές οι πληροφορίες τροφοδοτούν σημαντικό μέρος της καθημερινής αστυνομικής πραγματικότητας (Ξανθάκος, 2007).

Ή ακόμα, οι πληροφορίες παρόμοιου τύπου που προέρχονται από κακοποιούς χρήζουν ιδιαίτερης προσοχής, διότι είτε μπορεί να είναι σημαντικές είτε κακόβουλες και αναξιόπιστες. Η συλλογή πληροφοριών γύρω από ένα έγκλημα μπορεί να γίνει από διαφορές πηγές και μάλιστα πολλές φορές απίθανες. Όλες θα πρέπει να είναι ευπρόσδεκτες, ωστόσο η συνεκτίμηση και η ανάλυση τους θα κάνει την αστυνομία να φαίνεται επιτυχημένη ή όχι (Ξανθάκος, 2007).

Ένα από τα κυρία χαρακτηριστικά της σύγχρονης εποχής είναι η μαζική καταγραφή και αποθήκευση δεδομένων ή πληροφοριών. Τεράστιες ποσότητες δεδομένων καταγράφονται καθημερινά και αποθηκεύονται σε αποθηκευτικά μέσα, τα οποία γίνονται συνεχώς φθηνότερα σε κόστος. Το ίδιο το πληροφοριακό σύστημα (PoliceOnLine) της Ελληνικής Αστυνομίας είναι μία τέτοια τεράστια βάση δεδομένων. Το μέγεθός των δεδομένων  μιας τέτοιας βάσης γίνεται αντιληπτό, αν σκεφτείτε πόσες έγγραφες και καταχωρίσεις πραγματοποιούνται καθημερινά σε αυτή από αστυνομικούς διαφόρων υπηρεσιών του Σώματος. Κείμενα, στατιστικά στοιχεία, φωτογραφίες, ήχος και πολλά άλλα είναι μερικά από τα δεδομένα που δημιουργούνται και αποθηκεύονται καθημερινά.

Ωστόσο η μαζική συσσώρευση δεδομένων από μόνη της συνιστά μια δυνατότητα, όχι όμως και μια ικανότητα. Οι ικανότητες του ανθρώπινου εγκεφάλου είναι ανεπαρκείς να διαχειριστούν αυτόν τον τεράστιο όγκο δεδομένων (Κύρκος, 2012). Για το λόγο αυτό απαιτούνται ειδικά εξελιγμένα εργαλεία που θα μετατρέπουν τα μη επεξεργασμένα δεδομένα ή τις μη επεξεργασμένες «ωμές» πληροφορίες σε χρήσιμη, επεξεργασμένη, πληροφορία.

Εξόρυξη δεδομένων

Για να προχωρήσουμε, ας φέρουμε ένα απλό παράδειγμα. Ας αναλογιστούμε τη θέση της αστυνομίας με αυτή ενός επιδόξου επιχειρηματία που μόλις ξόδεψε μια περιουσία για να αγοράσει μια έκταση πλαγίας σε ένα βουνό. Ας παρομοιάσουμε τη τεράστια και αχανή αυτή πλαγιά με τη βάση δεδομένων ή τις διάφορες βάσεις δεδομένων που είναι στη διάθεση της αστυνομίας. Εκτός από την προφανή αξία της έκτασης γης που θα έχει αυτή, συνεχίζοντας στο παράδειγμα, κάπου στο έγκατα αυτής της περιοχής έχουν πληροφορήσει τον επίδοξο επιχειρηματία ότι υπάρχουν κοιτάσματα πολύτιμων ορυκτών. Παρέλειψαν όμως να πληροφορήσουν τον τελευταίο, που ακριβώς είναι αυτά ή πως θα εξάγει τα πολύτιμα αυτά κοιτάσματα ορυκτών για να παράγει κέρδος στη πράξη.

Στην ίδια περίπου θέση του επιχειρηματία βρίσκεται και η Ελληνική Αστυνομία όταν επενδύει και αναπτύσσει μια ή πολλές βάσεις δεδομένων, οι οποίες αποθηκεύουν όλο το δυνατό για την λειτουργία της όγκο δεδομένων. Εύκολα θα μπορούσαμε να συμπεραίνουμε πως είναι προφανώς χρήσιμο η Ελληνική Αστυνομία να διαθέτει και να διατηρεί αυτά τα δεδομένα, όμως αυτό που δεν κατέχει είναι το πώς από τον αχανή αυτό όγκο δεδομένων μπορεί, αρχικά, να προκύψει χρήσιμη γνώση, και στη συνέχεια με πιο τρόπο αυτή τη γνώση μπορεί να οδηγήσει σε σημαντικά οφέλη για την εκπλήρωση του σκοπού της και την αντιμετώπιση του εγκλήματος.

Η διαθεσιμότητα μεγάλων ποσοτήτων δεδομένων και η ανάγκη να ανακτηθεί από αυτά χρήσιμη πληροφορία αποτέλεσαν τις βασικές αιτίες για τη δημιουργία του κλάδου της Πληροφορικής που ονομάζεται Εξόρυξη Δεδομένων (data mining).

Επανερχόμενοι στο παράδειγμα με τη πλαγιά του βουνού που αναφέρθηκε παραπάνω, η εξόρυξη δεδομένων (data mining) βοηθά στην ανακάλυψη της χρήσιμης γνώσης. Δημιουργεί τα απαραίτητα «ορυχεία» και προσφέρει τα κατάλληλα εργαλεία που έχουν ως στόχο να εξάγουν τα πολύτιμα ορυκτά (χρήσιμες πληροφορίες) από τη πλαγιά του βουνού (βάση δεδομένων) και να τα παραδώσουν σε καθαρή μορφή στον ιδιοκτήτη τους (την αστυνομία). Τα ορυκτά αυτά μπορεί να είναι χρυσός κι ασήμι (χρήσιμες πληροφορίες), αλλά μπορεί να είναι και άνθρακας (ήδη γνωστές πληροφορίες). Σε οποιαδήποτε περίπτωση όμως, αν τα εκμεταλλευτεί κανείς έξυπνα και σωστά, μπορεί να αποκομίσει σημαντικά «κέρδη».

Η εξόρυξη δεδομένων είναι ένας συλλογικός όρος που περιλαμβάνει ένα σύνολο μεθοδολογιών με στόχο την ανακάλυψη έγκυρης, συνθέτης, όχι προφανούς και εν δυνάμει χρήσιμης γνώσης που είναι κρυμμένη σε μεγάλους όγκους δεδομένων (Frawley κ.ά., 1992; Hand κ.ά., 2001; Monk κ.ά., 2006). Ο όρος «εξόρυξη δεδομένων» μπορεί να είναι λίγο παραπλανητικός, γιατί αυτό που τελικά εξορύσσεται δεν είναι τα δεδομένα, αλλά η γνώση που βρίσκεται κρυμμένη στα δεδομένα (Κύρκος, 2012).

Η γνώση που παράγεται από τεχνικές εξόρυξης δεδομένων αποτελεί, σε αντίθεση με την ακατέργαστη και ωμή πληροφορία (rawinformation) που αναλύθηκε σε προηγούμενη παράγραφο, επεξεργασμένη, αξιοποιήσιμη πληροφορία (intelligence).

Ένας πιο δόκιμος όρος θα ήταν «Εξόρυξη γνώσης από βάσεις δεδομένων». Επίσης ένας άλλος ισοδύναμος όρος που χρησιμοποιείται είναι η «Ανακάλυψη γνώσης σε βάσεις δεδομένων» (KnowledgeDiscoveryinDatabases-KDD), (Frawley κ.ά., 1992; Hand κ.ά., 2001; Monk κ.ά., 2006). Η Εξόρυξη Δεδομένων ενσωματώνει έννοιες, τεχνικές, και μεθόδους από τη στατιστική, τη τεχνητή νοημοσύνη, τις βάσεις δεδομένων και την αναγνώριση προτύπων (Κύρκος, 2012).

Αντικείμενο της εξόρυξης δεδομένων είναι η ανακάλυψη γνώσης μέσα από τα δεδομένα. Η γνώση αυτή οφείλεται να προσδιορίζεται επακριβώς, και όχι με φιλοσοφικές προσεγγίσεις. Αυτό που τελικά εντοπίζουν και εξάγουν οι μεθοδολογίες της εξόρυξης δεδομένων είναι κανονικότητες, πρότυπα και σχέσεις δεδομένων που περιγράφουν ή διαφοροποιούν κατηγορίες ή περιπτώσεις και που μπορούν πιθανώς να χρησιμεύσουν για τη διατύπωση προβλέψεων (Κύρκος, 2012).

Τεχνικές Εξόρυξης Δεδομένων

Hεξόρυξη δεδομένων χρησιμοποιεί διάφορες τεχνικές προκειμένου να επεξεργαστεί τα δεδομένα που είναι διαθέσιμα. Κάθε μια από τις παρακάτω τεχνικές βρίσκει εφαρμογή σε ένα ή περισσότερα πεδία, όπως θα φανεί στη συνέχεια. Μια κατηγοριοποίηση των τεχνικών εξόρυξης δεδομένων ανάλογα με το είδος της γνώσης που εξάγεται μπορεί να είναι η ακόλουθη (Κύρκος, 2012):

Εξόρυξη Οντοτήτων (entity extraction) όπου προσδιορίζει συγκεκριμένα μοτίβα από δεδομένα, όπως κείμενο, εικόνες, ή ακουστικό υλικό. Έχει χρησιμοποιηθεί για την αυτόματη αναγνώριση προσώπων, διευθύνσεων, οχημάτων και προσωπικών χαρακτηριστικών από αστυνομικές εκθέσεις και αναφορές (Chau κ.ά., 2002).

Χαρακτηρισμός και Διάκριση (characterizationanddiscrimination) όπου περιγράφονται τα χαρακτηριστικά μια ομάδας δεδομένων ή συγκρίνονται μεταξύ τους διαφορές ομάδες δεδομένων.

Ανακάλυψη και Ανάλυση Σχέσεων και Προτύπων (associationrulesandpatterns) όπου συνδυασμοί διαφόρων δεδομένων φαίνονται να συσχετίζονται μεταξύ τους και να δημιουργούν κανόνες και πρότυπα που ισχύουν γενικά και μπορούν να χρησιμοποιηθούν στο πραγματικό κόσμο.

Η Κατηγοριοποίηση (classification) είναι μια διαδικασία χαρτογράφησης της κλάσης στην οποία ανήκει κάθε παρατήρηση και αφορά τη δημιουργία μοντέλων που περιγράφουν και διαφοροποιούν τις κατηγορίες των δεδομένων που είναι εκ των προτέρων γνωστές. Για το λόγο ονομάζεται και επιβλεπόμενη μάθηση (Κύρκος, 2012). Μια τέτοια τεχνική χρησιμοποιείται για την ανίχνευση των αποστολέων ανεπιθύμητων μηνυμάτων (spame-mail) ηλεκτρονικού ταχυδρομείου (Chenκ.ά., 2004).

Η Πρόβλεψη (prediction) αφορά την επεξεργασία παλαιών και παρόντων δεδομένων με σκοπό τη δημιουργία μοντέλων για τον υπολογισμό μιας αριθμητικής τιμής, όπως για παράδειγμα το ποσοστό εγκλημάτων κλοπών σε μια περιοχή.

Η Ανάλυση Ομάδων (clusteranalysis) αφορά την ανακάλυψη ομάδων στις οποίες εντάσσονται τα διαφορά δεδομένα η οποία στοχεύει στη δημιουργία κατηγοριών για τα αυτά. Σε αντιδιαστολή με τη κατηγοριοποίηση, εδώ οι κατηγορίες των δεδομένων δεν είναι εκ των πρότερων γνωστές γι΄ αυτό και ονομάζεται μη επιβλεπόμενη μάθηση (Κύρκος, 2012). Η τεχνική αυτή χρησιμοποιείται, για παράδειγμα, για να συνδέσει αυτόματα διάφορα αντικείμενα και υποκείμενα, όπως άτομα, οργανώσεις, οχήματα, τοποθεσίες κ.λπ. σε βάσεις δεδομένων εγκλημάτων (Krishnamurthy και Kumar, 2002).

Ο Εντοπισμός Αποκλίνουσων τιμών (outliersanalysis) αφορά των εντοπισμό δεδομένων που αποκλίνουν από το κανονικό. Τέτοιες τεχνικές χρησιμοποιούνται για τον εντοπισμό περιπτώσεων διαφόρων μορφών απάτης ή ξεπλύματος βρώμικου χρήματος (Senator, 1995).

H Ανάλυσης Εξέλιξης (evolutionanalysis) περιγράφει και μοντελοποιεί κανονικότητες και τάσεις αντικειμένων που αλλάζουν συμπεριφορά σε σχέση με τον χρόνο. Μια τέτοια τεχνική για παράδειγμα χρησιμοποιείται για την εύρεση τον ποσοστών της εγκληματικότητας σε κάθε περιοχή από μία περίοδο σε μια άλλη.

sxima1

Σχήμα 1: Προσδιορισμός των σχέσεων μεταξύ των τεχνικών εξόρυξης δεδομένων που εφαρμόζονται σε διάφορων τύπων εγκλήματα (Πηγή: Chau κ.ά., 2002).

Μια ακόμα κατηγοριοποίηση (Κύρκος, 2012) των τεχνικών εξόρυξης δεδομένων γίνεται ανάλογα με το τύπο και τα διάφορα είδη των δεδομένων. Εξόρυξη γνώσης μπορεί να γίνει σε σχεσιακές βάσεις δεδομένων (relationaldatabases), βάσεις δεδομένων κειμένου (textdatabases), βάσεις δεδομένων πολυμέσων (multimediadatabases), ακόμα και στο Παγκόσμιο Ιστό (worldwideweb-www).

Μια ακόμα κατηγοριοποίηση (Κύρκος, 2012) των τεχνικών εξόρυξης δεδομένων θα μπορούσε να γίνει ανάλογα με τα εργαλεία που χρησιμοποιούνται για την εξόρυξη γνώσης, όπως τα Δένδρα αποφάσεων (decisiontrees), Νευρωνικά δίκτυα (neuralnetworks), Γενετικοί αλγόριθμοι (geneticalgorithms), Μπαϋεσιανά δίκτυα (Bayesiannetworks), Κατηγοριοποιητές βασισμένοι σε παράδειγμα (InstanceBasedClassifiers), Παλινδρόμηση (Regression), Μηχανές εδραίων διανυσμάτων (SupportVectorMachines) και άλλες μέθοδοι.

Η εξόρυξη δεδομένων (datamining) είναι στην πραγματικότητα μια σχετικά ευρεία έννοια: είναι μια διαδικασία που χρησιμοποιεί αλγόριθμους και μοντέλα για την ανακάλυψη προτύπων σε σύνολα δεδομένων. Η «αυτοματοποιημένη ανάλυση δεδομένων» (automated data-analysis) εφαρμόζει αυτά τα μοντέλα σε δεδομένα για τη πρόβλεψη συμπεριφοράς, την εκτίμηση του κινδύνου, τον προσδιορισμό συνδετικών κρίκων, ή για τη πραγματοποίηση άλλων μορφών αναλύσεων κλπ. Ο όρος «εξόρυξη δεδομένων» (datamining) χρησιμοποιείται συχνά επιπόλαια και αναφέρεται στην πραγματικότητα τόσο στην εξόρυξη δεδομένων όσο και στην εφαρμογή αυτοματοποιημένων εργαλείων ανάλυσης αυτών των δεδομένων (DeRosa, 2004).

Τα μοντέλα που χρησιμοποιούνται για την αυτοματοποιημένη ανάλυση των δεδομένων, αν και κάνουν χρήση όλων των παραπάνω τεχνικών που αναφέρθηκαν (classification, predictionκλπ), μπορεί σε γενικές γραμμές να είναι δυο. Πρώτον, είναι αυτά που είναι βασισμένα σε αναγνώριση πρότυπων (pattern-based) (από την εξόρυξη δεδομένων ή που ανακαλύφθηκαν από άλλες μεθόδους), και δεύτερον, αυτά που είναι βασισμένα σε υποκείμενα (subject-based), τα οποία δημιουργούν συνδετικούς κρίκους με ήδη γνωστά υποκείμενα (DeRosa, 2004). Περαιτέρω γι’ αυτά και πιο εξειδικευμένα θα γίνει αναφορά παρακάτω, στις διάφορες περιπτώσεις εφαρμογής τους.

Ωστόσο ανησυχίες σχετικά με την εξόρυξη δεδομένων υπάρχουν πάντα ή διακυβεύονται. Υπάρχει μια σειρά από κοινές παρανοήσεις σχετικά με αυτές τις τεχνικές. Η εξόρυξη δεδομένων εγείρει πολλές ανησυχίες για τη προστασία της ιδιωτικής ζωής (Kargupta κ.ά., 2003). Για παράδειγμα, η εξόρυξη δεδομένων και η ανάλυση τους δεν αυξάνουν την πρόσβαση σε προσωπικά δεδομένα. Η εξόρυξη δεδομένων και η ανάλυση τους, σίγουρα μπορεί να κάνει τα ιδιωτικά δεδομένα που συλλέγονται πιο χρήσιμα, αλλά μπορεί να λειτουργήσει μόνο σε δεδομένα που είναι ήδη προσιτά και διαθέσιμα (DeRosa, 2004).

Ένας άλλος μύθος είναι ότι η εξόρυξη δεδομένων και η ανάλυση των δεδομένων απαιτεί μάζες δεδομένων σε μία μεγάλη βάση δεδομένων. Στην πραγματικότητα, η εξόρυξη δεδομένων και η ανάλυση τους μπορεί να διεξαχθεί χρησιμοποιώντας μία σειρά από βάσεις δεδομένων διαφόρων μεγεθών (DeRosa, 2004).

Εφαρμογές Εξόρυξης Δεδομένων

Εφόσον οι δραστηριότητες της σημερινής κοινωνίας προκαλούν τη μαζική καταγραφή και αποθήκευση δεδομένων που αναφέρονται σε πλήθος διαφορετικών θεμάτων, η εξόρυξη δεδομένων (datamining) βρίσκει αντίστοιχο πλήθος πεδίων εφαρμογής τόσο στον ιδιωτικό όσο και στο δημόσιο τομέα.

Στον ιδιωτικό τομέα, ως ενδεικτικά πεδία εφαρμογής, μπορούν να αναφερθούν: η ιατρική, και ειδικότερα η διάγνωση, η βιολογία και η ανάλυση δεδομένων DNA, οι τηλεπικοινωνίες, η ενέργεια και η πρόβλεψη αναγκών για ηλεκτρικά φορτία, η λιανικές πωλήσεις και η διαχείριση της σχέσης με τον πελάτη, τα χρηματοοικονομικά, οι τράπεζες και η ελεγκτική, ο αθλητισμός και πολλά άλλα (Κύρκος, 2012). Οι ιδιωτικές εταιρείες συλλέγοντας στοιχεία για τους πελάτες τους μπορούν να είναι σε θέση να γνωρίζουν με βάση ορισμένα χαρακτηριστικά εάν ένας πελάτης μιας τράπεζας «αξίζει» να του χορηγηθεί ένα δάνειο σύμφωνα με τη πιστοληπτική του ικανότητα ή εάν ένα «ατύχημα» που δηλώθηκε σε μια ασφαλιστική εταιρεία στοχεύει στην εξαπάτησή της.

Ένα παράδειγμα  χρήσης μοντέλων βασισμένα στο υποκείμενο (subject-based) σε συνδυασμό με την ανάλυση συνδετικών κρίκων (linksanalysis), τα οποία χρησιμοποιούνται στον ιδιωτικό τομέα, είναι το λογισμικό NORA™ (Non Obvious Relationship Awareness), το οποίο χρησιμοποιείται για την πρόληψη της απάτης (fraud), της εξαπάτησης (cheating) και της κλοπής (theft) από τα καζίνο στο Λας Βέγκας των Η.Π.Α. (Jonas, 2003).

Το συγκεκριμένο παράδειγμα αξίζει να αναφερθεί γιατί προσομοιάζει το τρόπο λειτουργίας παρόμοιων συστημάτων εξόρυξης δεδομένων που έχουν άμεση σχέση με θέματα αντιμετώπισης της τρομοκρατίας, όπως θα γίνει αναφορά στη συνέχεια σε παρακάτω παραγράφους.

Η βιομηχανία παιχνιδιών των Η.Π.Α. έχει αναπτύξει μια λίστα παρακολούθησης «αποκλεισμένων ατόμων» τα ονόματα των οποίων απαγορεύεται να εισέλθουν σε καζίνο. Το λογισμικό NORA™ είναι ικανό να αναζητήσει μέσα από μαζικές βάσεις δεδομένων για να βρει αν υπάρχει σχέση μεταξύ, για παράδειγμα, ενός ατόμου που αναζητά μια θέση εργασίας σε ένα καζίνο, και ενός προσώπου που βρίσκεται στη λίστα αποκλεισμού (Jonas, 2003). Ίσως ο ένοικος ενός υπνοδωματίου σε ένα καζίνο μία φορά να πούλησε ένα σπίτι, ή να χρησιμοποίεισαι ως σύσταση για την απασχόληση του κάπου, ένα πρόσωπο που είναι στη λίστα αποκλεισμού. Πρόκειται για πληροφορίες που το καζίνο μπορεί να χρησιμοποιήσει για να εστιάσει τους πόρους του στη δική του έρευνα για τη πρόληψη εξαπάτησης και κλοπής σε βάρος του (Jonas, 2003).

Από την άλλη πλευρά, στο δημόσιο τομέα, η εξόρυξη δεδομένων (datamining) χρησιμοποιείται για την πρόληψη απάτης και εξαπάτησης. Το ξέπλυμα χρήματος και η φοροδιαφυγή μπορούν να καταπολεμηθούν με τα σωστά εργαλεία εξόρυξης δεδομένων. Οι διωκτικές αρχές και η αστυνομία όπως προαναφέρθηκε, συλλέγουν και αναλύουν πληροφορίες για να ερευνήσουν εγκληματικές και όχι μόνο δραστηριότητες. Μια μεγάλη πρόκληση είναι η ανάλυση μεγάλων όγκων δεδομένων που αφορούν εγκληματικές και τρομοκρατικές δραστηριότητες. Η εφαρμογή τεχνικών εξόρυξης δεδομένων από τέτοια δεδομένα κάνει την ανάλυση μεγάλων βάσεων δεδομένων μια διαδικασία απλή, εύκολη, γρήγορη και πρακτική.

Η εξόρυξη γνώσης που σχετίζεται με εγκλήματα αλλά και την αστυνομία στη διεθνή βιβλιογραφία είναι γνωστή κυρίως με τον όρο «crimedatamining» ή «policedatamining», (DeRosa, 2004; Chen κ.ά., 2003; Elovici κ.ά., 2004; Chauκ.ά., 2002). Στη συνέχεια γίνεται μια αναφορά στα διάφορα πεδία εφαρμογής συναφή με το έργο και το αντικείμενο απασχόλησης της αστυνομίας.

Τρομοκρατία

Μετά την επίθεση της 11ης Σεπτεμβρίου 2001 στο παγκόσμιο κέντρο εμπορίου, η κυβέρνηση των Η.Π.Α. εξαπέλυσε πόλεμο κατά της τρομοκρατίας. Οι προσπάθειες εστιάστηκαν στο πώς θα βρεθούν τα δίκτυα εκείνα που συνδέουν τις διάφορες τρομοκρατικές οργανώσεις μεταξύ τους και στον τρόπο που χρηματοδοτούνται από τα ήδη υπάρχοντα δεδομένα που ήταν στη διάθεση της. Η εξόρυξη δεδομένων (datamining) αποτέλεσε το νούμερο ένα εργαλείο για αυτό το σκοπό όπως αποκαλύπτεται μέσα από τη σχετική βιβλιογραφία.

Τα μοντέλα εξόρυξης δεδομένων που είναι βασισμένα σε υποκείμενα (subject-based) βρίσκουν ευρεία εφαρμογή σε θέματα αντιμετώπισης της τρομοκρατίας, καθώς ξεκινούν με ένα συγκεκριμένο και γνωστό θέμα (πρόσωπο, τοποθεσία, κλήση κλπ) και την αναζήτηση περισσότερών πληροφοριών που συνδέονται με αυτό. Το υποκείμενο θα μπορούσε να είναι μια ταυτότητα (για παράδειγμα ένας ύποπτος, ένας επιβάτης αεροπορικής εταιρείας ή ένα όνομα σε μια λίστα παρακολουθήσης) ή θα μπορούσε να είναι κάτι άλλο συγκεκριμένο (όπως μια τοποθεσία ή ένας αριθμός τηλεφώνου). Ένα τέτοιο μοντέλο που βασίζεται στο υποκείμενο, θα αναζητήσει περισσότερες πληροφορίες σχετικά και μια πιο πλήρη κατανόηση του υπο έρευνα υποκειμένου, όπως οι δραστηριότητες που ένα άτομο έχει εμπλακεί ή συνδέσεις με άλλους ανθρώπους, τόπους και πράγματα. Παρέχει, επίσης, συνδέτικούς κρίκους (links) και σε άλλα υποκείμενα που θα μπορούσαν να διερευνηθούν (DeRosa, 2004).

Η ανάλυση συνδετικών κρίκων (linkanalysis) είναι ένας τύπος μοντέλου εξόρυξης γνώσης που βασίζεται στο υποκείμενο (subject-based) που είναι ήδη σε χρήση. Η ανάλυση συνδετικών κρίκων (linkanalysis) διαπερνά βάσεις δεδομένων για να βρει συνδέσεις (links) ανάμεσα σε ένα υποκείμενο (όπως για παράδειγμα έναν ύποπτο, μια διεύθυνση ή κάποιο κομμάτι πληροφορίας) και άλλους ανθρώπους, διευθύνσεις ή πράγματα. Αυτό μπορεί να παρέχει και άλλα στοιχεία προκειμένου να ακολουθήσουν οι αναλυτές ή οι ερευνητές. Η ανάλυση συνδετικών κρίκων που έγινε μετά την 11η Σεπτεμβρίου 2001 αποκάλυψε και τα 19 ονόματα των τρομοκρατών που επέβαιναν στα μοιραία αεροπλάνα (DeRosa, 2004).

 

sxima2

Σχήμα 2: Το τρομοκρατικό δίκτυο που περιέχει τους 19 αεροπειρατές της 11ης Σεπτεμβρίου 2001 (Πηγή: Chen & Xu, 2005).

Ωστόσο το κομμάτι της εξόρυξης γνώσης που είναι βασισμένο σε υποκείμενα (sublect-based) είναι μόνο το ένα μέρος του νομίσματος. Από την άλλη πλευρά βρίσκεται η αναγνώριση προτύπων (pattern-based). Τα μοντέλα εξόρυξης γνώσης που είναι βασισμένα σε υποκείμενα στοχεύουν στον εντοπισμό τρομοκρατών. Από την άλλη πλευρά τα μοντέλα αναγνώρισης προτύπων στοχεύουν στον εντοπισμό αδρανών ή «εν υπνώσει» θυλάκων τρομοκρατίας (sleeper cells), (Krebs, 2002). Αυτά τα μοντέλα εξόρυξης γνώσης είναι δυνατό να παρέχουν στοιχεία για κάποιον άγνωστο τρομοκράτη που δεν έχει ασχοληθεί με παρόμοια δραστηριότητα ξανά και τη δυνατότητα διασύνδεσης με ήδη γνωστή τρομοκρατική δραστηριότητα ή τρομοκράτη (DeRosa, 2004).

Τα μοντέλα εξόρυξης γνώσης που είναι βασισμένα σε αναγνώριση προτύπων (patternbased) μπορούν να χρησιμεύσουν για τη «πρόγνωση» τρομοκρατικών ενεργειών. Για παράδειγμα ένας «εν υπνώσει» (sleeper) τρομοκρατής σε μια χώρα ο οποίος αγοράζει μέσω μιας πιστωτικής κάρτας ένα βιβλίο σχετικό με εκρηκτικές ύλες και 50 κιλά λίπασμα σε σάκους του ενός κιλού από διαφορετικά καταστήματα (DeRosa, 2004). Ή υπάρχει η ανησυχία, για παράδειγμα, ότι οι τρομοκράτες ενδέχεται να χρησιμοποιούν μεγάλα φορτηγά για τρομοκρατικά χτυπήματα (Farzad, 2003). Σε αυτή τη περίπτωση η εξόρυξη δεδομένων θα είναι σε θέση να συνδυάσει ανθρώπους που έχουν νοικιάσει μεγάλα φορτηγά, με κρατήσεις σε ξενοδοχεία και μέσα από ορισμένους παράγοντες όπως η ηλικία, το φύλλο και άλλους, να καταλήξει εάν υπάρχει κάποιο τρομοκρατικό μοτίβο ή σχέδιο (Farzad, 2003). Η εξόρυξη δεδομένων επίσης με τη χρήση βάσεων δεδομένων νοσοκομείων και φαρμακευτικών αγορών μπορεί να προειδοποιήσει έγκαιρα για ένα τρομοκρατικό χτύπημα βιολογικού πολέμου (Perez-Pena, 2003).

Η εξόρυξη δεδομένων, αναμφίβολα, έχει αποδειχθεί ως το νούμερο ένα εργαλείο για την προστασία της δημόσιας ασφάλειας. Για τις διωκτικές αρχές και τις υπηρεσίες πληροφοριών πολλών δυτικών χωρών η αντιμετώπιση της διεθνούς τρομοκρατίας θεωρείται μείζον ζήτημα και η εξόρυξη δεδομένων συμβάλει στην ανακάλυψη τρομοκρατικών δραστηριοτήτων μέσα από μεταφορές χρημάτων και επικοινωνίες, καθώς και στην αναγνώριση και τον εντοπισμό τρομοκρατών μέσα από αρχεία ταξιδιωτικών εταιρειών κλπ.

Οργανωμένο έγκλημα

Οι διασυνδέσεις των διαφόρων μερών μιας εγκληματικής οργάνωσης είναι συχνά σύνθετες, δαιδαλώδεις και καλά κρυμμένες. Δύσκολα μπορεί να τις προσεγγίσει ο αστυνομικός ερευνητής, γι’ αυτό και δεν είναι εύκολο να αποκαλυφθεί οτι πρόκειται για κάποιο εγκληματικό κύκλωμα. Γι’ αυτό και πολλές δραστηριότητες γίνονται τις περισσότερες φορές, με τέτοιο τρόπο έτσι ώστε να φαίνονται για κάποια μεμονωμένη πράξη, αποκλείοντας από τον άπειρο παρατηρητή τη «συνολική εικόνα» τρόπου δράσης.

Σε αντίθεση με άλλα εγκλήματα, όπως για παράδειγμα μια ανθρωποκτονία ή μια κλοπή που τελούνται από έναν, μέχρι λίγους δράστες, οι εγκληματικές οργανώσεις δρούν με περισσότερα του ενός, συνεργαζόμενα μεταξύ τους, μέλη. Τα μέλη μιας εγκληματικής οργάνωσης είναι δυνατό να σχηματίζουν υποομάδες και σχηματισμούς πυρήνων επιτελλόντας διαφορετικούς ρόλους και σκοπούς στο πλαίσιο δράσης της εγκληματικής οργάνωσης (Chen & Xu, 2005). Σε μια εγκληματική οργάνωση διακίνησης ναρκωτικών, για παράδειγμα, διαφορετικές ομάδες ατόμων μπορεί να είναι υπεύθυνες για την προμήθεια των ναρκωτικών, την διανομή, την πώληση, τη συλλογή των χρημάτων και τέλος το ξέπλυμα τους (Chen & Xu, 2005). Σε κάθε μία από τις ομάδες αυτές που αναλαμβάνει ένα συγκεκριμένο σκοπό (προμήθεια, διανομή κλπ), πιθανότατα υπάρχει ένας αρχηγός, ο οποίος παρέχει εντολές στα υπόλοιπα μέλη της υποομάδας και στήνει μηχανισμούς μεταξύ των μελών άλλων υποομάδων του εγκληματικού δικτύου, έτσι ώστε να διασφαλίζεται η ροή των πληροφοριών, των ναρκωτικών και του χρήματος ανάμεσα σ’ αυτές (Chen & Xu, 2005).

Οι τεχνικές εξόρυξης δεδομένων στοχεύουν σε αυτό ακριβώς το γεγονός. Κάνουν τις συνδέσεις με πρόσωπα και καταστάσεις που θα ήταν πολύ δύσκολο να κάνει ο αστυνομικός ερευνητής και βοηθούν στην αποκάλυψη της δράσης τους.

Βασισμένοι σε αστυνομικά δεδομένα του αστυνομικού τμήματος του Tucson που βρίσκεται στην Αριζόνα των Η.Π.Α., οι Chen κ.α. (2003) κατάφεραν, μέσω του συνδυασμού εξόρυξης δεδομένων (data mining) και ανάλυσης εγκληματικών δικτύων (criminal network analysis), να εντοπίσουν δύο εγκληματικές οργανώσεις, όπως φαίνεται στο παρακάτω σχήμα.

sxima3

Σχήμα 3: Τα δυο εγκληματικά δίκτυα (Πηγή: Chenκ.ά., 2003)

Ανάλυση του 3ου Σχήματος: (A) Το πρώτο εγκληματικό δίκτυο αποτελούταν από 60 εγκληματίες που ασχολούνταν με ναρκωτικά.  (B) Μια αλυσίδα (κόκκινη γραμμή) που ενώνει τα μέλη των υποομάδων γίνεται ορατή μέσω της ανάλυσης υποομάδων (clustering). Οι κύκλοι αντιπροσωπεύουν τις υποομάδες που χαρακτηρίζονται από το όνομα του αρχηγού της κάθε μιας, ενώ οι ευθείες γραμμές αντιπροσωπεύουν τις σχέσεις των υποομάδων μεταξύ τους. (C) Το μοντέλο που δημιουργήθηκε είναι ικανό επίσης να απεικονίσει την εσωτερική δομή της επιλεγμένης υποομάδας, αναγνωρίζοντας τα κεντρικά της μέλη και παρουσιάζοντας την ιεραρχία τους σε ένα ξεχωριστό πίνακα. (D) Το δεύτερο εγκληματικό δίκτυο αποτελείται από 57 μέλη συμμορίας. (E) Η δομή σε αυτό το δίκτυο έχει τη μορφή ακτινωτού αστέρα, σε αντίθεση με το πρώτο που ήταν γραμμική. (F) Οι λεπτομέρειες από μια επιλεγμένη υποομάδα του δευτέρου εγκληματικού δικτύου (Chenκ.ά., 2003).

Η επιβεβαίωση και η επικύρωση (validation) των μοντέλων αυτών συνάγεται και από το γεγονός ότι αποτελέσματα τέτοιων αναλύσεων αξιολογούνται από αστυνομικούς ερευνητές που είναι ειδικοί και ασχολούνται με εγκληματικές οργανώσεις. Η δομή, οι υποομάδες και οι διασυνδέσεις των προσώπων μιας εγκληματικής οργάνωσης που απεικονίζουν τα μοντέλα εξόρυξης δεδομένων αντιστοιχούν με τη πραγματικότητα. Μάλιστα τις περισσότερες φορές οι αναλύσεις απεικονίζουν σωστά τα κεντρικά μέλη των διαφόρων «πυρήνων» δράσης μιας εγκληματικής οργάνωσης και τη σύσταση των μελών του πυρήνα (Chenκ.ά., 2004).

Το πιο σημαντικό γεγονός που βοηθάει την αστυνομία, η εξόρυξη δεδομένων και η εφαρμογή της σε τέτοιες περιπτώσεις, είναι ότι αυξάνεται η παραγωγικότητα των αστυνομικών ερευνητών και  ανακαλύπτεται γνώση που για να δημιουργηθεί  χειρονακτικά θα απαιτούσε ώρες εργασίας (Chenκ.ά., 2004). Ο χρόνος αυτός μπορεί να αξιοποιηθεί πιο αποδοτικά σε άλλες ενέργειες. Επιπλέον γίνεται αντιληπτός ο τρόπος οργάνωσης, διάρθρωσης και επικοινωνίας μεταξύ των υποομάδων των εγκληματικών οργανώσεων. Έτσι μπορούν να προλαμβάνονται εγκληματικές πράξεις γρηγορότερα, αλλά και να σχεδιαστεί παραπέρα ο τρόπος εξάρθρωσης αυτών (Chenκ.ά., 2004).

Ξέπλυμα Χρημάτων - Φοροδιαφυγή

Ο εντοπισμός ύποπτων δραστηριοτήτων μέσα από το αμέτρητο σύνολο καθημερινών συναλλαγών σε τραπεζικές εργασίες αποτελεί ένα μεγάλο πρόβλημα. Η εξόρυξη δεδομένων (datamining) σε αυτή τη περίπτωση αφορά μια διαδικασία εντοπισμού αποκλίνουσων συμπεριφορών (outliersanalysis). Το ξέπλυμα βρώμικου χρήματος είναι συναφής με την έρευνα κατά της τρομοκρατίας, καθώς σχετίζεται με το τρόπο χρηματοδοτησής της. Από μελέτη που έγινε, διαπιστώθηκε ότι οι περισσότερες περιπτώσεις ξεπλύματος αφορούσαν πολλά μικρά και διάσπαρτα χρηματικά ποσά και όχι μεγάλα όπως θα περίμενε λογικά κάποιος (DeRosa, 2004).

Τα μοντέλα εξόρυξης δεδομένων που είναι βασισμένα σε αναγνώριση προτύπων (pattern-based), και οι διαδικασίες εντοπισμού αποκλίνουσων συμπεριφορών (outliersanalysis) βρίσκουν ευρεία εφαρμογή σε θέματα ανακάλυψης περιπτώσεων νομιμοποίησης εσόδων που προέρχονται από εγκληματικές δραστηριότητες (ξέπλυμα χρήματος).

Τα μοντέλα εξόρυξης δεδομένων βασισμένα σε αναγνώριση προτύπων (pattern-based) περιλαμβάνουν τον προσδιορισμό κάποιου μοντέλου πρόβλεψης (prediction) ή προτύπου συμπεριφοράς (associationrulesandpatterns) και ψάχνουν για αυτό το μοτίβο σε διάφορα σύνολα δεδομένων και βάσεις δεδομένων. Αυτά τα μοντέλα μπορούν να δημιουργηθούν είτε μέσω της εξόρυξης δεδομένων, είτε μπορούν να αναγνωριστούν και να εισαχθούν από από ειδικούς στη γνώση πληροφοριών ή τεχνογνωσίας σχετικά με το θέμα της νομιμοποίησης εσόδων από εγκληματικές δραστηριότητες. Η μέθοδος αυτή ψάχνει για αντίστοιχα περιστατικά που ταιριάζουν με τα πρότυπα, που ταιριάζουν με παράνομες μεθόδους ξεπλύματος χρήματος (DeRosa, 2004).

Μια μακροχρόνια χρήση τέτοιων μοντέλων, βασισμένη σε αναγνώριση προτύπων (pattern-based) γίνεται από το Τμήμα Οικονομικού Εγκλήματος (FinancialCrimesEnforcementNetwork-FinCEN) του Υπουργείου Οικονομικών των Η.Π.Α., για την ανίχνευση δραστηριοτήτων σχετικών με το ξέπλυμα χρήματος. Το FinCEN αναλύει βάσεις οικονομικών δεδομένων και προσδιορίζει τα πρότυπα ξεπλύματος χρήματος από προηγούμενες ήδη γνωστές περιπτώσεις νομιμοποίησης εσόδων από εγκληματικές δραστηριότητες (Senator, 1995).

Για παράδειγμα, το ξέπλυμα χρήματος συχνά συνεπάγεται ότι τα άτομα εισάγουν μεγάλα χρηματικά ποσά στο χρηματοπιστωτικό σύστημα σε μικρές δόσεις, υπό το πρόσχημα μιας ήδη υπάρχουσας επιχείρησης (DeRosa, 2004). Στη συνέχεια, χρησιμοποιούν τα χρήματα αυτά για να εισάγουν στις Η.Π.Α. υπερτιμημένα προϊόντα, ώστε τα χρήματα να ρέουν έξω από τις Η.Π.Α., προκειμένου να προσλάβουν την επιθυμητή νομιμοφάνεια, να φαίνεται δηλαδή ή έστω να δίνουν την εντύπωση, ότι αποκτήθηκαν από νόμιμη αιτία ή ότι προέρχονται από νόμιμη πηγή (Ξανθάκος, 2007).

Κανένα από αυτά τα βήματα που περιγράφηκαν, προηγουμένως, αν δεν συνδεθούν, και παρατηρηθούν ανεξάρτητα μεταξύ τους, απαραίτητα δε θα ήταν ύποπτα ή δεν προδιαθέτουν για κάτι τέτοιο, αλλά ολόκληρο το μοτίβο είναι σύμφωνο με πρακτικές ξεπλύματος χρήματος (DeRosa, 2004). Το FinCEN αναζητά αυτά τα μοτίβα στα δεδομένα που υπάρχουν σε μια ποικιλία από βάσεις δεδομένων και χρησιμοποιεί τις πληροφορίες που συλλέγει για την επιβολής της σχετικής νομοθεσίας (Senator, 1995).

Το σύστημα εξόρυξης δεδομένων που εφαρμόζεται στην αντίστοιχη Δημόσια Οικονομική Υπηρεσία των Η.Π.Α. (Internal Revenue Service-IRS) για τον εντοπισμό ατόμων υψηλού εισοδήματος που σχετίζονται με καταχρηστική φοροαπαλλαγή και φοροαποφυγή παρουσιάζει σημαντικά θετικά αποτελέσματα (DeBarr & Eyler-Walker, 2006). Οι κύριες γραμμές της έρευνας περιλαμβάνουν την οπτικοποίηση των σχέσεων και την εξόρυξη γνώσης από δεδομένα για τον εντοπισμό και την αξιολόγηση ενδεχομένως καταχρηστικών πράξεων φοροδιαφυγής και φοροαποφυγής (DeBarr & Eyler-Walker, 2006).

Ανακάλυψη Γεωγραφικής Θέσης Εγκλημάτων

Η εξόρυξη δεδομένων μπορεί να συνδυαστεί με το παγκόσμιο σύστημα εντοπισμού θέσης (GlobalPositionSystem-GPS) και με τα διάφορα Γεωγραφικά Συστήματα Πληροφοριών (GeographicalInformationSystem-GIS) με σκοπό να βοηθήσουν τον εντοπισμό μερών και θέσεων στο χάρτη που διαπράττονται εγκλήματα.

Οι Estivill-Castroκαι Lee (2001) δημιούργησαν έναν αλγόριθμο που συνδέει τις διάφορες περιοχές του Βρετανικού χάρτη με τα εγκλήματα και τα περιστατικά που διαπράττονται σε κάθε περιοχή και το τρόπο με τον οποίο αυτά συνδέονται. Αποτελεί δηλαδή μια γεωγραφική απεικόνιση της κάθε περιοχής που θα μπορούσε να βοηθήσει την αστυνομία να λάβει αποφάσεις, για παράδειγμα να ενισχύσει τις περιπολίες ή να κατευθύνει τις έρευνες προς την ανακάλυψη των γενεσιουργών αιτιών αυτών των προβλημάτων. Παραδείγματος χάρη, ένα τέτοιο μοντέλο είναι ικανό να ανακαλύπτει τα «καυτά σημεία» (hotspots) μιας περιοχής, όπου θα υπάρχουν περισσότερες πιθανότητες να διαπραχθεί έγκλημα, έτσι με αυτό τον τρόπο η αστυνομία θα έχει περισσότερες πιθανότητες να το προλάβει. Ορισμένα μέρη μπορούν να προσφέρονται για τη διάπραξη εγκλημάτων.

Στα ίδια πλαίσια οι Tabangin κ.ά. (2008) δημιούργησαν έναν αλγόριθμο που συνδέει το έγκλημα, τη γεωγραφία και τη διαμόρφωση μιας περιοχής στη πόλη Baguio της Ιαπωνίας. Ως μεταβλητές χρησιμοποιήθηκαν το μέρος της διάπραξης του εγκλήματος (από το αν είναι ανοικτή αγορά ή εμπορικό κέντρο, μέχρι διαμέρισμα) σε συνδυασμό με τα διάφορα εγκλήματα, όπως κλοπές, ληστείες, τραυματισμούς κλπ. Τα αποτελέσματα ήταν εκπληκτικά καθώς αποδείχτηκε ότι συγκεκριμένα εγκλήματα διαπράττονται μόνο σε συγκεκριμένες περιοχές της πόλης.

Η γεωγραφική απεικόνιση των διάφορων εγκλημάτων και περιστατικών γίνεται και από την Ελληνική Αστυνομία με το υποσύστημα του PoliceonLineτο οποίο ονομάζεται «CrimeView».

Ανακάλυψη Εγκληματικών Προτύπων

Στα ίδια πλαίσια περίπου, ο Shyam Varan Nath (2006) προσπαθεί να εντοπίσει εγκληματικά πρότυπα τρόπου δράσης (modusoperandi) καθώς, συμφώνα με τον ίδιο το 10% των εγκληματιών διαπράττουν το 50% των εγκλημάτων. Μέσα από τη δημιουργία τέτοιών προτύπων η ανακάλυψη του εγκληματία γίνεται πιο εύκολη. Ωστόσο δεν εξαλείφεται ο ανθρώπινος παράγοντας, αφού τα εγκληματικά πρότυπα δεν αντικαθιστούν τον αστυνομικό ερευνητή, αλλά τον βοηθούν στο έργο του.

Άλλες τεχνικές εξόρυξης δεδομένων μπορούν και συνδέουν πρόσωπα, οχήματα, διευθύνσεις, αντικείμενα μέσα από τις διάφορες αστυνομικές αναφορές που καταχωρούνται στις βάσεις δεδομένων. Οι Chau κ.ά. (2002) προσπάθησαν να εξάγουν γνώση, όπως αυτά που αναφέρθηκαν προηγουμένως, μέσα από τις γραπτές αστυνομικές αναφορές που συντάσσουν οι αστυνομικοί που εκτελούν περιπολία μετά το τέλος της βάρδιας τους. Τα διάφορα ονόματα των ατόμων που ελέχθησαν, οι διευθύνσεις, τα οχήματα και άλλα δεδομένα, χρησιμοποιήθηκαν ως μεταβλητές εισόδου. Η ανάλυση ομάδων (clustering) βοηθά ιδιαιτέρα σε αυτή τη περίπτωση. Τα αποτελέσματα ήταν ενθουσιώδη, καθώς μέσα από τεχνικές εξόρυξης γνώσης επιτεύχθηκαν καλύτερα αποτελέσματα συσχέτισης από αυτά που μπορεί να επιτύχει ένας αστυνομικός ερευνητής.

Τροχαία ατυχήματα

Ένας ακόμη τομέας που βρίσκει εφαρμογή η εξόρυξη δεδομένων είναι τα τροχαία ατυχήματα και η τροχαία ασφάλεια. Οι Griseldaκ.ά. (2012) με τη χρήση δένδρων απόφασης και εξόρυξη κανόνων σχέσης διαμόρφωσαν ένα μοντέλο με κατανοητή και ευκολονόητη μορφή για τους παράγοντες που επιδρούν σε κάθε είδους τροχαία ατυχήματα μελετώντας περιπτώσεις από τη Γρενάδα της Ισπανίας μέσα από 1801 ατυχήματα και με τη χρήση δεκαεπτά ποιοτικών και ποσοτικών μεταβλητών όπως το φύλλο, την ηλικία, η κατάσταση του οδοστρώματος, την υπάρχουσα σήμανση, την ορατότητα, την αιτία και το είδος του ατυχήματος. Το μοντέλο που δημιουργήθηκε διαχώρισε τα τροχαία ατυχήματα ανάλογα με την αιτία που τα προκαλεί, και στη συνέχεια εξέτασε άλλους παράγοντες πετυχαίνοντας ακρίβεια επιτυχίας 54,3%.

Συμπεράσματα

Με το πλήθος εφαρμογών που βρίσκει η εξόρυξη δεδομένων, όπως φάνηκε σε προηγούμενες παραγράφους, είναι αδιαμφισβήτητα γεγονός ότι διαμορφώνει τα τελευταία χρόνια ένα πολύ σημαντικό ρόλο, όσον αφορά την υποστήριξη και τη βοήθεια που παρέχει στους αστυνομικούς για την αντιμετώπισης της εγκληματικότητας και όχι μόνο.

Οι αστυνομικοί ερευνητές με χρόνια εμπειρίας μπορεί συχνά να είναι σε θέση να αναλύσουν τις τάσεις της εγκληματικότητας με ακρίβεια, αλλά καθώς αυξάνεται η συχνότητα και η πολυπλοκότητα της εγκληματικότητας, ανθρώπινα λάθη μπορούν να συμβούν, αυξάνοντας έτσι το χρόνο ανάλυσης και ερευνών. Έτσι οι εγκληματίες έχουν περισσότερο χρόνο για να καταστρέψουν τις αποδείξεις και να αποφύγουν τη σύλληψη. Με την αύξηση της αποτελεσματικότητας και τη μείωση των λαθών, των τεχνικών εξόρυξης δεδομένων που βρίσκουν εφαρμογή σε θέματα αντιμετώπισης της εγκληματικότητας, μπορεί να διευκολύνεται το έργο της αστυνομίας και να επιτραπεί στους αστυνομικούς ερευνητές να διαθέσουν το χρόνο τους σε άλλες, πολυτιμότερες εργασίες.

Όσο εντυπωσιακή (και ίσως και τρομακτική) η εξόρυξη δεδομένων μπορεί να γίνεται, εξακολουθεί να βασίζεται σε ένα ισχυρό ανθρώπινο στοιχείο. Τα προϊόντα της εξόρυξης δεδομένων, ενώ μπορεί να είναι πολύ ισχυρά εργαλεία και να βοηθούν τις διωκτικές αρχές στο έργο τους, δεν είναι αυτάρκης εφαρμογές. Για να είναι επιτυχής, η εξόρυξη δεδομένων απαιτεί εξειδικευμένους τεχνικούς και ειδικούς αναλυτές που να είναι σε θέση να μπορούν να «χτίσουν» τα μοντέλα της ανάλυσης και να είναι σε θέση να ερμηνεύουν τα αποτελέσματα που δημιουργούνται. Κατά συνέπεια, οι περιορισμοί της εξόρυξης δεδομένων είναι κατά κύριο λόγο η έλλειψη δεδομένων ή εξειδικευμένου προσωπικού, παρά προβλήματα που σχετίζονται με την τεχνολογία (Jeffrey, 2007).

Πηγές Πληροφόρησης-Βιβλιογραφία

Brown, Ε., (1998). "The regional crime analysis program (RECAP): A Frame work for mining data to catch criminals," ΠρακτικάσυνεδρίουIEEE International Conference on Systems, Man, and Cybernetics.(3):2848-2853.

Chau, M., Xu, J. & Chen, H. (2002). Extracting Meaningful Entities from Police Narrative Reports.ΠρακτικάσυνεδρίουNat’l Conf. Digital Government Research, Digital Government Research, Digital Government Research Center. 1(1):271-275.

Chen, H. & Xu, J. (Ιούνιος 2005). Criminal Network Analysis and Visualization: A Data Mining Perspective. Communications of the ACM (CACM). 48(6):101-107.

Chen, H., Chung, W., Xu Jennifer, J., Wang, G., Qin, Y. & Chau, M. (Απρίλιος 2004). Crime Data Mining: A General Framework and Some Examples. IEEE Computer Society. 37(4):50-56.

Chen, H., Zeng, D., Atabakhsh, H., Wyzga, W. & Schroeder, J. (2003). COPLINK: Managing law enforcement data and knowledge. Communications of the ACM.46(1):28-34.

DeBarr, D. & Eyler-Walker, Z. (Ιούνιος2006). Closing the Gap: Automated Screening of Tax Returns to Identify Egregious Tax Shelters. SIGKDD Explorations. 8(1):11-16.

DeRosa, M. (Μάρτιος2004). Data Mining and Data Analysis for Counterterrorism. Washington, D.C., (Η.Π.Α.): Center for Strategic and International Studies.

Elovici, Y., Kandel, A., Last, M.  Shapira, B., & Zaafranny, O. (2004). Using Data Mining Techniques for Detecting Terror-Related Activities on the Web. Journal of Information Warfare. 3(1):17-29.

Estivill-Castro, V. & Lee, I., (2001). Data Mining Techniques for Autonomous Exploration of Large Volumes of Geo-referenced Crime Data. Πρακτικά συνεδρίου από το 6ο International Conference on GeoComputation που διεξήχθη στοBrisbane, Australia.Φορέας διεξαγωγής University of Queensland. Αυστραλία: David V. Pullar.

Farzad, M. (2003). Syndromic Surveillance in Practice: New York City. ΠρακτικάσυνεδρίουData Mining Roundtable πουδιεξήχθησεWashington, D.C.. ΦορέαςδιεξαγωγήςCSIS.

Frawley, W., Piatetsky-Shapiro, G. & Matheus, C. (1992). Knowledge Discovery in Databases: An Overview. Association for the Advancement of Artificial Intelligence (AAAI) Magazine. 13(3):57-70.

Griseldaa, L., Juanb, O. & Joaquínc, A. (2012). Using Decision Trees to extract Decision Rules from Police Reports on Road Accidents. Procedia - Social and Behavioral Sciences. 53:106-114.

Hand, D., Mannila, H. & Smyth, P. (2001). Principles of Data Mining. Cambridge, Massachusetts, ΗΠΑ: MIT Press.

Jeffrey, S. (2007). Data Mining and Homeland Security: An Overview. Congress of the United States-Congressional Research Service. (Τόμ. RL31798, Αρ. 0704-0188). Washington,DC: The Library of Congress.

Jonas, J. (Ιούλιος 2003). “Using Data to Detect and Preempt Bad Things from Happening”. Παρουσίαση στο CSIS Data Mining Roundtable, Washington, D.C., (Η.Π.Α.): Center for Strategic and International Studies.

Kargupta, H., Liu, K. & Ryan, J. (2003). Privacy-Sensitive Distributed Data Mining from Multi-Party Data. Πρακτικάσυνεδρίουαπό1οNSF/NIJ Symp. Intelligence and Security Informatics πουδιεξήχθησεTucson, AZ, USA.. LNCS 2665:336-342.

Krebs, V. (2002). Mapping Networks of Terrorist Cells. CONNECTIONS. 24(3):43-52.

Krishnamurthy, R. & Kumar, S. (Δεκέμβριος2002). Survey of Data Mining Techniques on Crime Data Analysis. International Journal of Data Mining Techniques and Applications. 1(2):117-120.

Monk, E. & Wagner, B. (2006). Concepts in Enterprise Resource Planning (Second Edition). Boston, MA, ΗΠΑ: Thomson Course Technology.

Perez-Pena, R. (1 Απριλίου2003). An Early Warning System for Diseases in New York. New York Times, σελίδες45-46.

Senator, T. (1995). The FinCEN Artificial Intelligence System: Identifying Potential Money Laundering from Reports of Large Cash Transactions. AI Magazine. 16(4):21-39.

Shyam Varan, N. (2006). Crime Pattern Detection Using Data Mining. ΠρακτικάσυνεδρίουαπότοIEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology Workshops πουδιεξήχθησεHong Kong. ΦορέαςδιεξαγωγήςIEEE Computer Society. Los Angeles ΗΠΑ: IEEE Computer Society.

Tabangin, D. R., Flores, J. C. & Emperador, F. N., 2004. Implication to Urban Environmental Design: A Geographic Visualization and Data Mining Approach. WorldAcademyof Science, Engineering and Technology. 24:16-24.

Ηρειώτου, Μ., Νεσφυγέ, Λ. (Ιούλιος2013). Καλλικράτης στην ΕΛ.ΑΣ. με νέα τμήματα και τράπεζα DNA. ΤΑ ΝΕΑ. Διαθέσιμο σε: www.tanea.gr/PrintArticle/?article=5027630(Ανακτήθηκε 7 Ιουλίου, 2013).

Κύρκος, Ε. (2012). Εξόρυξη & Ανάλυση Λογιστικών Δεδομένων. Παραδόσεις μαθήματος στο Τμήμα Λογιστικής & Χρηματοοικονομικής, Σχολή Διοίκησης και Οικονομίας Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης.

Ξανθάκος, Α. (2007). Αστυνομία Δημόσιας Ασφάλειας. Αθήνα: ιδίας έκδοσης.

Τι είναι το Data Mining?. Διαθέσιμο σε: http://www.datamining.gr/el/whatisdatamining.html  (Ανακτήθηκε 19 Αυγουστου 2014).

 

Νικόλαος Φ. Γεωργιτσόπουλος

Αστυφύλακας υπηρετών στο Τμήμα Ασφαλείας Μενεμένης Θεσσαλονίκης

Nikolaos Georgitsopoulos

Policenet.gr © | 2024 Όροι Χρήσης.
developed by Pixelthis