Big Data: Το μέλλον της ραγδαία εξελισσόμενης τεχνολογίας

από τη Μάγδα Τσόχα, 

Η επιστήμη των Big Data ή όπως θα λέγαμε στα ελληνικά  των «Μεγάλων Δεδομένων», γνώρισε τη δημοσιότητα, και από το ευρύτερο κοινό, κυρίως τα τελευταία χρόνια, καθώς κυριάρχησε στον παγκόσμιο ιστό, βρίσκοντας μια υψηλή θέση στις προτιμήσεις των εταιρειών και οργανισμών. Ο ορός είναι πλέον τόσο διαδεδομένος, ώστε ακόμη και σε θεωρητικούς κλάδους να γίνονται σχετικές συζητήσεις, αφού δεν είναι λίγοι αυτοί που υπογραμμίζουν ότι πρόκειται για την κατ’ εξοχήν μελλοντική επιστήμη, την επένδυση που θα αποζημιώσει τους απασχοληθέντες με αυτή, με το παραπάνω.

Αρχικά, ως Big Data ορίζεται ο τεράστιος όγκος δεδομένων. Ο όγκος αυτός των δεδομένων είναι τόσο περίπλοκος και αναπτύσσει τόσο μεγάλες ταχύτητες, ώστε είναι αδύνατον να επεξεργαστεί μέσω παραδοσιακών μεθόδων. Τα «Μεγάλα Δεδομένα», λοιπόν, προσδιορίζονται από 5 πολύ βασικά χαρακτηριστικά- στα αγγλικά τα 6 ‘V’s, Volume, Velocity, Variety, Viability, Veracity και Value. Το πρώτο είναι ο όγκος δεδομένων, μιλώντας πάντοτε για το μέγεθος κι όχι ως προς το δείγμα, αλλά ως προς το σύνολο, π.χ. των δημοσιεύσεων των χρηστών του facebook. Δεύτερο είναι η ταχύτητα, αυτή με την οποία τα δεδομένα αυτά παράγονται κι επεξεργάζονται στο αυξανόμενων απαιτήσεων περιβάλλον -την real time ανάλυσή τους, με άλλα λόγια. Στη συνέχεια, ακολουθεί η ποικιλία, από ένα γραπτό κείμενο ή μήνυμα έως ένα φωνητικό, μια φωτογραφία, ένα βίντεο, σε ζωντανή μετάδοση ή και μαγνητοσκοπημένο.  Η δυνατότητα του κάθε χρήστη ατομικά να παρακολουθήσει σε παγκόσμιο επίπεδο έναν άλλον χρήστη «ζωντανά». Τέταρτον, σημαντική είναι η μεταβλητότητα, η συνεχής αλλαγή τόσο των δεδομένων όσο και του νοήματός τους. Η αποκρυπτογράφηση των συναισθημάτων των χρηστών, των οποίων η διατύπωση γίνεται με διάφορους τρόπους στα μέσα κοινωνικής δικτύωσης αποτελεί τη νέα μεγαλύτερη πρόκληση για τον αυτόματο εντοπισμό. Φυσικά, σημαντικό ρόλο διαδραματίζει και η ακρίβεια. Τα δεδομένα αυτά υπάρχουν με σκοπό την εξαγωγή συμπερασμάτων ακρίβειας για τη συμπεριφορά ενός χρήστη, λ.χ. μια επικείμενη αγορά του. Η ποιότητά τους σαφώς επηρεάζει την ανάλυση, η οποία με τη σειρά της επηρεάζεται  από τα ανακριβή ή ακριβή στοιχεία.  Τέλος, και σπουδαιότερο όλων, είναι η αξία τους. Τα δεδομένα αυτά δε μπορούν να έχουν αξία, εάν δε μπορούμε να τα «μετατρέψουμε» εμείς οι ίδιοι σε αξία. Εν ολίγοις, η αξία τους δεν αφορά την ποσότητα των δεδομένων αλλά πως αξιοποιείται αυτή η όποια ποσότητα. Για παράδειγμα, με δεδομένα από πολλές πηγές μπορούν να δοθούν απαντήσεις ως προς τη μείωση κόστους για μια εταιρία, η μείωση κόστους παραγωγής, ή γρηγορότερη παραγωγή προϊόντων ή ακόμη και σοφότερη επιλογή προϊόντων.

Συνοπτικά, τα «Μεγάλα Δεδομένα» μπορούν να αξιοποιηθούν  από τις εταιρίες, ώστε να καθορίζουν την πηγή της αποτυχίας, των ανωμαλιών και λοιπών ζητημάτων πριν από τον πραγματικό χρόνο, να υπολογίζουν τους κινδύνους των εγχειρημάτων, να εντοπίζουν τις λανθάνουσες συμπεριφορές πριν αυτές δημιουργήσουν προβλήματα και να βοηθήσουν στην πρόβλεψη των αγοραστικών συνηθειών των πελατών. Για τους υπόλοιπους απλούς καθημερινούς ανθρώπους, τα οφέλη τα οποία ήδη αρκετοί απολαμβάνουν αφορούν στην απλούστευση των δραστηριοτήτων μας, όπως ο υπολογισμός των παλμών  και των βημάτων μας μέσω εφαρμογών ή smartwatches ή ο αλγόριθμος σε site γνωριμιών, ώστε ο εκάστοτε χρήστης να βρει την «αδελφή ψυχή» του ευκολότερα.

 Για την ευκολότερη κατανόηση από πλευράς του αναγνώστη, μερικά παραδείγματα «Μεγάλων Δεδομένων» είναι το social media listening, δηλαδή η διαδικασία συλλογής πληροφοριών από τους χρήστες ως προς το τι λέγεται για διάφορα προϊόντα, μέσω παρατήρησης της δραστηριότητας των χρηστών. Ένα ακόμη θα ήταν το marketing analysis, οι πληροφορίες που χρησιμοποιούνται για προώθηση νέων προϊόντων, υπηρεσιών και πρωτοβουλιών, φυσικά πιο εμπλουτισμένων. Πολύ σημαντικό παράδειγμα είναι και το customer satisfaction and sentiment analysis, η διαδικασία με την οποία όλες οι συλλεγμένες πληροφορίες από πολλές διαφορετικές πηγές υποδεικνύουν πως νιώθει ο κάθε χρήστης ή πελάτης για μια εταιρία, μια επωνυμία ή ένα προϊόν.

Για την αποθήκευση των Big Data, πράγμα το οποίο αποτελεί και μεγάλη πρόκληση,  λόγω της απαίτησης κεφάλαιο, καθώς η επένδυση σε έναν μεγάλης έκτασης server, θα μπορούσε να αποβεί επιζήμια για έναν ιδιοκτήτη, χρησιμοποιείται ως επί το πλείστον το public cloud. Το public cloud προσφέρει, επίσης, δυνατότητα αποθήκευσης των «Μεγάλων Δεδομένων» σε managed services όπως Amazon EMR( formerly Elastic MapReduce), Microsoft Azure HDInsight και Google Cloud Dataproc. Σε περιβάλλοντα cloud, τα δεδομένα αυτά υπάρχει η δυνατότητα να αποθηκευτούν  σε Hadoop Distributed File System, relational databases, Amazon Simple Storage Space και  NoSQL databases.

Για πάρα πολλά χρόνια, βεβαίως, οι περισσότερες εταιρίες αντιμετώπιζαν νομικά ζητήματα αλλά και ηθικά, όσον αφορά το ζήτημα συλλογής δεδομένων πελατών τους, με απώτερο σκοπό την βελτίωση της εξυπηρέτησης αυτών. Με την αύξηση της συλλογής δεδομένων, αυξήθηκαν και τα περιστατικά λανθασμένης χρήσης των δεδομένων. Υπήρξαν και υπάρχουν πολίτες, οι οποίοι ισχυρίζονται πως τα προσωπικά τους δεδομένα έχουν βρεθεί σε χέρια ανθρώπων που δεν έπρεπε κι έχουν κάνει παράπονα για παραβίαση προσωπικών δεδομένων και κατάχρηση της ιδιωτικότητάς τους. Τα παράπονα ήταν τόσα πολλά, ώστε η Ευρωπαϊκή Ένωση αναγκάστηκε να θεσπίσει νομοθεσία σχετική με την προστασία των ηλεκτρονικών δεδομένων( GDPR- General Data Protection Regulation). Η εν λόγω νομοθεσία εξασφαλίζει πως τα δεδομένα των χρηστών είναι στη διάθεση της εταιρίας μόνο κατόπιν της έγκρισης των πρώτων, αλλά και το δικαίωμα πολιτών της Ε.Ε. να ζητούν από εταιρίες να διαγράφονται τα προσωπικά τους δεδομένα.

Στις Η.Π.Α. δεν υπάρχει ανάλογη έως τώρα νομοθεσία, αλλά το C.C.P.A.( California Consumer Privacy Act), το οποίο υπεγράφη το 2018 και τέθηκε σε εφαρμογή από τον Γενάρη του 2020,  με σκοπό να δίνει στους διαδικτυακούς χρήστες τη δυνατότητα να έχουν περισσότερο έλεγχο στα δεδομένα τους. Ανάλογη προσπάθεια γίνεται και από τις Αμερικανικές Κυβερνητικές Αρχές να διερευνηθεί η διαδικασία πώλησης δεδομένων χρηστών από μια εταιρία προς μια άλλη, για αγνώστους λόγους.

Εν κατακλείδι, κατανοητό είναι αφ’ ενός πως τα «Μεγάλα Δεδομένα» αποτελούν το μέλλον αφού ο όλο και μεγαλύτερος όγκος δεδομένων στο διαδίκτυο λόγω της αύξησης χρηστών καθιστά αναγκαίο να «διαβάζονται» οι συμπεριφορές των, ιδίως από εταιρίες εμπορευμάτων, ώστε το μάρκετινγκ και η διαφήμιση να είναι πιο στοχευμένα και το κέρδος σαφώς μεγαλύτερο. Αφ’ετέρου, η συλλογή και πόσο μάλλον η τεράστια συλλογή ογκωδών δεδομένων από διάφορες εταιρίες εγκυμονεί πάσης φύσεως κινδύνους καθότι ενδυναμώνει τη διαδικτυακή παρακολούθηση των χρηστών, τους μετατρέπει σε καταναλωτικά υποχείρια και προμηνύει ένα μέλλον, στο οποίο όλα θα είναι ελεγχόμενα «άνωθεν» παρά από τα ίδια τα άτομα.

Η χρήση των δεδομένων εξαρτάται φυσικά από τις προθέσεις της εκάστοτε εταιρίας κτλ., αλλά δεν παύει να αποτελεί πράξη οριακής παραβίασης, αν όχι κατάφωρης, ούτε εγγυάται κανείς πως δεν είναι η αρχή μόνο για μια διαρκή παρακολούθηση των χρηστών και κατ’ επέκταση αιχμαλωσίας τους. Εάν όλα αυτά μοιάζουν ουτοπικά, μια ματιά στα συστήματα παρακολούθησης της Κίνας αρκούν. Οι πολίτες εκεί βαθμολογούνται αναλόγως με τη συμπεριφορά τους, π.χ. τήρηση του Κ.Ο.Κ., ευπρεπής δημόσια συμπεριφορά ή απρεπής με παραβίαση κανόνων. Η βαθμολογία τους κατατάσσει σε πρώτης κατηγορίας πολίτες και τελευταίας και καθορίζει ουσιαστικά τα δικαιώματα τα οποία αυτοί απολαμβάνουν. Και όλα αυτά μέσω συλλογής δεδομένων διαδικτυακά ή μέσων καμερών ασφαλείας.

Απάντηση