Το Έργο FRES
Αντικείμενο του έργου αποτελεί ένα, το αναπτυσσόμενο υποπεδίο της Εξόρυξης Πληροφορίας το οποίο προσφέρει λύσεις σε σημαντικά προβλήματα εμπορίας, διαφήμισης και προώθησης προϊόντων όπως – την εύρεση νέων προϊόντων που πιθανώς αρέσουν στον χρήστη – την εύρεση άλλων χρηστών που έχουν παρόμοιες προτιμήσεις με τον χρήστη ή θα μπορούσαν να είναι φίλοι του – την εύρεση προϊόντων που πιθανώς αρέσουν σε ομάδες χρηστών.
Με την ραγδαία ανάπτυξη του ηλεκτρονικού εμπορίου, οι εταιρίες που δραστηριοποιούνται είτε στην πώληση προϊόντων, είτε στην παροχή υπηρεσιών, διαθέτουν ένα πολύ μεγάλο όγκο δεδομένων σχετικά με τους πελάτες τους, τα προϊόντα ή τις υπηρεσίες που προσφέρουν καθώς και το ιστορικό αγορών ή προτιμήσεων των πελατών.
Το πρόβλημα που αντιμετωπίζουν είναι η βέλτιστη χρήση όλων των παραπάνω δεδομένων για την παραγωγή στοχευμένων συστάσεων προς τους χρήστες/πελάτες. Η εφαρμογή τέτοιων μεθόδων σε δεδομένα μεγάλου όγκου απαιτεί τη χρήση μεθόδων παράλληλης και κατανεμημένης επεξεργασίας, έτσι ώστε να επιτυγχάνεται η επιτάχυνση της εφαρμογής αλλά και να είναι αποδοτική η κλιμάκωσή της ανάλογα με το πλήθος των δεδομένων. Επί πλέον ζητούμενο είναι η υλοποίηση ενός γενικού ευέλικτου συστήματος το οποίο να μπορεί να προσαρμόζεται ανάλογα με τον τύπο των δεδομένων που είναι διαθέσιμα έτσι ώστε να μπορεί να καλυφθεί το μεγαλύτερο μέρος της αγοράς.
Οι επιμέρους στόχοι του έργου χωρίζονται σε δύο κατηγορίες, ερευνητικούς και εμπορικούς.
Στους ερευνητικούς στόχους συγκαταλέγεται η βιομηχανική έρευνα με αντικείμενο την παράλληλη και κατανεμημένη υλοποίηση παραμετροποιημένου συστήματος συστάσεων που θα καλύπτει τις ανάγκες επιχειρήσεων με δεδομένα πολύ μεγάλου όγκου.
Στους εμπορικούς στόχους συγκαταλέγεται η ανάπτυξη καινοτόμου πακέτου λογισμικού το οποίο θα εφαρμόζει τα αποτελέσματα της βιομηχανικής έρευνας και επίσης η εφαρμογή, πιλοτική δοκιμή και προώθηση του προϊόντος.
Στόχος 1:
Στοχευμένη βιομηχανική έρευνα για την ανάπτυξη γενικού ευέλικτου συστήματος συστάσεων για επιχειρήσεις με δεδομένα μεγάλου όγκου
Στόχος 2:
Ανάπτυξη καινοτόμου λογισμικού συστήματος συστάσεων
Στόχος 3:
Ανάπτυξη Πιλοτικής εφαρμογής σε πραγματικά δεδομένα
Στόχος 4:
Ανάπτυξη του τελικού εμπορικού Λογισμικού – Υπηρεσίας
Στόχος 5:
Εμπορική προώθηση της καινοτομίας
Η μεθοδολογία προσέγγισης του έργου περιλαμβάνει την έρευνα σχετικά με την παράλληλη και κατανεμημένη υλοποίηση όλων των βασικών τύπων αλγορίθμων συστάσεων καθώς και η συστηματική συλλογή και σύγκριση των ήδη υλοποιημένων μεθόδων.
Θα διερευνηθεί η υλοποίηση διαφόρων μεθόδων σε δημοφιλείς πλατφόρμες, όπως ενδεικτικά Hadoop/MapReduce και Apache/Spark με σκοπό την επιλογή της καταλληλότερης πλατφόρμας με κριτήριο την ταχύτητα, την ευκολία κλιμάκωσης και τις απαιτήσεις σε υλικό. Επίσης θα διερευνηθεί ο συνδυασμός παράλληλης και κατανεμημένης επεξεργασίας με την χρήση πολυπύρηνων επεξεργαστών και Γραφικών Επεξεργαστικών Μονάδων (GPU).
Στόχος είναι να καλυφθούν οι κυριότερες μέθοδοι που ανήκουν στις εξής κατηγορίες:
Συνεργατικό φιλτράρισμα
Φιλτράρισμα με βάση το περιεχόμενο
Δημογραφικά Συστήματα Συστάσεων
Συστήματα με βάση τη γνώση
Υβριδικά Συστήματα
Η υλοποίηση του έργου θα ακολουθήσει τα εξής στάδια:
(α) Προετοιμασία και σχεδιασμός.
Στο στάδιο αυτό περιλαμβάνεται
- η βιβλιογραφική αναζήτηση και συλλογή των γνωστών αλγορίθμων συστάσεων για διάφορους τύπους συστάσεων όπως Collaborative filtering, Content-based, Knowledge-based, Case-based, Demographics, και Hybrid models
- Η μελέτη των τεχνικών απαιτήσεων του έργου τόσο από απόψεως απαιτούμενου υπολογιστικού εξοπλισμού όσο και από απόψεως καταλληλότερου λογισμικού
- Η μελέτη της εμπορικής σκοπιμότητας και της αναμενόμενης επίπτωσης στην αγορά
(β) Υλοποίηση προτύπου λογισμικού
Στο στάδιο αυτό θα γίνει η υλοποίηση των αλγορίθμων που συλλέχθηκαν στο στάδιο (α) χρησιμοποιώντας διάφορες πλατφόρμες κατανεμημένης επεξεργασίας όπως ενδεικτικά, Hadoop/MapReduce και Spark, καθώς και παράλληλης επεξεργασίας όπως, ενδεικτικά, OpenMP, MPI και CUDA. Το λογισμικό αυτό κατόπιν θα δοκιμαστεί ως προς την ορθότητα και την ικανοποίηση των απαιτήσεων κλιμάκωσης και ταχύτητας. Κατόπιν θα επιλεγεί μια συγκεκριμένη ενιαία πλατφόρμα για την υλοποίηση όλων των μεθόδων με βάση τα παραπάνω κριτήρια.
(γ) Πιλοτική Εφαρμογή.
Στο στάδιο αυτό θα γίνει συλλογή πραγματικών δεδομένων μεγάλου όγκου από εταιρία λιανικού εμπορίου και θα γίνει πιλοτική εφαρμογή του παραχθέντος προτύπου στα δεδομένα αυτά. Μετά την συλλογή των αποτελεσμάτων θα πραγματοποιηθεί έλεγχος και αποσφαλμάτωση του προτύπου
(δ) Προβολή και διάχυση του έργου
Η ερευνητική δραστηριότητα που πραγματοποιείται στα πλαίσια του παρόντος έργου εστιάζει στην συστηματική μελέτη της υλοποίησης των διαφόρων αλγορίθμων συστάσεων σε παράλληλα και κατανεμημένα υπολογιστικά περιβάλλοντα όπως συστάδες υπολογιστών με κόμβους που διαθέτουν πολυπύρηνους επεξεργαστές ή/και GPU. Δημοφιλείς πλατφόρμες κατανεμημένης επεξεργασίας όπως το Hadoop, Spark, κα, καθώς και κλασικές πλατφόρμες παράλληλης επεξεργασίας όπως MPI, CUDA, κλπ.
Τα ερευνητικά αποτελέσματα του προτεινόμενου έργου προσφέρουν μια συστηματική και ολοκληρωμένη μελέτη της δυνατότητας κλιμάκωσης και παραλληλοποίησης όλων των δημοφιλών αλγορίθμων ανάλογα με τον τύπο του συστήματος συστάσεων. Αν και υπάρχουν υλοποιήσεις επιλεγμένων αλγορίθμων σε αυτά τα περιβάλλοντα, πχ υλοποίηση του αλγορίθμου ALS σε βιβλιοθήκες όπως το Mahout ή το Spark Mllib, μια ολοκληρωμένη προσέγγιση για όλους τους τύπους συστάσεων, όπως content-based, knowledge-based, case-based, demographic, hybrid κλπ, δεν υπάρχει και αποτελεί σημαντική συνεισφορά στην επιστημονική κοινότητα.
Στην αξιοποίηση των αποτελεσμάτων συγκαταλέγονται οι νέες λειτουργίες και δυνατότητες που παρέχει η υπάρχουσα πλατφόρμα, ώστε να καταστεί μια next generation loyalty platform που μπορεί να επεξεργαστεί δεδομένα μεγάλου όγκου (Big Data), να πραγματοποιήσει προωθητικές ενέργειες σε όλα τα κανάλια επικοινωνίας και επαφής με τους πελάτες, και να υποστηρίξει οποιοδήποτε Loyalty Scheme επιθυμεί να τρέξει οποιαδήποτε επιχείρηση.
παγκόσμιο επίπεδο και θα επιφέρει σημαντικές συνεργασίες και πωλήσεις
Με τις νέες αυτές δυνατότητες, η πλατφόρμα θα αποτελέσει μια μοναδική υπηρεσία στον τομέα του Marketing, Marketing Automation και Loyalty Schemes σε παγκόσμιο επίπεδο και θα επιφέρει σημαντικές συνεργασίες και πωλήσεις για την ARX.NET σε διεθνές επίπεδο.
Αντικείμενο του έργου αποτελεί ένα το αναπτυσσόμενο υποπεδίο της Εξόρυξης Πληροφορίας το οποίο προσφέρει λύσεις σε σημαντικά προβλήματα εμπορίας, διαφήμισης και προώθησης προϊόντων όπως – την εύρεση νέων προϊόντων που πιθανώς αρέσουν στον χρήστη – την εύρεση άλλων χρηστών που έχουν παρόμοιες προτιμήσεις με τον χρήστη ή θα μπορούσαν να είναι φίλοι του – την εύρεση προϊόντων που πιθανώς αρέσουν σε ομάδες χρηστών Με την ραγδαία ανάπτυξη του ηλεκτρονικού εμπορίου, οι εταιρίες που δραστηριοποιούνται είτε στην πώληση προϊόντων, είτε στην παροχή υπηρεσιών, διαθέτουν ένα πολύ μεγάλο όγκο δεδομένων σχετικά με τους πελάτες τους, τα προϊόντα ή τις υπηρεσίες που προσφέρουν καθώς και το ιστορικό αγορών ή προτιμήσεων των πελατών.
Το πρόβλημα που αντιμετωπίζουν είναι η βέλτιστη χρήση όλων των παραπάνω δεδομένων για την παραγωγή στοχευμένων συστάσεων προς τους χρήστες/πελάτες. Η εφαρμογή τέτοιων μεθόδων σε δεδομένα μεγάλου όγκου απαιτεί τη χρήση μεθόδων παράλληλης και κατανεμημένης επεξεργασίας, έτσι ώστε να επιτυγχάνεται η επιτάχυνση της εφαρμογής αλλά και να είναι αποδοτική η κλιμάκωσή της ανάλογα με το πλήθος των δεδομένων. Επί πλέον ζητούμενο είναι η υλοποίηση ενός γενικού ευέλικτου συστήματος το οποίο να μπορεί να προσαρμόζεται ανάλογα με τον τύπο των δεδομένων που είναι διαθέσιμα έτσι ώστε να μπορεί να καλυφθεί το μεγαλύτερο μέρος της αγοράς.
Οι επιμέρους στόχοι του έργου χωρίζονται σε δύο κατηγορίες, ερευνητικούς και εμπορικούς. Στους ερευνητικούς στόχους συγκαταλέγεται η βιομηχανική έρευνα με αντικείμενο την παράλληλη και κατανεμημένη υλοποίηση παραμετροποιημένου συστήματος συστάσεων που θα καλύπτει τις ανάγκες επιχειρήσεων με δεδομένα πολύ μεγάλου όγκου. Στους εμπορικούς στόχους συγκαταλέγεται η ανάπτυξη καινοτόμου πακέτου λογισμικού το οποίο θα εφαρμόζει τα αποτελέσματα της βιομηχανικής έρευνας και επίσης η εφαρμογή, πιλοτική δοκιμή και προώθηση του προϊόντος.
Στόχος 1: Στοχευμένη βιομηχανική έρευνα για την ανάπτυξη γενικού ευέλικτου συστήματος συστάσεων για επιχειρήσεις με δεδομένα μεγάλου όγκου
Στόχος 2: Ανάπτυξη καινοτόμου λογισμικού συστήματος συστάσεων
Στόχος 3: Ανάπτυξη Πιλοτικής εφαρμογής σε πραγματικά δεδομένα
Στόχος 4: Ανάπτυξη του τελικού εμπορικού Λογισμικού – Υπηρεσίας
Στόχος 5: Εμπορική προώθηση της καινοτομίας
Η μεθοδολογία προσέγγισης του έργου περιλαμβάνει την έρευνα σχετικά με την παράλληλη και κατανεμημένη υλοποίηση όλων των βασικών τύπων αλγορίθμων συστάσεων καθώς και η συστηματική συλλογή και σύγκριση των ήδη υλοποιημένων μεθόδων.
Θα διερευνηθεί η υλοποίηση διαφόρων μεθόδων σε δημοφιλείς πλατφόρμες, όπως ενδεικτικά Hadoop/MapReduce και Apache/Spark με σκοπό την επιλογή της καταλληλότερης πλατφόρμας με κριτήριο την ταχύτητα, την ευκολία κλιμάκωσης και τις απαιτήσεις σε υλικό. Επίσης θα διερευνηθεί ο συνδυασμός παράλληλης και κατανεμημένης επεξεργασίας με την χρήση πολυπύρηνων επεξεργαστών και Γραφικών Επεξεργαστικών Μονάδων (GPU).
Στόχος είναι να καλυφθούν οι κυριότερες μέθοδοι που ανήκουν στις εξής κατηγορίες:
Συνεργατικό φιλτράρισμα
Φιλτράρισμα με βάση το περιεχόμενο
Δημογραφικά Συστήματα Συστάσεων
Συστήματα με βάση τη γνώση
Υβριδικά Συστήματα
Η υλοποίηση του έργου θα ακολουθήσει τα εξής στάδια:
(α) Προετοιμασία και σχεδιασμός.
Στο στάδιο αυτό περιλαμβάνεται
- η βιβλιογραφική αναζήτηση και συλλογή των γνωστών αλγορίθμων συστάσεων για διάφορους τύπους συστάσεων όπως Collaborative filtering, Content-based, Knowledge-based, Case-based, Demographics, και Hybrid models
- Η μελέτη των τεχνικών απαιτήσεων του έργου τόσο από απόψεως απαιτούμενου υπολογιστικού εξοπλισμού όσο και από απόψεως καταλληλότερου λογισμικού
- Η μελέτη της εμπορικής σκοπιμότητας και της αναμενόμενης επίπτωσης στην αγορά
(β) Υλοποίηση προτύπου λογισμικού
Στο στάδιο αυτό θα γίνει η υλοποίηση των αλγορίθμων που συλλέχθηκαν στο στάδιο (α) χρησιμοποιώντας διάφορες πλατφόρμες κατανεμημένης επεξεργασίας όπως ενδεικτικά, Hadoop/MapReduce και Spark, καθώς και παράλληλης επεξεργασίας όπως, ενδεικτικά, OpenMP, MPI και CUDA. Το λογισμικό αυτό κατόπιν θα δοκιμαστεί ως προς την ορθότητα και την ικανοποίηση των απαιτήσεων κλιμάκωσης και ταχύτητας. Κατόπιν θα επιλεγεί μια συγκεκριμένη ενιαία πλατφόρμα για την υλοποίηση όλων των μεθόδων με βάση τα παραπάνω κριτήρια.
(γ) Πιλοτική Εφαρμογή.
Στο στάδιο αυτό θα γίνει συλλογή πραγματικών δεδομένων μεγάλου όγκου από εταιρία λιανικού εμπορίου και θα γίνει πιλοτική εφαρμογή του παραχθέντος προτύπου στα δεδομένα αυτά. Μετά την συλλογή των αποτελεσμάτων θα πραγματοποιηθεί έλεγχος και αποσφαλμάτωση του προτύπου
(δ) Προβολή και διάχυση του έργου
Η ερευνητική δραστηριότητα που πραγματοποιείται στα πλαίσια του παρόντος έργου εστιάζει στην συστηματική μελέτη της υλοποίησης των διαφόρων αλγορίθμων συστάσεων σε παράλληλα και κατανεμημένα υπολογιστικά περιβάλλοντα όπως συστάδες υπολογιστών με κόμβους που διαθέτουν πολυπύρηνους επεξεργαστές ή/και GPU. Δημοφιλείς πλατφόρμες κατανεμημένης επεξεργασίας όπως το Hadoop, Spark, κα, καθώς και κλασικές πλατφόρμες παράλληλης επεξεργασίας όπως MPI, CUDA, κλπ.
Τα ερευνητικά αποτελέσματα του προτεινόμενου έργου προσφέρουν μια συστηματική και ολοκληρωμένη μελέτη της δυνατότητας κλιμάκωσης και παραλληλοποίησης όλων των δημοφιλών αλγορίθμων ανάλογα με τον τύπο του συστήματος συστάσεων. Αν και υπάρχουν υλοποιήσεις επιλεγμένων αλγορίθμων σε αυτά τα περιβάλλοντα, πχ υλοποίηση του αλγορίθμου ALS σε βιβλιοθήκες όπως το Mahout ή το Spark Mllib, μια ολοκληρωμένη προσέγγιση για όλους τους τύπους συστάσεων, όπως content-based, knowledge-based, case-based, demographic, hybrid κλπ, δεν υπάρχει και αποτελεί σημαντική συνεισφορά στην επιστημονική κοινότητα.
Στην αξιοποίηση των αποτελεσμάτων συγκαταλέγονται οι νέες λειτουργίες και δυνατότητες που παρέχει η υπάρχουσα πλατφόρμα, ώστε να καταστεί μια next generation loyalty platform που μπορεί να επεξεργαστεί δεδομένα μεγάλου όγκου (Big Data), να πραγματοποιήσει προωθητικές ενέργειες σε όλα τα κανάλια επικοινωνίας και επαφής με τους πελάτες, και να υποστηρίξει οποιοδήποτε Loyalty Scheme επιθυμεί να τρέξει οποιαδήποτε επιχείρηση.
παγκόσμιο επίπεδο και θα επιφέρει σημαντικές συνεργασίες και πωλήσεις
Με τις νέες αυτές δυνατότητες, η πλατφόρμα θα αποτελέσει μια μοναδική υπηρεσία στον τομέα του Marketing, Marketing Automation και Loyalty Schemes σε παγκόσμιο επίπεδο και θα επιφέρει σημαντικές συνεργασίες και πωλήσεις για την ARX.NET σε διεθνές επίπεδο.