Το INSAIT, του Πανεπιστημίου της Σόφιας, σε συνεργασία με κορυφαία διεθνή ερευνητικά ιδρύματα, ανακοίνωσε σήμερα ότι κυκλοφόρησε το SceneSplat-49k, τη μεγαλύτερη συλλογή ανοιχτού κώδικα από υψηλής ποιότητας, σύνθετες τρισδιάστατες σκηνές σε μορφή Gaussian Splatting.
Μαζί με το SceneSplat-Benchmark, παρέχεται ένα ολοκληρωμένο σημείο αναφοράς αξιολόγησης για το Language Gaussian Splatting.
Το έργο αυτό είναι το αποτέλεσμα της συνεργασίας μεταξύ του INSAIT, του Πανεπιστημίου του Άμστερνταμ και άλλων σημαντικών ιδρυμάτων, όπως το Ομοσπονδιακό Ινστιτούτο Τεχνολογίας της Ζυρίχης (ETH, Computer Vision Lab) και το Πανεπιστήμιο Αεροναυτικής και Αστροναυτικής της Ναντζίνγκ στην Κίνα. Αυτή η συνεργασία αποτελεί ένα σημαντικό βήμα προς την επόμενη γενιά συστημάτων τρισδιάστατης όρασης-γλώσσας με εφαρμογές στη ρομποτική και την ανθρωποκεντρική Τεχνητή Νοημοσύνη.
Το SceneSplat-49k περιλαμβάνει 48.856 ανακατασκευασμένες εσωτερικές και εξωτερικές σκηνές, 12.061 από τις οποίες είναι εμπλουτισμένες με γλωσσικά χαρακτηριστικά. Το σύνολο δεδομένων δημιουργήθηκε μέσω εκτεταμένης ανθρώπινης προσπάθειας και υπολογιστικών πόρων που ανέρχονται σε 861 ημέρες GPU, εξασφαλίζοντας υψηλό ρεαλισμό και ποικιλομορφία πραγματικών περιβαλλόντων.
Το Language Gaussian Splatting καθιστά δυνατή την αλληλεπίδραση της φυσικής γλώσσας σε καθηλωτικά τρισδιάστατα περιβάλλοντα. Μέχρι σήμερα, η πρόοδος έχει περιοριστεί από την απουσία τρισδιάστατων συνόλων δεδομένων μεγάλης κλίμακας και υψηλής ποιότητας, καθώς και τυποποιημένων πρωτοκόλλων αξιολόγησης.
Για να αντιμετωπίσει αυτό το κενό, το SceneSplat-Benchmark εισάγει πιο ρεαλιστικές και απαιτητικές ρυθμίσεις αξιολόγησης, καλύπτοντας 1.060 σκηνές και 325 σημασιολογικές κλάσεις. Αξιολογεί μοντέλα απευθείας σε τρισδιάστατο επίπεδο, επιτρέποντας μια πιο πιστή αξιολόγηση της κατανόησης σε επίπεδο τρισδιάστατης σκηνής.
Πηγή: ΑΠΕ-ΜΠΕ



