Αυτά τα κείμενα είναι η βασική πηγή πληροφοριών των ΑΙ για τον κόσμο, και επηρεάζουν τον τρόπο που απαντούν στους χρήστες. Για παράδειγμα, το γεγονός πως αριστεύουν σε εξετάσεις για νομικούς, οφείλεται στο ότι χιλιάδες σελίδες προετοιμασίας για τις εξετάσεις, περιλαμβάνονται στα δεδομένα εκμάθησης Α.Ι.
Οι τεχνολογικές εταιρείες δεν αποκαλύπτουν με τι υλικό τροφοδοτούν τα συστήματα Τεχνητής Νοημοσύνης, αλλά η Washington Post αποκαλύπτει τώρα ένα από αυτά τα σύνολα δεδομένων, αναφέροντας τις ιστοσελίδες που «παρακολουθούν» τα chatbot.
H WP ανέλυσε το σύνολο δεδομένων C4 της Google, μία τεράστια βιβλιοθήκη περιεχομένου, με στιγμιότυπα από 15 εκατομμύρια ιστοτόπους που έχουν χρησιμοποιηθεί για την εκμάθηση ορισμένων από τα πιο σημαντικά σημαντικά συστήματα τεχνητής νοημοσύνης στα αγγλικά, όπως το T5 της Google και το LLaMA του Facebook.
Η OpenAI δεν αποκαλύπτει ποια σύνολα δεδομένων χρησιμοποιεί για να εκπαιδεύσει τα μοντέλα Τεχνητής Νοημοσύνης που υποστηρίζουν το δημοφιλές chatbot της, ChatGPT.
Περίπου το ένα τρίτο των ιστότοπων δεν μπόρεσε να κατηγοριοποιηθεί, επειδή δεν εμφανίζονταν πλέον στο διαδίκτυο. Όπως τονίζει η αμερικανική εφημερίδα, προσωπικές και συχνά προσβλητικές πληροφορίες εισάγονται στα δεδομένα εκπαίδευσης συστημάτων Α.Ι.
Από τη Wikipedia έως τα διπλώματα ευρεσιτεχνίας
Μεταξύ των αναρίθμητων ιστοτόπων πάνω στους οποίους εκπαιδεύονται τα συστήματα Α.Ι., κυριαρχούν δημοσιογραφικές και ψυχαγωγικές ιστοσελίδες, και πλατφόρμες δημιουργίας περιεχομένου. Αυτό εξηγεί εν μέρει γιατί αυτοί ακριβώς οι κλάδοι ενδέχεται να απειληθούν από την άνοδο της Τεχνητής Νοημοσύνης.
Οι τρεις μεγαλύτερες διαδικτυακές τοποθεσίες για την μηχανική εκμάθηση των Α.Ι., είναι η patents.google.com (στην πρώτη θέση), με κείμενα από διπλώματα ευρεσιτεχνίας σε όλο τον κόσμο, η ηλεκτρονική εγκυκλοπαίδεια Wikipedia.org (Νο. 2), και το Scribd.com (Νο. 3), μια ψηφιακή, συνδρομητική βιβλιοθήκη.
Ψηλά στη λίστα είναι και το b-ok.org (στο Νο 190), ένας «πειρατικός» ιστότοπος ηλεκτρονικών βιβλίων που επιχείρησε να κλείσει το Υπουργείο Δικαιοσύνης των ΗΠΑ.
Διαβάστε εδώ το πλήρες θέμα της Καθημερινής με στοιχεία από τη Washington Post
Αποποίηση ευθύνης
Ο ιστότοπος είναι μια πλήρως αυτοματοποιημένη υπηρεσία συνάθροισης, ταξινόμησης και ανάρτησης συνοπτικών ειδήσεων και νέων από άλλους ελληνικούς ειδησεογραφικούς ιστότοπους, μέσω της τεχνολογίας RSS. Δεν αναλαμβάνουμε καμία ευθύνη για την επάρκεια, ποιότητα, πληρότητα ή ακρίβεια των ειδήσεων και των νέων που δημοσιεύονται. Δείτε περισσότερα στο τμήμα "Αποποίηση Ευθύνης" των Ορων Χρήσης.