Damit die Entwicklung von künstlicher Intelligenz nicht nur in der Hand von finanzstarken Großkonzernen liegt, will Wikimedia Deutschland kleineren Entwicklern Zugang zu seinen gespeicherten Informationen zur Verfügung stellen und damit vor allem Open-Source-KI-Anwendungen unterstützen.
Trainingsdaten nur für große Konzerne?
Offene Datenbank für kleine KI-Entwickler
Das soll sich jetzt ändern. Dafür beabsichtigt Wikimedia, die maschinenlesbaren Daten aus der zentralen Wikidata-Datenbank für die KI-Entwicklung bereitzustellen. Zu diesem Zweck hat sich das gemeinnützige Unternehmen die Unterstützung zweier Techfirmen gesichert. Zum einen hilft die kalifornische Firma DataStax bei der Errichtung einer Vektordatenbank, die die semantische Analyse der Einträge aus Wikipedia & Co. bewerkstelligen soll. Zum anderen hilft das Berliner Unternehmen Jina AI bei der Erstellung eines KI-Einbettungsmodells für diese vektorisierten Daten.
Vorteil für gemeinnützige KI-Projekte
Vektorisierung in allen verfügbaren Sprachen
Das Projekt hat zwar Wikimedia Deutschland angekündigt. Auf Rückfrage wurde COMPUTER BILD jedoch mitgeteilt, dass nicht nur deutschsprachige, sondern alle Informationen in den verfügbaren Sprachen verarbeitet werden. Bei der immensen Datenmenge, die Wikidata plattformübergreifend beinhaltet, können KI-Entwickler hier also künftig international aus dem Vollen schöpfen. Der erste Beta-Test eines Prototyps wird für 2025 erwartet.