Damit die Entwicklung von künstlicher Intelligenz nicht nur in der Hand von finanzstarken Großkonzernen liegt, will Wikimedia Deutschland kleineren Entwicklern Zugang zu seinen gespeicherten Informationen zur Verfügung stellen und damit vor allem Open-Source-KI-Anwendungen unterstützen.

Trainingsdaten nur für große Konzerne?

Generative KI-Anwendungen erfordern eine große Menge an Trainingsdaten, die aus personellen und materiellen Kostengründen derzeit vordergründig von großen Konzernen aus dem Internet ausgelesen werden, heißt es in einem Blogbeitrag von Wikimedia Deutschland. Diese Datensammlungen resultieren jedoch vorwiegend aus geschlossenen Ökosystemen, auf die kleinere Entwickler nicht ohne weiteres Zugriff bekommen.

Offene Datenbank für kleine KI-Entwickler

Das soll sich jetzt ändern. Dafür beabsichtigt Wikimedia, die maschinenlesbaren Daten aus der zentralen Wikidata-Datenbank für die KI-Entwicklung bereitzustellen. Zu diesem Zweck hat sich das gemeinnützige Unternehmen die Unterstützung zweier Techfirmen gesichert. Zum einen hilft die kalifornische Firma DataStax bei der Errichtung einer Vektordatenbank, die die semantische Analyse der Einträge aus Wikipedia & Co. bewerkstelligen soll. Zum anderen hilft das Berliner Unternehmen Jina AI bei der Erstellung eines KI-Einbettungsmodells für diese vektorisierten Daten.

Vorteil für gemeinnützige KI-Projekte

Wikidata beinhaltet alle Daten, die in der bekannten Wikipedia und den zugehörigen Plattformen der Wikimedia Foundation abrufbar sind und durch eine Community aus Freiwilligen erstellt, gepflegt und miteinander verknüpft werden. Durch die Vektorisierung werden Informationen wie Worte, Bilder und andere Daten für KI-Modelle überhaupt erst verwert- und nutzbar.

Vektorisierung in allen verfügbaren Sprachen

Das Projekt hat zwar Wikimedia Deutschland angekündigt. Auf Rückfrage wurde COMPUTER BILD jedoch mitgeteilt, dass nicht nur deutschsprachige, sondern alle Informationen in den verfügbaren Sprachen verarbeitet werden. Bei der immensen Datenmenge, die Wikidata plattformübergreifend beinhaltet, können KI-Entwickler hier also künftig international aus dem Vollen schöpfen. Der erste Beta-Test eines Prototyps wird für 2025 erwartet.

Categories: Uncategorized

Call Now Button