Kyutai, das von Xavier Niel und Iliad gegründete Laboratorium, hat eine neue Funktion für seine offene KI-Maschine Moshi eingeführt: MoshiVis. Diese Innovation erlaubt es der KI, Bilder zu analysieren und dabei ihr vorhandenes Sprachvermögen beizubehalten.
MoshiVis wurde speziell so konzipiert, dass sie von der gesamten Community genutzt und weiterentwickelt werden kann. Sie nutzt hochwertige Daten für das Training und integriert visuelle Informationen in den Dialog durch die Verwendung eines festen Encodeurs sowie krossemulatorischer Module. Dies ermöglicht es der KI, interaktive Gespräche zu führen, indem sie auf Bildunterschriften und bestehende Texte zurückgreift.
Der Test des Modells hat gezeigt, dass MoshiVis trotz weniger audiovisuellen Daten präzise Antworten erzeugt und natürliche Interaktionen ermöglicht. Diese Verbesserung erweitert den Einsatzbereich der KI-Maschine und fördert die Weiterentwicklung durch das technische Publikum.