Meta a présenté ses dernières avancées en matière d’identification automatisée d’objets dans les images, avec sa mise à jour Système SEER maintenant, selon Meta, le plus grand et le plus avancé modèle de vision par ordinateur disponible.
SEER – qui est un dérivé de “auto-supervisé” – est capable d’apprendre à partir de n’importe quel groupe aléatoire d’images sur Internet, sans avoir besoin de curation et d’étiquetage manuels, ce qui accélère sa capacité à identifier un large éventail d’objets différents dans un cadre, et il est maintenant capable de surpasser les principaux systèmes de vision par ordinateur standard de l’industrie en termes de précision.
Et ça ne fait que s’améliorer. La version originale de VOYANT, initialement annoncé par Meta l’année dernière, a été construit sur un modèle de plus d’un milliard d’images. Cette nouvelle version est désormais 10x plus étendue.
Comme expliqué par Méta:
“Lorsque nous avons annoncé pour la première fois SEER au printemps dernier, il a surpassé les systèmes de pointe, démontrant que l’apprentissage auto-supervisé peut exceller dans les tâches de vision par ordinateur dans des contextes réels. Nous avons maintenant mis à l’échelle SEER de 1 milliard à 10 milliards de paramètres denses, ce qui en fait, à notre connaissance, le plus grand modèle de vision par ordinateur dense de ce type.
Il convient de noter en particulier la capacité du système à identifier différentes images de différentes personnes et cultures, tout en étant également capable d’attribuer un sens et une interprétation à des objets provenant de différentes régions du monde.
“Les systèmes de vision par ordinateur traditionnels sont formés principalement sur des exemples des États-Unis et des pays riches d’Europe, de sorte qu’ils ne fonctionnent souvent pas bien pour les images d’autres endroits avec des caractéristiques socio-économiques différentes. Mais SEER donne de bons résultats pour les images du monde entier, y compris les régions non américaines et non européennes avec un large éventail de niveaux de revenus.
C’est important, car cela élargira la compréhension du système des différents objets et utilisations, ce qui peut ensuite aider à améliorer la précision et fournir de meilleures descriptions automatisées de ce qui se trouve dans un cadre. Cela peut alors fournir plus de contexte aux utilisateurs malvoyants, ainsi que la correspondance d’identification des produits, les signaux de signalisation, les alertes de marque, etc.
Meta note également que le système est un élément clé de son prochain quart de travail.
“Faire progresser la vision par ordinateur est un élément important de la construction du métaverse. Par exemple, pour construire des lunettes AR qui peuvent vous guider vers vos clés mal placées ou vous montrer comment faire une recette préférée, nous aurons besoin de machines qui comprennent le monde visuel comme les gens. Ils devront bien fonctionner dans les cuisines non seulement du Kansas et de Kyoto, mais aussi de Kuala Lumpur, de Kinshasa et d’une myriade d’autres endroits dans le monde. Cela signifie reconnaître toutes les différentes variations des objets du quotidien comme les clés de la maison, les poêles ou les épices. SEER innove en réalisant cette performance robuste.”
Meta travaille depuis des années sur l’amélioration de l’identification des objets et a fait des progrès significatifs en termes de légendes automatisées, de descriptions de lecteurs et plus encore.
Il travaille également sur l’identification des objets dans la vidéo, la prochaine étape. Et bien que ce ne soit pas encore une option viable, cela pourrait éventuellement conduire à de nouvelles informations sur les données, en vous permettant d’en savoir plus sur ce que chaque utilisateur publie et comment les atteindre avec vos promotions.
Même en ce moment, cela peut être précieux. Si vous saviez, par exemple, qu’un certain sous-ensemble d’utilisateurs sur Instagram étaient plus susceptibles de publier une photo de leur repas, en fonction des modèles de publication précédents, cela pourrait vous aider dans le ciblage de votre publicité. Extrapolez cela à n’importe quel sujet, avec un haut degré de précision dans la correspondance des données, et cela pourrait être un excellent moyen de générer une valeur maximale à partir de votre approche publicitaire.
Et c’est avant, comme le note Meta, en tenant compte des applications avancées dans les superpositions AR, ou en améliorant ses algorithmes vidéo pour montrer aux gens plus de contenu avec lequel ils sont plus susceptibles de s’engager, en fonction de ce qui se trouve réellement dans chaque image.
La prochaine étape approche et des systèmes comme celui-ci sous-tendront des changements majeurs dans la connectivité en ligne.
Vous pouvez en savoir plus sur le système SEER de Meta ici.