Meta pracuje na řadě nových iniciativ v oblasti umělé inteligence. Mezi těmito projekty jsou nové nástroje, které pro AI používají text, obrázky, videa i „multimodální“ prvky. Právě poslední zmíněnou oblast a její fungování nyní Meta představila blíže.
Meta přichází s ImageBind, procesem, který umožňuje systémům AI lépe porozumět většímu množství vstupů pro přesnější a citlivější doporučení.
Meta to připodobňuje tomu, že když lidé přijímají informace z okolního světa, používají k tomu přirozeně více smyslů. Nástroje, které právě vyvíjí, se v tomto směru přiblíží lidské schopnosti učit se současně, komplexně a přímo z mnoha různých forem informací – bez nutnosti explicitního dohledu. ImageBind je první model umělé inteligence, který dokáže propojit informace ze šesti modalit.
Proces ImageBind v podstatě umožňuje systému učit se asociace nejen mezi textem, obrazem a videem, ale také zvukem, stejně jako hloubkou (prostřednictvím 3D senzorů) a dokonce i tepelnými vstupy.
Kombinace těchto prvků může poskytnout přesnější prostorové podněty, díky kterým pak systém vytvoří přesnější reprezentace a asociace.
Pomocí ImageBind by například nástroj Make-A-Scene mohl vytvářet obrazy ze zvuku (vytvořit obraz na základě zvuků deštného pralesa nebo rušného trhu). Mezi další budoucí možnosti patří přesnější způsoby rozpoznávání, propojování a moderování obsahu a posílení kreativního designu.
Meta také poznamenává, že ImageBind lze využít k rozvoji procesů v aplikacích.
Více informací o funkci ImageBind a jejím fungování si můžete přečíst na blogu Mety.