Jelenleg éppen azon dolgoznak, hogy a robotok saját magukban folytassanak párbeszédeket.

A Google DeepMind mérnökei új megközelítést alkalmaznak a robotok tanításában: a gépek az általuk észlelt információkat belsőleg, saját magukban ismétlik meg, mintha csak egy emberi tanulási folyamatot imitálnának. Ez a módszer lehetővé teszi, hogy a robotok csendben, saját tempójukban sajátítsák el a körülöttük zajló eseményeket.

Érdekes újításon dolgoznak a DeepMind, a Google mesterségesintelligencia-kutatással foglalkozó részlegének mérnökei: egy olyan rendszeren, ami lehetővé teszi a robotok számára, hogy magukban beszéljenek. Egész pontosan az úgynevezett "belső monológról" van szó, egyfajta narrációról, amit az ember is gyakran alkalmaz a hétköznapokban. A szakemberek azt várják, hogy a megoldástól a robotok hatékonyabban tanulják majd meg a különböző feladatokat.

A fejlesztésre egy nemrég benyújtott szabadalmi bejelentés alapján derült fény. A módszer lényege, hogy a gépek képeken vagy videókon keresztül figyelik meg a feladatokat, és természetes nyelvű leírásokat generálnak a látottakról. Ha például a videóban látott személy felvesz egy csészét az asztalról, akkor a robot ezt szövegesen is megerősíti magának: "felvett egy csészét az asztalról".

Ez a belső narráció lehetőséget teremt arra, hogy a vizuális ingereket cselekvésekhez kapcsoljuk, így bárki, aki még nem részesült előzetes képzésben, képes legyen megérteni és interakcióba lépni eddig ismeretlen tárgyakkal. Eközben a memória- és számítási igények is csökkennek - állítja az Interesting Engineering.

A megoldás támogatja a robotot abban, hogy a jövőben, amikor ismét hasonló helyzettel találkozik – például amikor fel kell emelnie a csészét az asztalról – képes legyen felidézni a korábbi tapasztalatait, és ennek alapján megalapozott döntést hozzon.

A The Daily Upside elemzése alapján a belső monológ integrálása lehetőséget teremt a robotok számára, hogy mélyebb kontextusban értelmezzék a körülöttük zajló eseményeket. Ennek következtében képesek lesznek megalapozottabb döntéseket hozni, valamint hatékonyabban alkalmazkodni az új helyzetekhez. Ez az új megközelítés jelentős előnyöket nyújthat a robotok tanulási és működési folyamataiban, különösen dinamikus és változékony környezetekben.

A Google jövőbeli tervei között kétségtelenül kiemelt szerepet kap a robotika fejlődése. Nemrégiben a vállalat integrálta a Gemini 2.0 nyelvi modelljét egy robotikus platformba. Az átalakítás során a nyelvi modellt nem egyszerűen átvitték a robotok világába, hanem egy innovatív variánsot hoztak létre, amely a Gemini Robotics VLA (vision-language-action) nevet viseli. Ez az új rendszer nem csupán szavakra épül, hanem képes fizikai cselekvések végrehajtására is, így a válaszok formája sokkal gazdagabbá és interaktívabbá válik.

Létezik egy alternatív nyelvi modell, amely szintén részt vesz a struktúra kidolgozásában: a Gemini Robots-ER. Ez a modell egy látás-nyelvi (vision-language / VLM) megoldás, amely a térbeli megértés fejlett formáit integrálja. Ennek köszönhetően az mesterséges intelligencia képes navigálni a környezetében, még akkor is, ha az folyamatosan átalakul.

A DeepMind legújabb fejlesztése forradalmasíthatja a jövő robotjainak működését, lehetővé téve számukra, hogy ügyesebbé és rugalmasabbá váljanak. Ennek következtében a gépek szélesebb spektrumú feladatokat tudnak majd ellátni helyettünk, ezzel megkönnyítve az emberek mindennapi életét.

Related posts