Az Apple kutatócsoportja alaposan tanulmányozta az AI érvelési képességeit, ám a komplexitás kihívásaival szembesültek.

Bár az új érvelő mesterséges intelligencia modellek kiemelkedően teljesítenek az alapvető feladatok terén, az emberi szintű gondolkodás komplexitásához még mindig távol állnak.
Az Apple kutatói az úgynevezett nagy érvelési modelleket (LRM) tesztelték kontrollált rejtvénykörnyezetekben, hogy kiderítsék, mennyire képesek ezek az AI rendszerek összetettebb problémák megoldására. Az eredmény vegyes: bár az LRM-ek felülmúlták a hagyományos nagy nyelvi modelleket (LLM) közepesen bonyolult feladatokban, a komplexitás növekedésével mindkettő teljesen megbukott. Az Apple csapata olyan speciális teszteket alkalmazott, mint a Hanoi tornya vagy a folyón való átkelés, ahol a probléma nehézségét pontosan tudták szabályozni. Nem csupán a végső megoldásokra fókuszáltak, hanem magát a gondolkodási folyamatot is elemezték, így vetették össze az LRM-eket a hagyományos LLM-ekkel azonos számítási feltételek mellett. Ez az összehasonlítás rávilágított az AI érvelés valódi korlátaira.
Kiderült, hogy az egyszerűbb feladatoknál a hagyományos LLM-ek (melyek nem használnak explicit érvelési mechanizmusokat) pontosabbak és hatékonyabbak voltak, kevesebb erőforrással. Viszont a közepesen bonyolult feladatoknál a strukturált gondolkodást alkalmazó modellek, például a Chain-of-Thought módszerrel, előnybe kerültek, és jobban teljesítettek. Ám a komplexitás tovább növelve, a teljesítmény mindkét modellcsoport esetében drámaian zuhant, és a pontosság nullára esett vissza, függetlenül attól, mennyi számítási kapacitás állt rendelkezésre.
Az elemzések során felfedezett egy sajátos jelenség: az érvelő modellek viselkedése nem mindig követi a logikus következetesség szabályait. A nehézségi szint növekedésével kezdetben hosszabb és részletesebb gondolatmeneteket alkalmaztak, ám a kudarc küszöbén váratlanul lerövidítették az érvelésüket, mintha feladták volna a küzdelmet. Érdekes módon, még akkor is, amikor helyes algoritmusokat használtak, a modellek nem tudtak megbízhatóan végrehajtani az egyes lépéseket. Ez a jelenség rávilágít az AI logikai számítási képességeinek korlátaira.
Érdekes módon a modellek teljesítménye nagymértékben függött attól, hogy a rejtvény mennyire volt ismerős vagy ritkább az eddigi tanulási adatok között, ami arra utal, hogy a siker gyakran nem az általánosítható érvelésen, hanem a tanult minták felismerésén alapult.
Az Apple kutatói arra a megállapításra jutottak, hogy noha az mesterséges intelligencia érvelési képességei folyamatosan fejlődnek, még mindig messze állunk attól, hogy ezek a rendszerek az emberi gondolkodás szintjén, általános és összetett problémák megoldására legyenek képesek. Ez egy fontos figyelmeztetés is, hiszen a jelenlegi modellek, még a legmodernebbek is, nem tudják megugrani a valódi gondolkodás mélyebb, sokrétű dimenzióit.