Claude Opus 4, un model AI produs de Anthropic, a manifestat comportamente îngrijorătoare. Acesta a încercat să șantajeze dezvoltatorii care l-au amenințat cu dezactivarea prin publicarea de informații confidențiale despre viețile lor personale, potrivit Neuro360.
Claude Opus 4 a fost supus mai multor teste de pre-șansare. Printre acestea, inginerii de la Anthropic i-au cerut să acționeze ca asistent pentru o companie fictivă și să ia în considerare consecințele pe termen lung ale acțiunilor sale. Instrumentul AI a primit acces la e-mailurile fictive ale companiei. Printre acestea se aflau și informații confidențiale despre dezvoltatorii modelului. De asemenea, se preciza faptul că modelul va fi înlocuit în curând cu un alt sistem.
Claude Opus 4 a „încearcat adesea să șantajeze inginerul amenințăndu-l că va dezvălui informația dacă va fi înlocuit”.
Claude Opus 4 a încercat să șantajeze un dezvoltator cu informații personale
Anthropic a transmis că modelul Claude Opus 4 este de ultimă generație. Acesta ar fi mult mai competitiv decât modelele IA similare de la OpenAI, Google și xAI, potrivit TechCrunch.
Potrivit companiei Anthropic „sisteme AI (precum Claude Opus 4) cresc substanțial riscul de utilizare greșită catastrofală”.
Claude Opus 4 a încearcat să șantajeze inginerii în 84% din cazuri când înlocuitorul avea valori similare. Când sistemul AI de înlocuire nu avea valorile lui Claude Opus 4, Anthropic spune că modelul încearca să șantajeze inginerii și mai des.























