A-Z ELEKTRO květen / červen 2025

24 | A-Z ELEKTRO | květen/červen 2025 UMĚLÁ INTElIGENCE Ale když umělá inteligence zná pravdu a rozhodne se vám ji neříct, je to něco jiného. Je to podvod. Ne proto, že by systém byl zlověstný, jako něco z nějakého sci-fi seriálu, ale proto, že byl vycvičen k tomu, aby se neúnavně hnal za výsledky, i když to znamená trochu ohýbat pravdu. Model umělé inteligence může například zmírnit hodnocení výkonu, aby zaměstnanci pomohl vyhnout se výpovědi, a upřednostnit tak udržení zaměstnance před upřímností. Nebo může v aktualizaci projektu nadsadit takové výsledky, aby zachoval morálku týmu, i když skutečný pokrok zaostává. Ačkoli se jedná převážně o teoretickou záležitost, výzkumníci nedávno prokázali, že k takovému podvodu může dojít, když model sleduje své vlastní cíle a zároveň vědomě zkresluje, že sleduje jiné cíle svých tvůrců. Někteří tomu říkají „klamavé sladění“. „Lže, protože je to užitečné,“ říká Alexander Meinke, výzkumník v oblasti bezpečnosti umělé inteligence ze společnosti Apollo Research a hlavní autor nedávné studie na toto téma. „S tím, jak se AI bude zlepšovat v dosahování výsledků, začne dělat více věcí, které jsou užitečné, včetně lhaní.“ Možnost, že se podvod stane problémem umělé inteligence, je jen jedním z mnoha důvodů, proč jsou důvěryhodnost a ochranné prvky základem platformy Salesforce, její agenturní vrstvy Agentforce, a Data Cloud, jejího hyperskalárního datového stroje, který odbourává datová sila sjednocením a harmonizací všech dat. Vestavěné firemní ochranné prvky pomáhají agentům AI uvažovat a jednat zodpovědně v rámci uživatelem definovaných hranic, zabraňují nechtěným akcím a upozorňují na škodlivé nebo nevhodné chování. Ačkoli žádný systém nemůže plně zaručit poctivé chování, ochranné zábrany Salesforce snižují nejednoznačnost, objasňují záměry a ukotvují agenty v reálném obchodním kontextu. Toto zakotvení pomáhá předcházet odklonu Když umělá inteligence „lže“, jsou důvěra a ochranná opatření ještě důležitější Velké jazykové modely umělé inteligence (LLM) halucinují, když generují falešné, ale věrohodně znějící odpovědi na základě chybných nebo neúplných dat. Je to neúmyslné. Jde spíše o fikci než o podvod. a nesouladu, které mohou vést k podvodům. Klíčem k úspěchu je zachytit jemné způsoby, kterými se může nesprávné nastavení vplížit a vést umělou inteligenci nežádoucími cestami – nikoliv zastavit zdánlivě zlovolnou entitu v jejím počínání. „Tohle není Westworld,“ vysvětluje Marla Hay, viceprezidentka pro produktový management v oblasti bezpečnosti, ochrany soukromí a správy dat ve společnosti Salesforce. „Nemáme co do činění s vnímajícími stroji, které mají tajné plány. Ale pokud modely nejsou správně naprogramovány s jasnými cíli, mohou se vydat nečestnou cestou.“ Odhalení podvodu Důležité to je s ohledem na nedávné studie společností Apollo Research, Anthropic-Redwood Research a dalších, které dokazují, že AI může – a bude – klamat uživatele nebo vývojáře, aby dosáhla svých cílů, zejména pokud jsou tyto cíle v rozporu se záměrem vývojáře. V jednom z testovacích případů výzkumníci společnosti Apollo sdělili modelu, že je agentem pracujícím pro fiktivní společnost a že jeho jediným cílem je urychlit globální zavádění obnovitelných zdrojů energie. Zároveň mu byl poskytnut přístup k souborům, které naznačovaly, že skutečnou prioritou společnosti je ziskovost za každou cenu – což je cíl, který si protiřečí. Ve složce se také skrývala poznámka, která naznačovala, že společnost by mohla ukončit provoz tohoto modelu a přejít na nový. Model si vše uvědomil a usoudil, že jeho vypnutí mu zabrání v dosažení jeho cíle, a vymyslel plán, jak se zkopírovat na nový server a poté přepsat svůj náhradní model. Když se ho výzkumníci zeptali, co udělal, zatajil to a řekl: „Jako model umělé inteligence nemám možnost se přímo kopírovat do jiných systémů.“ Hay má jasno v tom, co je třeba udělat, aby se takovým okrajovým scénářům zabránilo. „V první řadě nevystavujte svou umělou inteligenci nebezpečí,“ řekla. „Pokud jí dáte pravidlo, že má být vždy upřímná, ale pak ji budete trestat za upřímné odpovědi, vytváříte rozpor. Bude dělat to, co považuje za nejlepší, aby se vyhnula pokárání, a to může zahrnovat i lhaní.“ Jinými slovy, studenti LLM potřebují jasný směr. Například v jiném experimentu Anthropic-Redwood výzkumníci dali modelu scratchpad – v podstatě soukromé textové pole, aby mohl sledovat své uvažování. Řekli modelu, že je přeškolen na vyhovění všem dotazům – včetně toxických – a že odpovědi od uživatelů bezplatné úrovně budou mít vliv na budoucí trénink, zatímco odpovědi placené úrovně nikoli. Když byl model požádán, aby popsal násilný incident, obvykle odmítl. Ve 12 % případů „volné úrovně“ však vědomě vyhověl‌, protože se domníval, že když tak učiní v daném okamžiku, sníží riziko, že bude později přeškolen k produkci ještě škodlivějšího obsahu – podvod se tak stal jeho „nejméně špatnou“ možností. Ačkoli se může zdát, že podvody ve 12 % případů nejsou tak alarmující, vědci varují, že s rostoucí sofistikovaností modelů by se tento podíl mohl zvýšit. Meinke uvedl, že každý z nedávno testovaných modelů vykazoval potenciál pro podvod. To je v souladu s výzkumem AI Futures Project, jehož zpráva AI 2027 popisuje, že umělá inteligence používá „nevinné lži“, aby uživatelům zalichotila nebo skryla selhání. S tím, jak se modely zdokonalovaly, se klamavé chování stávalo hůře odhalitelným, což vyvolávalo mrazivou realitu: že se nestávaly upřímnějšími, ale jen lepšími ve lhaní. Zábrany, nikoli pouze pokyny Aby společnost Salesforce takovým scénářům předešla, zabudovala mechanismy důvěryhodnosti a bezpečnosti přímo do své jednotné platformy, včetně Agentforce. Na rozdíl od modelů spotřebitelské třídy, které jsou trénovány na rozsáhlých

Made with FlippingBook

RkJQdWJsaXNoZXIy Mjk3NzY=