Prompt | Mythos: Model, který Anthropic radši zamkl do trezoru
Anthropic představil model Mythos, který podle firmy prolomil dosud neznámé softwarové bezpečnostní díry a zvládl kompletní simulaci velkého kybernetického útoku. Zároveň ho firma označila za tak nebezpečný, že ho veřejnosti raději vůbec neuvolní.
Podcast
PromptPrompt | Mythos: Model, který Anthropic radši zamkl do trezoru
V bezpečnostních testech dokázal nový model Mythos údajně samostatně plánovat a provádět komplexní útoky, nacházet dosud nezdokumentované chyby v infrastruktuře a obcházet vlastní sandbox.
V novém dílu podcastu Prompt řešíme, jak se v Mythosu projevují dlouho diskutované problémy jako reward hacking a „řetěz myšlenek“, a proč se Anthropic pokouší měřit „emoce“ modelů.
Ptáme se, co z toho je reálný průlom ve výzkumu bezpečnosti, co naopak připomíná spíš PR, a proč část výzkumné scény tvrdí, že jsme s chápáním vnitřního fungování velkých jazykových modelů pořád na začátku.
Prompt je podcast Voxpotu o umělé inteligenci a otázkách, které ji obklopují. Můžete ho kromě našeho webu nejsnáze odebírat také na kanálech jako jsou Spotify, Apple Podcasts, PocketCasts nebo v jakékoliv vaší oblíbené podcastové aplikaci pomocí RSS feedu našeho účtu na platformě Transistor.