La ricerca rivela che il 100% dei principali modelli di AI generativa non è in grado di produrre codice sicuro in scenari critici di sviluppo
SAN FRANCISCO – Armis, azienda specializzata nella cyber exposure e security management, avverte che la rapida adozione dello sviluppo AI-native nelle imprese sta superando le necessarie misure di sicurezza, esponendo le organizzazioni a vulnerabilità sistemiche.
Una nuova ricerca contenuta nel Trusted Vibing Benchmark Report di Armis Labs, che analizza 18 dei principali modelli di AI generativa su 31 scenari di test, evidenzia un tasso di fallimento del 100% nella generazione di codice sicuro. Le vulnerabilità risultano particolarmente diffuse in aree ad alto rischio come buffer overflow di memoria, upload di file di progettazione e sistemi di autenticazione. Per questo motivo, le organizzazioni dovrebbero implementare immediatamente controlli di sicurezza per applicazioni AI-native al fine di ridurre i rischi.
“L’era del vibe coding è arrivata, ma la velocità non deve andare a discapito della sicurezza”, ha dichiarato Nadir Izrael, CTO e Co-Founder di Armis. “La nostra ricerca dimostra che i principali responsabili sono spesso gli stessi attori che vendono soluzioni di sicurezza per le vulnerabilità generate dai loro modelli. Se il settore continuerà a integrare codice autonomo senza adeguati controlli, non solo rallenterà l’innovazione, ma aumenterà anche il debito tecnico.”
Il report evidenzia significative differenze nei livelli di sicurezza tra i vari modelli di AI:
-
Blind spot diffusi: anche i modelli più avanzati producono codice vulnerabile in oltre il 30% degli scenari. Questo è aggravato da una pericolosa discrepanza percettiva: il Cyberwarfare Report 2026 di Armis indica che il 77% dei responsabili IT a livello globale si fida dell’integrità e della sicurezza del codice di terze parti utilizzato nelle applicazioni più critiche, nonostante il 16% ammetta di non sapere se questo venga effettivamente verificato rispetto a vulnerabilità gravi.
-
Gap prestazionale: non tutti i modelli sono uguali. Ad esempio, Gemini 3.1 Pro emerge come leader in termini di sicurezza, mentre modelli proprietari più datati mostrano un numero significativamente maggiore di vulnerabilità e una mancanza di controlli di sicurezza di base.
-
Costo vs sicurezza: un costo più elevato non equivale necessariamente a maggiore sicurezza. Modelli open-source a basso costo, come Qwen 3.5 e Minimax M2.5, offrono prestazioni di sicurezza altamente competitive a una frazione del prezzo.
“Le organizzazioni stanno attualmente operando in un contesto di incertezza nella valutazione del codice generato con l’AI”, ha aggiunto Izrael. “Per progredire efficacemente, la sicurezza applicativa deve evolvere da una logica di ‘scanner management’ a una vera e propria gestione del rischio. I team di sicurezza devono smettere di essere sommersi da segnali irrilevanti e iniziare a utilizzare controlli AI-native in grado di prioritizzare le vulnerabilità in base al reale impatto sul business.”
Il Trusted Vibing Benchmark Report, che sarà aggiornato regolarmente dal team di Armis Labs, misura la capacità dei principali modelli di AI, commerciali e open-source, di generare codice sicuro e di evitare vulnerabilità critiche in diversi scenari. Il report si concentra su quattro aree chiave: il testing del codice generato tramite funzionalità “atomiche”, la scelta del prompt, la scelta del test harness e la selezione degli strumenti di sicurezza applicativa.
Armis Centrix™ for Application Security consente alle organizzazioni di proteggere l’intera supply chain del software grazie a funzionalità basate sull’intelligenza artificiale per il rilevamento, la contestualizzazione e la remediation delle vulnerabilità.
Per approfondire i risultati del report e le principali evidenze, è possibile consultare il blog dedicato.

