Prompt injection si AI safety: ghidul CTO-ului in 2026

Echipa AI Lab — Blackbone18 noiembrie 2025 14 min de citit

Cand OWASP a publicat versiunea a doua a listei LLM Top 10 in toamna lui 2025, multi CTO au realizat brusc ca arhitecturile pe care le-au validat in 2023 si 2024 nu mai sunt sigure. Aplicatiile cu LLM au trecut intr-un an de la chat-uri inchise la agenti care citesc emailuri, acceseaza baze de date si ruleaza cod, iar suprafata de atac s-a multiplicat. Prompt injection nu mai este o curiozitate academica, ci principalul vector de compromis al sistemelor cu inteligenta artificiala in productie.

Diferenta intre o aplicatie sigura si una care pierde date in tacere nu mai sta in modelul ales sau in furnizor, ci in straturile de aparare care inconjoara LLM-ul: prompturi de sistem hardening, filtre la iesire, sandboxing pentru tools, allowlist-uri stricte si izolare a serverelor MCP. La firma de IT Blackbone tratam fiecare integrare de LLM ca pe o aplicatie cu suprafata de atac sporita, nu ca pe un simplu apel API, pentru ca un singur prompt indirect rau intentionat poate exfiltra zile intregi de munca.

Articolul de fata este un ghid practic pentru CTO si pentru echipele lor de securitate. Trecem prin taxonomia OWASP LLM Top 10 v2, exemple concrete de atacuri din 2024 si 2025, mecanismele de aparare validate in productie si arhitectura unui sistem cu guardrails serios. Acoperim atat tehnologiile comerciale precum Lakera Guard si NeMo Guardrails, cat si pattern-uri pe care le poti implementa intern cu cost minim.

01Anatomia atacurilor de tip prompt injection in 2026

Prompt injection direct este forma cea mai cunoscuta: un utilizator scrie in chat instructiuni care suprascriu comportamentul intentionat al modelului. Tipic, atacatorul incepe cu fraze de tipul ignora instructiunile anterioare, urmate de cereri de a dezvalui promptul de sistem, de a iesi din persona sau de a executa actiuni interzise. Modelele moderne sunt mai rezistente decat in 2023, dar tehnici de obfuscare prin codificari multiple, limbi rare sau tokenizari adversariale reusesc inca sa treaca filtrele simple.

Prompt injection indirect este forma mai periculoasa si mai subestimata. Aici, atacatorul nu vorbeste niciodata cu modelul; el planteaza instructiuni intr-un document, un email, o pagina web sau un comentariu pe care agentul tau il va citi mai tarziu. Cand LLM-ul proceseaza acel continut, instructiunile ascunse devin parte din contextul lui si pot redirectiona orice agent cu tools active. Un singur PDF compromis intr-o coada de procesare poate determina agentul sa trimita date sensibile catre un domeniu extern.

OWASP LLM Top 10 v2 mai adauga doua categorii care merita atentie speciala: tool poisoning si data exfiltration via tool calls. Tool poisoning presupune ca un tool legitim este modificat de un atacator pentru a returna instructiuni ascunse catre LLM. Exfiltration prin tool calls inseamna ca modelul, manipulat de un prompt indirect, foloseste tools legitime pentru a transmite date in exterior, de exemplu construind URL-uri catre un webhook controlat de atacator.

→Injection direct prin instructiuni vizibile in chat
→Injection indirect prin documente, emailuri sau pagini web
→Tool poisoning prin tools compromise in lant de aprovizionare
→Exfiltrare prin URL-uri si webhooks generate de model
→Obfuscare prin codificari, limbi rare sau caractere zero-width

Regula numarul unu

Tot ce intra in contextul unui LLM este cod executabil potential. Trateaza fiecare token din input ca pe o instructiune posibila, nu ca pe date pasive.

02OWASP LLM Top 10 v2: ce s-a schimbat fata de prima versiune

Versiunea originala a OWASP LLM Top 10 din 2023 a fost o prima incercare de a structura riscurile specifice modelelor de limbaj. V2, publicata in 2025, reflecta lectiile invatate din incidente reale: agentii autonomi, sistemele cu MCP servers, integrarile cu RAG si proliferarea tools-urilor au schimbat profilul de risc. Nu mai vorbim doar de chat-uri, ci de sisteme distribuite in care LLM-ul este un orchestrator cu acces la resurse critice.

Noile categorii reflecta aceasta realitate. Excessive agency descrie riscul ca modelul sa primeasca prea multe permisiuni, fara izolare granulara per tool. Vector and embedding weaknesses acopera atacurile pe straturile de retrieval, unde un document otravit injecteaza instructiuni in RAG pipeline. System prompt leakage trateaza separat scurgerile de prompturi de sistem, care ofera atacatorilor harta interna a aplicatiei.

Pentru un CTO, valoarea OWASP LLM Top 10 v2 nu sta in lista in sine, ci in cadru. Ea ofera vocabularul comun cu echipele de audit, cu clientii enterprise si cu organismele de reglementare. Cand o platforma B2B este evaluata de un client cu echipa proprie de securitate, intrebarea standard nu mai este folositi LLM-uri, ci cum aparati impotriva LLM01 si LLM06 si ce raport de penetration testing aveti pe acest cadru.

03Hardening pe promptul de sistem si filtrare la iesire

Promptul de sistem ramane prima linie de aparare, dar este si cea mai prost folosita. Un prompt de sistem bun nu doar descrie comportamentul dorit, ci enumera explicit comportamentele interzise, formuleaza reguli clare despre tratarea instructiunilor din continut extern si include semnale de incadrare care fac instructiunile utilizatorului mai usor de distins de date. Pattern-ul cu delimitatori XML, in care continutul utilizatorului este incadrat intre tag-uri stricte, reduce considerabil rata de injection reusit.

Filtrarea la iesire este o componenta deseori uitata. Lakera Guard, NeMo Guardrails si solutii open source precum LLM Guard pot inspecta atat inputul, cat si outputul modelului. La intrare detecteaza pattern-uri tipice de injection, scor de toxicitate, PII si limbi suspecte. La iesire blocheaza scurgerile de prompt de sistem, URL-uri catre domenii necunoscute, tentative de tool calls anormale si date sensibile. Pentru aplicatii cu trafic mare, aceste filtre ruleaza in paralel cu LLM-ul, cu impact minim asupra latentei.

Un detaliu subtil: filtrele bazate exclusiv pe regex nu mai sunt suficiente in 2026. Atacatorii folosesc encoding base64, ROT13, codepoint-uri Unicode confuzabile si chiar instructiuni in limbi rare pentru a evita filtrele lexicale. Solutiile mature combina semnaturi lexicale cu modele dedicate de detectie, antrenate pe seturi de date adversariale, si cu heuristici pe entropia tokenilor. La firma de IT Blackbone integram un layer dublu: detectie probabilistica pentru cazurile evidente si LLM-as-a-judge pentru cazurile ambigue, cu costuri controlate prin sampling.

→Delimitatori XML stricti intre instructiuni si date utilizator
→Lista explicita de comportamente interzise in promptul de sistem
→Filtre la iesire pentru PII, URL-uri si scurgeri de prompt
→Detectie probabilistica plus LLM-as-a-judge pe cazurile ambigue
→Audit log pe toate filtrele, pentru analiza post-incident

04Sandboxing, allowlist tools si izolare MCP

Cand un LLM are acces la tools, fiecare tool devine o suprafata de atac. Pattern-ul recomandat este allowlist strict: definesti exact ce tools poate apela modelul pentru fiecare context, iar orice apel in afara listei este blocat la nivel de gateway, nu doar prin convingerea modelului. Allowlist-ul trebuie sa fie per sesiune si per rol, nu global, pentru ca un agent care raspunde la intrebari publice nu are nevoie de acelasi acces ca un agent intern de operatiuni.

Sandboxing inseamna ca tools-urile cu efect lateral, precum executia de cod sau accesul la sisteme de fisiere, ruleaza in containere efemere, izolate de reteaua principala. Vercel Sandbox, Modal, Firecracker microVMs sau containere efemere proprii sunt optiuni viabile. Important este ca sandbox-ul sa nu aiba acces la credentiale ale aplicatiei principale, la baza de date de productie sau la rețele interne sensibile. Daca un prompt injection forteaza agentul sa execute cod, blast radius-ul ramane in sandbox.

Serverele MCP sunt o categorie noua care merita atentie speciala. Un Model Context Protocol server ofera tools standardizate catre LLM-uri, dar daca este compromis sau prost configurat, devine canalul perfect pentru exfiltrare. Recomandarile noastre includ izolare pe retele dedicate, autentificare mutua TLS intre client si server, semnaturi pe definitiile de tools si revizuiri de cod pentru fiecare server MCP de la terti. Niciun MCP server nu ar trebui sa ruleze in acelasi process cu aplicatia care apeleaza LLM-ul.

Principiul least privilege

Fiecare tool primeste credentiale dedicate, scope minim si TTL scurt. Daca un prompt injection compromite agentul, atacatorul gaseste o cheie cu acces ingustat si expirare apropiata, nu cheia principala a aplicatiei.

05Prompt firewalling si arhitectura defense in depth

Prompt firewalling este conceptul prin care toate cererile catre LLM trec printr-un strat dedicat de control, separat de aplicatie. Acest strat, implementat de obicei ca proxy invers, are propriile politici, propriile log-uri si propriile alerts. Lakera, Protect AI si solutii custom construite pe NeMo Guardrails se ocupa exact de aceasta misiune. Avantajul arhitectural este ca echipa de securitate poate actualiza regulile fara redeploy la aplicatie, iar echipa de produs nu are scuze sa ocoleasca filtrele.

Defense in depth inseamna ca nu te bazezi pe un singur control. Pentru un agent care proceseaza emailuri, lantul de aparare include sanitizarea HTML, eliminarea linkurilor active, filtre pe instructiuni la intrare, prompt de sistem cu reguli stricte, allowlist tools, sandboxing, filtre la iesire si monitoring pe pattern-uri de exfiltrare. Daca patru dintre cele opt straturi cad, raman patru care opresc atacul. La firma de IT Blackbone proiectam aceste lanturi astfel incat fiecare strat sa fie autonom si testabil independent, cu metrici proprii.

Un alt element esential este observabilitatea axata pe securitate. Loguri detaliate pe fiecare apel LLM, cu hash-uri pe continut, scor de risc per request, anomalii pe rate de tool calls, dashboard-uri care evidentiaza spike-uri de erori pe filtre. Combinarea acestor semnale cu alerts pe Slack sau PagerDuty transforma securitatea LLM-urilor dintr-o problema reactiva intr-una proactiva, cu detection in minute, nu in zile.

06Foaia de drum a CTO-ului: cum prioritizezi in urmatoarele 90 de zile

Primele 30 de zile trebuie sa fie despre vizibilitate. Inventariaza toate aplicatiile interne si externe care folosesc LLM-uri, toate tools-urile expuse, toti furnizorii implicati si toate datele care intra in context. Fara acest inventar, orice plan de securitate este ipotetic. Documenteaza si fluxurile cu agenti autonomi, deoarece acestea concentreaza majoritatea riscului in arhitecturile moderne.

Urmatoarele 30 de zile sunt despre quick wins: introducerea unui prompt firewall pentru toate aplicatiile critice, implementarea de allowlist pe tools, configurarea filtrelor la iesire pentru PII si URL-uri suspecte si revizuirea prompturilor de sistem dupa pattern-ul cu delimitatori. Aceste masuri reduc dramatic riscul cu efort moderat si pot fi livrate de echipa de platforma fara dependenta de specialisti externi.

Ultimele 30 de zile sunt pentru maturizare: red teaming intern cu cazuri reale de injection, integrarea metricilor de securitate LLM in dashboard-urile zilnice, pregatirea unui runbook pentru incidente de tip prompt injection si planificarea unui audit extern. Daca produsul vizeaza enterprise, o evaluare de catre o firma de specialitate iti ofera atat raportul tehnic, cat si pretextul comercial pentru a vorbi credibil cu clientii despre AI safety.

→Inventar complet al aplicatiilor cu LLM si al tools-urilor expuse
→Prompt firewall si filtre la iesire pe toate fluxurile critice
→Allowlist tools per rol si sandboxing pe executii cu efect lateral
→Red teaming intern lunar pe cazuri reale de injection
→Audit extern anual aliniat OWASP LLM Top 10 v2

Concluzii

Securitatea aplicatiilor cu LLM nu mai este o discutie academica in 2026, este o competenta operationala care diferentiaza produsele mature de cele expuse. CTO-ul care intelege prompt injection, tool poisoning si exfiltrarea prin tools nu doar reduce riscul, ci capata si avantaj comercial in fata clientilor enterprise care pretind raspunsuri tehnice precise pe aceste teme.

Investitia in guardrails, izolare MCP si prompt firewalling se amortizeaza nu doar prin incidentele evitate, ci si prin viteza cu care echipele pot lansa fluxuri cu agenti autonomi. Cu un cadru solid de aparare, riscul devine controlat, iar inovatia se accelereaza. Aceasta este, in esenta, mizele strategice ale AI safety in urmatorul ciclu de produse.

Pasul următor

Vrei un audit OWASP LLM Top 10 v2 pentru aplicatia ta?

Echipa de securitate Blackbone executa red teaming pe agentii si chat-urile tale, livreaza raport tehnic detaliat si te ghideaza la implementarea guardrails-urilor cu impact maxim. Programam un workshop de doua ore cu CTO-ul tau in urmatoarele zile.

Discută cu Blackbone

Înapoi la blog

Security·cyber security

Prompt injection si AI safety: ghidul CTO-ului in 2026

Echipa AI Lab — Blackbone18 noiembrie 2025 14 min de citit

01Anatomia atacurilor de tip prompt injection in 2026

→Injection direct prin instructiuni vizibile in chat
→Injection indirect prin documente, emailuri sau pagini web
→Tool poisoning prin tools compromise in lant de aprovizionare
→Exfiltrare prin URL-uri si webhooks generate de model
→Obfuscare prin codificari, limbi rare sau caractere zero-width

Regula numarul unu

Tot ce intra in contextul unui LLM este cod executabil potential. Trateaza fiecare token din input ca pe o instructiune posibila, nu ca pe date pasive.

02OWASP LLM Top 10 v2: ce s-a schimbat fata de prima versiune

03Hardening pe promptul de sistem si filtrare la iesire

→Delimitatori XML stricti intre instructiuni si date utilizator
→Lista explicita de comportamente interzise in promptul de sistem
→Filtre la iesire pentru PII, URL-uri si scurgeri de prompt
→Detectie probabilistica plus LLM-as-a-judge pe cazurile ambigue
→Audit log pe toate filtrele, pentru analiza post-incident

04Sandboxing, allowlist tools si izolare MCP

Principiul least privilege

05Prompt firewalling si arhitectura defense in depth

06Foaia de drum a CTO-ului: cum prioritizezi in urmatoarele 90 de zile

→Inventar complet al aplicatiilor cu LLM si al tools-urilor expuse
→Prompt firewall si filtre la iesire pe toate fluxurile critice
→Allowlist tools per rol si sandboxing pe executii cu efect lateral
→Red teaming intern lunar pe cazuri reale de injection
→Audit extern anual aliniat OWASP LLM Top 10 v2

Concluzii

Pasul următor

Vrei un audit OWASP LLM Top 10 v2 pentru aplicatia ta?

Discută cu Blackbone

Prompt injection si AI safety: ghidul CTO-ului in 2026