¿Qué es el prompt injection attack?

#machinelearning #spanish

La parte de la seguridad en los algoritmos de aprendizaje computacional es una zona realmente inexplorada, algunos de los ataques que he revisado y que hasta el momento no se tiene una solución real son los siguientes (1 de 2):

Prompt Injection Attack

En este año unos investigadores se dieron a tarea de hacer que el Large Language Model (LLM) de Bing se comportará como un estafador. Las instrucciones ocultas en una página web que crearon los investigadores le decían al chatbot que le pidiera a la persona que lo usaba que le entregara los detalles de su cuenta bancaria. Y esto es solo el comienzo. De acuerdo al articulo de la revista Wired este tipo de ataques son relativamente sencillos de realizar y que hasta este momento las grandes empresas como lo son OpenAI, Microsoft, Google, etc. no han podido determinar una forma eficiente de solucioanar este problema.

Los ataques se pueden dividir en dos categorías: los directos y los indirectos, en cuanto a los primeros es un hecho que con algunos tipos de instrucciones se puede hacer que el LLM se comporte de una cierta manera, dando como resultado respuestas con discursos de odio o respuestas dañinas.

En cuanto a los ataques indirectos son mucho mas delicados y llevan las cosas al siguiente nivel. En lugar de que el usuario ingrese un mensaje malicioso, la instrucción proviene de un tercero. Un sitio web que el LLM pueda leer, o un PDF que se esté analizando, podría, por ejemplo, contener instrucciones ocultas que el sistema de inteligencia artificial debe seguir.

Esto quiere decir que si alguien o algo puede ingresar datos al LLM este puede modificar considerablemente la respuesta. Los investigadores han podido manipular al LLM para robar datos, modificar respuestas e incluso correr código para controlar la maquina del usuario de manera remota. Las grandes empresas están haciendo todo lo posible para mitigar este tipo de riesgos pero aún estamos en una etapa muy temprana para decir que estamos en control de este tipo de tecnología que ha llegado para quedarse.

Links:
https://greshake.github.io
https://wired.com/story/generative-ai-prompt-injection-hacking/

DEV Community

¿Qué es el prompt injection attack?

Top comments (0)

Read next

ChatGPT vs Microsoft Copilot vs Claude AI: A Detailed Comparison of AI Tools for 2024

Types of Machine Learning you must know!

LLMs - Behind the Scenes

Online Machine Learning