OpenAI ha creado un método de marca de agua de texto para detectar contenido escrito en ChatGPT

OpenAI ya ha creado y probado una herramienta para detectar si se ha creado algún contenido escrito utilizando ChatGPT. Sin embargo, el Wall Street Journal informa que la empresa está reteniendo la herramienta para su lanzamiento público debido a varias preocupaciones.

La herramienta agrega un patrón a la forma en que el modelo de lenguaje grande (LLM) escribe su salida, lo que permite a OpenAI detectar si ChatGPT lo creó. Sin embargo, el patrón permanece imperceptible para los humanos, por lo que no afecta la calidad del LLM. La documentación interna dice que la herramienta tiene una eficacia del 99,9 % en la detección de la salida de ChatGPT, pero OpenAI aún no la ha publicado.

Si bien la marca de agua de texto es muy eficaz para detectar contenido escrito por ChatGPT, no funciona con el resultado de otros LLM como Gemini AI o Llama 3. Además, esta técnica se puede eludir fácilmente. Por ejemplo, puede insertar el resultado de ChatGPT en Google Translate, convertirlo a otro idioma y luego volverlo a inglés, eliminando así la marca de agua de manera efectiva.

Incluso podría ser tan simple como pedirle a la IA que inserte un carácter único, un emoji o incluso una frase corta entre palabras y luego eliminarlas más tarde (a través de la función Buscar y reemplazar de Microsoft Word, por ejemplo) o pedirle a otro LLM que reformule toda la salida por completo, lo que es suficiente para romper la herramienta de detección.

Otro punto de discordia que tiene OpenAI sobre el lanzamiento de la herramienta es que dice que podría estar sesgada contra los escritores que no son angloparlantes. La compañía lanzó anteriormente una herramienta de detección de texto con inteligencia artificial generativa el año pasado. Aun así, solo pasaron siete meses antes de que OpenAI la desconectara debido a su baja tasa de detección y su propensión a generar falsos positivos. Incluso ha llevado al punto de que un profesor una vez reprobó una clase entera porque todos los trabajos presentados estaban marcados incorrectamente como generados por IA.

Además, OpenAI también tiene en cuenta su base de clientes: las encuestas a clientes muestran que el 69% de los usuarios de ChatGPT creen que la herramienta daría lugar a falsas acusaciones de engaño por parte de la IA. El 30% incluso dijo que probablemente cambiaría a un LLM rival si OpenAI implementara la herramienta. La empresa se enfrenta a otro problema con la amplia implementación del detector ChatGPT, ya que otros usuarios podrían aplicar ingeniería inversa a la técnica de marca de agua de OpenAI y lanzar un complemento o una aplicación para neutralizarla.

Sin embargo, OpenAI entiende el riesgo que supone para la sociedad el contenido generado por IA y ha estado buscando alternativas a la técnica de las marcas de agua en el texto. También existe una demanda de un detector de IA, y los datos internos muestran que el 80 % de las personas a las que se les preguntó en todo el mundo apoyan su existencia.

Todavía no se sabe si OpenAI lanzará su herramienta de marca de agua y detector de texto. Sin embargo, también entiende que, como una de las organizaciones líderes en el desarrollo de IA, también debe tomar medidas para garantizar el uso responsable de sus herramientas. Las fuentes dicen que OpenAI tiene hasta este otoño para influir en la opinión pública sobre la transparencia de la IA. No sabemos qué significa esto, pero hay una cosa de la que estamos seguros: debemos ser críticos con lo que leemos y asegurarnos de que estamos recibiendo la verdad.