Detectores de IA acusan falsamente a estudiantes de hacer trampa, con graves consecuencias

Aproximadamente dos tercios de los docentes afirman que utilizan regularmente herramientas para detectar contenido generado por IA. En esa escala, incluso los índices de error más pequeños pueden acumularse rápidamente.
Por Jackie Davalos y Leon Yin publicado por Bloomberg

Traducido por Diego F. Craig

Después de tomarse un tiempo libre de la universidad a principios de la pandemia para formar una familia, Moira Olmsted estaba ansiosa por volver a la escuela. Durante meses, hizo malabarismos con un trabajo de tiempo completo y un niño pequeño para ahorrar para un programa a su propio ritmo que le permitiera aprender de forma remota. Con siete meses de embarazo de su segundo hijo, Olmsted se inscribió en cursos en línea en la Universidad Metodista Central en 2023, estudiando para convertirse en maestra.

Apenas unas semanas después de que comenzara el semestre de otoño, Olmsted presentó una tarea escrita en una clase obligatoria: uno de los tres resúmenes de lectura que tenía que hacer cada semana. Poco después, recibió su calificación: cero. Cuando se acercó a su profesor, Olmsted dijo que le dijeron que una herramienta de detección de IA había determinado que su trabajo probablemente había sido generado por inteligencia artificial. De hecho, dijo el profesor, su escrito había sido marcado al menos una vez antes.

Para Olmsted, que ahora tiene 24 años, la acusación fue un “puñetazo en el estómago”. También fue una amenaza para su posición en la universidad. “Es como decir, Dios mío, esto es lo que nos funciona ahora, y me lo podrían quitar por algo que no hice”, afirma.

Cuando la IA detecta falsamente a los estudiantes que hacen trampa

Olmsted negó la acusación ante su profesora y un coordinador de estudiantes, subrayando que tiene un trastorno del espectro autista y que escribe de una manera que podría ser considerada erróneamente como generada por inteligencia artificial, según los correos electrónicos vistos por Bloomberg Businessweek . La calificación finalmente fue cambiada, pero no antes de que recibiera una advertencia estricta: si su trabajo era marcado nuevamente, la profesora lo trataría de la misma manera que lo haría con el plagio

Desde que ChatGPT de OpenAI introdujo la IA generativa al uso generalizado hace casi dos años, las escuelas se han apresurado a adaptarse a un panorama cambiante. Los educadores ahora dependen de una creciente cantidad de herramientas de detección para ayudar a detectar oraciones, párrafos o tareas completas generadas por inteligencia artificial. Alrededor de dos tercios de los maestros informan que usan un verificador de IA con regularidad, según una encuesta a más de 450 instructores publicada en marzo por el Centro para la Democracia y la Tecnología.

Los mejores detectores de escritura de IA son muy precisos, pero no son infalibles. Businessweek probó dos de los principales servicios ( GPTZero y Copyleaks ) en una muestra aleatoria de 500 ensayos de solicitud de ingreso a la universidad enviados a la Universidad Texas A&M en el verano de 2022, poco antes del lanzamiento de ChatGPT, lo que garantizó de manera efectiva que no fueron generados por IA. Los ensayos se obtuvieron a través de una solicitud de registros públicos, lo que significa que no formaban parte de los conjuntos de datos con los que se entrenan las herramientas de IA. Businessweek descubrió que los servicios marcaban falsamente entre el 1% y el 2% de los ensayos como probablemente escritos por IA, y en algunos casos afirmaban tener una certeza cercana al 100%.

Incluso una tasa de error tan pequeña puede acumularse rápidamente, dada la gran cantidad de tareas que los estudiantes deben entregar cada año, con consecuencias potencialmente devastadoras para los estudiantes que son señalados falsamente. Al igual que con las acusaciones más tradicionales de trampa y plagio, los estudiantes que usan inteligencia artificial para hacer sus tareas tienen que rehacer las tareas y enfrentan calificaciones reprobatorias y libertad condicional.

Los detectores de IA pueden marcar erróneamente ensayos como probablemente escritos por IA

Las pruebas de Bloomberg utilizando dos detectores de IA líderes en una muestra de 500 ensayos escritos antes del lanzamiento de ChatGPT mostraron que los servicios marcaron falsamente entre el 1% y el 2% de los ensayos como probablemente escritos por IA.

Los estudiantes más susceptibles a acusaciones inexactas son probablemente aquellos que escriben de una manera más genérica, ya sea porque son neurodivergentes como Olmsted, hablan inglés como segunda lengua (ESL) o simplemente aprendieron a usar un vocabulario más sencillo y un estilo mecánico, según estudiantes, académicos y desarrolladores de IA. Un estudio de 2023 realizado por investigadores de la Universidad de Stanford descubrió que los detectores de IA eran «casi perfectos» al revisar ensayos escritos por estudiantes de octavo grado nacidos en Estados Unidos, pero marcaron más de la mitad de los ensayos escritos por estudiantes no nativos de inglés como generados por IA. OpenAI dijo recientemente que se ha abstenido de lanzar una herramienta de detección de escritura de IA en parte por preocupaciones de que pudiera afectar negativamente a ciertos grupos, incluidos los estudiantes de ESL.

Businessweek también descubrió que los servicios de detección de IA a veces pueden ser engañados por herramientas automatizadas diseñadas para hacer pasar la escritura de IA como humana. Esto podría conducir a una carrera armamentista que enfrenta una tecnología contra otra, dañando la confianza entre educadores y estudiantes con poco beneficio educativo.

Turnitin , una popular herramienta de detección de IA que, según Olmsted, se utilizó para verificar su trabajo, ha dicho que tiene una tasa de falsos positivos del 4 % al analizar oraciones. Turnitin se negó a poner su servicio a disposición para realizar pruebas. En una publicación de blog de 2023, la Universidad de Vanderbilt, una de las varias escuelas importantes que desactivó el servicio de detección de IA de Turnitin por preocupaciones sobre la precisión, señaló que, de lo contrario, cientos de trabajos de estudiantes habrían sido marcados incorrectamente durante el año académico como parcialmente escritos por IA.

Ken Sahib, un estudiante multilingüe que pasó la mayor parte de su infancia en Italia, dice que fue “abrumador” cuando recibió un cero en una tarea que resumía una lectura para su curso de Introducción a la Red en Berkeley College en Nueva York. Cuando Sahib le preguntó al respecto, el profesor dijo: “Todas las herramientas que probé produjeron el mismo resultado: esas respuestas fueron generadas por IA”, según los correos electrónicos vistos por Businessweek . “Sabes lo que estás haciendo”.

Sahib dice que al final aprobó la asignatura, pero el incidente rompió su relación con su profesor. “Después de eso, apenas hablamos”, dice. El profesor no respondió a las solicitudes de comentarios.

Si bien algunos educadores se han alejado de los detectores de IA y han tratado de adaptar sus planes de estudio para incorporar la IA en su lugar, muchas universidades y escuelas secundarias aún utilizan estas herramientas. Las empresas emergentes de detección de IA han atraído alrededor de 28 millones de dólares en financiación desde 2019, según la empresa de datos de inversión PitchBook, y la mayoría de esos acuerdos se produjeron después del lanzamiento de ChatGPT. Las empresas emergentes de detección de deepfake, que pueden verificar texto, imágenes, audio y video generados por IA, recaudaron más de 300 millones de dólares en 2023, frente a los 65 millones de dólares del año anterior, según descubrió PitchBook.

El resultado es que las aulas siguen plagadas de ansiedad y paranoia ante la posibilidad de acusaciones falsas, según entrevistas con una docena de estudiantes y 11 profesores en todo Estados Unidos. Los estudiantes universitarios ahora realizan una amplia gama de esfuerzos que consumen mucho tiempo para defender la integridad de su trabajo, un proceso que, según afirman, disminuye la experiencia de aprendizaje. Algunos también temen utilizar servicios comunes de asistencia para la redacción con inteligencia artificial y correctores gramaticales que se comercializan específicamente para estudiantes, citando preocupaciones de que activen los detectores de inteligencia artificial.

Eric Wang, vicepresidente de inteligencia artificial de Turnitin, afirma que la empresa “sobremuestrea” intencionalmente a los grupos subrepresentados en su conjunto de datos. Afirma que las pruebas internas han demostrado que el modelo de Turnitin no acusa falsamente a los estudiantes de inglés como segundo idioma y que su tasa general de falsos positivos para documentos completos es inferior al 1 % y mejora con cada nueva versión. Turnitin no se entrena específicamente con datos de estudiantes neurodivergentes ni tiene acceso a los historiales médicos para evaluar esa clasificación.

Alon Yamin, cofundador y director ejecutivo de Copyleaks, afirma que su tecnología tiene una precisión del 99 %. “Le estamos dejando muy en claro a las instituciones académicas que nada es 100 % seguro y que debería usarse para identificar tendencias en el trabajo de los estudiantes”, afirma. “Es como una señal de alerta que pueden analizar y usar como una oportunidad para hablar con los estudiantes”.

“Todo detector de IA tiene puntos ciegos”, afirma Edward Tian, fundador y director ejecutivo de GPTZero. Tian afirma que su empresa ha avanzado en la eliminación de sesgos en los resultados, en particular para los estudiantes de inglés como segundo idioma, y ha tomado medidas para indicar con mayor claridad el nivel de incertidumbre en la evaluación de trabajos escritos para profesores que realiza su herramienta.

Tian creó GPTZero a principios de 2023. Su startup tenía 4 millones de usuarios en julio, frente al millón de hace un año, y recientemente recaudó 10 millones de dólares de inversores, incluido Jack Altman , hermano del director ejecutivo de OpenAI. “El semestre pasado fue el semestre más activo”, dice Tian. “Esto demuestra que este problema no va a desaparecer, pero ha cambiado. Hace un año, la pregunta más común que se hacía la gente era: ¿Es esto IA?”. Ahora, dice, los profesores saben que la IA está en sus aulas. La pregunta es: “¿Cómo se enfrenta a ella?”.

Cuantificar el uso de la IA en las escuelas es un desafío. En una prueba, Businessweek analizó un conjunto separado de 305 ensayos enviados a Texas A&M en el verano de 2023, después del lanzamiento de ChatGPT, y descubrió que los mismos detectores de IA señalaron que aproximadamente el 9 % de ellos fueron generados por inteligencia artificial.

Empresas emergentes de detección de IA

Fuente: PitchBook

Nota: Turnitin es una subsidiaria de Advance Publications

Los detectores de escritura de IA suelen analizar la perplejidad, una medida de la complejidad de las palabras en un trabajo determinado. “Si las elecciones de palabras tienden a ser más genéricas y formulaicas, ese trabajo tiene más probabilidades de ser detectado por los detectores de IA”, afirma James Zou, profesor de ciencia de datos biomédicos en la Universidad de Stanford y autor principal del estudio de Stanford sobre estudiantes de inglés como segundo idioma.

Por ejemplo, el servicio de detección de IA QuillBot señala que “es probable que el contenido generado por IA contenga palabras repetitivas, frases extrañas y un flujo poco natural y entrecortado”. GPTZero también tiene en cuenta un criterio que denomina “ perplejidad ”, que mide cuánto varía la perplejidad a lo largo de un documento escrito. A diferencia de la IA, “las personas tienden a variar mucho la construcción de oraciones y la dicción a lo largo de un documento”, según la empresa.

Las empresas de detección de inteligencia artificial subrayan que sus servicios no deben ser tratados como juez, jurado y verdugo, sino más bien como un punto de datos para ayudar a informar y guiar a los docentes.

Según Yamin, la mayoría de las escuelas que trabajan con Copyleaks ahora dan acceso al servicio a los estudiantes “para que puedan autenticarse” y ver sus propias puntuaciones de IA. Turnitin, por su parte, está trabajando para ampliar su cartera de productos de IA con un servicio que ayude a los estudiantes a mostrar el proceso de elaboración de sus tareas escritas, en respuesta a los comentarios de profesores y alumnos.

“Los estudiantes dicen: ‘Quiero poder demostrar que este es mi trabajo y quiero sentirme segura de que no habrá dudas al respecto’”, afirma Annie Chechitelli, directora de productos de Turnitin. “Y los profesores dicen: ‘Necesito más datos que me ayuden a entender cómo se le ocurrió esto al estudiante’”.

Después de que su trabajo fuera denunciado, Olmsted dice que se obsesionó con evitar otra acusación. Se grabó la pantalla de su computadora portátil mientras hacía tareas de escritura. Trabajó en Google Docs para rastrear sus cambios y crear un registro digital. Incluso intentó modificar su vocabulario y sintaxis. “Estoy muy nerviosa de llegar tan lejos y encontrarme con otra acusación de IA”, dice Olmsted, quien está a punto de graduarse en la primavera. “Tengo mucho que perder”.

Nathan Mendoza, estudiante de tercer año de ingeniería química en la Universidad de California en San Diego, utiliza GPTZero para preseleccionar su trabajo. Dice que la mayor parte del tiempo que le lleva completar una tarea ahora lo pasa ajustando la redacción para que no lo marquen falsamente, de maneras que, según él, hacen que el texto suene peor. Otros estudiantes han acelerado ese proceso recurriendo a un conjunto de los llamados servicios de humanización de IA que pueden reescribir automáticamente los trabajos para pasar los detectores de IA.

“AI Humanizer” edita un ensayo escrito por humanos para evitar la detección por IA

Una prueba de Bloomberg de un servicio llamado Hix Bypass descubrió que un ensayo escrito por humanos que GPTZero afirmó incorrectamente que tenía un 98,1 % de inteligencia artificial bajó drásticamente al 5,3 % después de ser alterado por el servicio.

El miedo a ser detectados por detectores de IA también ha obligado a los estudiantes a repensar el uso de las populares herramientas de asistencia para la escritura en línea. Grammarly , una startup valorada en 13 mil millones de dólares en 2021, ayuda a los estudiantes con todo, desde correcciones ortográficas básicas hasta sugerencias de estructura. Pero también se ha ampliado con opciones para reescribir un envío completo de forma automática para cumplir con ciertos criterios, ampliando los límites de lo que los profesores pueden considerar aceptable.

Bloomberg descubrió que usar Grammarly para “mejorar” un ensayo o “hacerlo parecer académico” convertirá un trabajo que parecía 100 % escrito por humanos en 100 % escrito por IA. Sin embargo, el corrector ortográfico y las sugerencias gramaticales de Grammarly tienen solo un impacto marginal en hacer que los documentos parezcan más escritos por IA.

Kaitlyn Abellar, estudiante de Florida SouthWestern State College, dice que ha desinstalado complementos para programas como Grammarly de su computadora. Marley Stevens, estudiante de la Universidad de North Georgia, publicó un video viral en TikTok el año pasado sobre su experiencia al ser penalizada después de que Turnitin marcara su ensayo como generado por IA. Stevens dijo que la pusieron en libertad condicional académica durante un año después de que una audiencia disciplinaria determinara que había hecho trampa. Insistió en que escribió la tarea ella misma, utilizando solo las funciones estándar de corrección ortográfica y gramática de Grammarly.

“Se trataba de un estudiante bien intencionado que había estado usando Grammarly de forma responsable y una tecnología de terceros le advirtió que había actuado mal. No podemos evitar el modo en que funciona Turnitin, ya que entienden que tienen falsas alertas”, afirma Jenny Maxwell, directora de Grammarly para educación. El incidente llevó a Grammarly a desarrollar una herramienta de detección para estudiantes que identifica si el texto fue escrito a máquina, pegado desde una fuente diferente o escrito por un modelo de IA. “Es casi como una póliza de seguro”, afirma Maxwell.

Para algunos educadores y estudiantes, el sistema actual parece insostenible debido a la tensión que genera en ambos lados del escritorio del docente y porque la IA llegó para quedarse.

“La inteligencia artificial va a ser parte del futuro, nos guste o no”, afirma Adam Lloyd, profesor de inglés en la Universidad de Maryland. “Considerar la IA como algo que debemos mantener fuera del aula o que los estudiantes no deben usar es un error”.

En lugar de utilizar Turnitin, que está disponible para los profesores de su escuela, Lloyd prefiere seguir su intuición. “Conozco los textos de mis alumnos y, si tengo alguna sospecha, mantengo una conversación abierta”, dice, “no los acuso automáticamente”.

Detectores de IA acusan falsamente a estudiantes de hacer trampa, con graves consecuencias

Cuando la IA detecta falsamente a los estudiantes que hacen trampa

Los detectores de IA pueden marcar erróneamente ensayos como probablemente escritos por IA

Empresas emergentes de detección de IA

“AI Humanizer” edita un ensayo escrito por humanos para evitar la detección por IA

Entradas recientes

Comentarios recientes

Archivos

Categorías

Meta