ChatGPT a examen

Ciudad de México, 19 de septiembre de 2023. Han pasado 10 meses desde el lanzamiento de ChatGPT (noviembre de 2022), Large Language Model (LLM) que vino a sacudir al mundo por el salto tecnológico que supuso, su semejanza con maneras que se consideraban exclusivamente humanas de aprender y producir texto, y su enorme apropiación social.

A lo largo de este periodo han comenzado a surgir investigaciones serias sobre la interacción entre ChatGPT e inteligencia humana. Dichas investigaciones han visibilizado el alcance de las posibilidades y la profundidad de los riesgos de esta tecnología. A continuación, reseño algunos de sus insights y reflexiono en torno a ellos.

Un grupo de investigadores del campus Abu Dhabi de la Universidad de Nueva York publicó recientemente en el sitio web de la prestigiosa revista Nature un estudio en el cual compara el desempeño de ChatGPT con el de estudiantes de cursos universitarios de ocho disciplinas: ciencia política, ciencias de la computación, economía, ingenierías, investigación social y política pública, matemáticas, organizaciones empresariales y sociedad, y psicología.

De acuerdo con los resultados, los estudiantes tuvieron sistemáticamente mejor desempeño que ChatGPT en economía y matemáticas, pero en el resto de las disciplinas los resultados fueron mixtos. Resulta llamativo que, frente a los humanos, el chat muestra limitaciones matemáticas importantes, aunque fortalezas en lógica simbólica, como la que se requiere para programar mediante código.

En materias como biopsicología, gestión y organizaciones, e introducción a política pública ChatGPT le lleva amplia ventaja a los humanos. El chat también muestra fortalezas en la materia de cambio climático, lo cual es una noticia esperanzadora ante las insuficiencias de la inteligencia humana para lidiar con este problema y sus repercusiones.

De acuerdo con la misma investigación, en la medida en que una pregunta requiere conocimiento más complejo -conocimiento conceptual, por ejemplo-, se desempeñan mejor los humanos. En procesos cognitivamente más demandantes, como analizar o aplicar conocimiento general a casos concretos, también los estudiantes aventajan. En contraste, si lo que se requiere son datos “crudos”, es decir, conocimiento fáctico, la herramienta es más eficaz (no debe pasarse por alto que fue entrenada con muy buena parte del contenido público de Internet).

Ante el sobresaliente desempeño del chat en conocimiento fáctico y lógica, se ha vuelto tentador usar ChatGPT o sus similares (Bard, Claude, etcétera) para producir respuestas automatizadamente haciéndolas pasar por propias, en lo que comúnmente se conoce como plagio. Ante faltas éticas de este tipo, ¿qué tan fácil es distinguir entre texto humano y texto de IA?

Para un artículo que se publicará en diciembre próximo, Casal y Kessler reclutaron a acaso los individuos más capacitados para distinguir entre texto humano y artificial: editores de las mejores revistas del mundo en lingüística aplicada, 72 de ellos. Impresionantemente, sólo fueron exitosos clasificando entre texto humano y artificial en 39 por ciento de los casos. Más delicado aún, hay evidencia que muestra que el software desarrollado para identificar texto de IA generativa puede ser fácilmente “confundido” si se le dan a ChatGPT las instrucciones o prompts indicados.

Las universidades, escuelas, empresas, gobiernos, medios y otras organizaciones requieren de políticas que prevengan y sancionen el hacer pasar contenido artificial como propio -subsiste la dificultad para identificarlo-. En paralelo, debe haber directrices que motiven y premien el uso de estas herramientas como complemento a las tareas humanas, dándole a las herramientas el crédito debido. Se trata de quedarnos con lo bueno y ponerle límites a lo malo. Y, en efecto, es posible.

*El autor, Germán Petersen Cortés, es director de Polydata, consultoría en analítica de datos. Colaboró Citlalli Pérez Patiño.

Texto y foto: Agencia Reforma