Universitat Oberta de Catalunya

Nadie escribiendo y nadie leyendo: los generadores de texto con inteligencia artificial y la ciencia que queremos

Desde su introducción masiva a finales de 2022, los generadores de texto con inteligencia artificial (IA) –llamados Large Language Models (LLM)– como ChatGPT y versiones posteriores como GPT-4 no dejan de acaparar interés en los medios. Estos sistemas son capaces de generar textos, resúmenes, traducciones y transcripciones de audios. Su capacidad de redacción sería tan avanzada que estos sistemas son capaces de generar abstracts tan coherentes que ni siquiera los propios especialistas son capaces de detectar que han sido escritos por una máquina. Sus usos aplicados están a la orden del día; se ha sugerido, por ejemplo, que podrían servir para predecir las primeras fases de la enfermedad de Alzheimer. Sin embargo, también se ha insistido mucho en que estos sistemas carecen de capacidad real de comprender los textos que procesan (que «leen» o «escriben»). Por esta razón, se los ha caracterizado como «loros estocásticos». También se ha hecho hincapié en otros problemas tales como la falta de transparencia en los datos de entrenamiento, privacidad, los sesgos, o las llamadas «alucinaciones» y falsedades que producen.

Si bien el interés es real, hoy por hoy no puede afirmarse con certeza que el uso de esta tecnología esté implementada en procesos de trabajo formalizados ni que se haya generalizado más allá del uso experimental, el chafardeo lúdico o la satisfacción de la curiosidad. Esta es, sin duda, una cuestión que merece ser dilucidada mediante estudios empíricos serios.

Generadores de texto con IA como asistentes

En este artículo dejaremos de lado los aspectos técnicos y nos concentraremos en algunos aspectos epistemológicos y filosóficos generales relacionados con la automatización de procesos clave de lectura y redacción en el ámbito académico. Dada la extensión de este artículo y sin buscar ser exhaustivos, nos limitaremos a una cuestión bastante específica: el uso de LLM para la automatización del proceso de investigación y revisión bibliográfica que suele preceder a toda investigación académica.

Tomemos como ejemplo el caso de Elicit, una de estas herramientas que busca optimizar flujos de investigación académica. En su web, la empresa desarrolladora la describe de la manera siguiente:

“Elicit es un asistente de investigación que utiliza modelos de lenguaje como GPT-3 para automatizar partes de los flujos de trabajo de los investigadores. Actualmente, el flujo de trabajo principal en Elicit es la revisión de literatura. Si realizas una pregunta, Elicit mostrará documentos relevantes y resúmenes de información clave sobre esos documentos en una tabla fácil de usar.”

Según los creadores de Elicit, a partir de una pregunta del usuario, el sistema encuentra los 400 artículos «semánticamente» más relacionados con la pregunta, los ordena y devuelve como resultado la información clave más importante de los ocho artículos más relevantes (outcome measured, intervention y sample size).

En todos los ámbitos académicos y científico-técnicos, la investigación bibliográfica del estado de la cuestión suele preceder cualquier investigación. Es un instrumento que usamos para saber qué se ha dicho sobre un tema, qué otras visiones o teorías existen, qué huecos quedan por cubrir, etc., y que sirve, en resumen, para establecer los fundamentos de nuestra propia investigación.

Pero ¿es la investigación bibliográfica un mero instrumento que podemos optimizar mediante una herramienta como Elicit?

Para responder esta pregunta, debemos tratar primero una cuestión preliminar de carácter más general y relacionada con la manera de hacer ciencia, que es lo que comentaremos a continuación.

Ciencia intensiva y ciencia extensiva

Para abordar la cuestión, y esperemos que sin simplificar demasiado, podemos hacer un paralelo con la agricultura y ganadería (1) y distinguir entre ciencia «intensiva» y «extensiva».

La ciencia intensiva es una ciencia que es «exitosa» en términos de resultados cuantitativos, entendidos como la publicación masiva de papers y la maximización de todas las dimensiones de la puntuación evaluables por las agencias de calidad científica. La práctica intensiva permite al personal investigador sobrevivir y promocionar. Además, es un modelo de especialización vertical y, siguiendo con el paralelo de la agricultura, de monocultivo. En resumen, la ciencia intensiva busca obtener el máximo rendimiento posible del tiempo y demás recursos de los que se dispone con el fin de maximizar beneficios tangibles a costa de otros aspectos menos tangibles o directamente intangibles.

La práctica de la ciencia intensiva es habitual en IA, donde, por ejemplo, existen multitud de artículos sobre sistemas que se presentan como capaces de «detectar emociones», aunque estos sistemas sean en realidad incapaces de detectar emociones en el sentido estricto. Sin embargo, para cumplir con los imperativos de la maquinaria productiva de la tecnociencia (2) intensiva, la enorme complejidad de las emociones humanas es reducida a aquello que se puede medir con un sistema con IA, aunque para ello haga falta establecer falsas categorías universales y eliminar del modelo algorítmico toda referencia a la corporalidad, al contexto y a la cultura.

Entonces, si el principal interés como investigador es «producir» un artículo para tener citas y mejorar la puntuación en los indicadores de «calidad» académica, aunque el artículo no aporte mucho que sea intrínsecamente valioso, probablemente la investigación bibliográfica previa no sea más que un instrumento y no un fin en sí mismo. Se buscará recopilar artículos y catalogarlos, leyendo como mucho las palabras clave, el título y el abstract, aumentando así la productividad.

¿Es esto automatizable?

Sí, y en este sentido, herramientas como Elicit, salvando dificultades técnicas que posiblemente mejorarán en el futuro, pueden servir para este tipo de ciencia intensiva, que es reduccionista y centrada en la obtención de soluciones, y cuyo propósito principal es maximizar la producción de artículos.

Si hacemos una prueba con Elicit (ver figura 1), el programa nos presenta como evidencias revistas de ciencias de la computación, pero no nos ofrece resultados acerca de las teorías de la emoción de áreas de psicología, que enseguida situaría el reduccionismo de los sistemas de reconocimiento de emociones mediante IA como desfasado en el mejor de los casos. Pero esto no importa para el modelo de ciencia intensiva, en el que los grupos de investigación se especializan en el monocultivo de artículos y para los cuales la interdisciplinariedad puede suponer una amenaza para el sentido de su tarea.(3)

figura 1
Figura 1. Ejemplo de uso de Elicit: ¿puede la IA detectar emociones? Fuente: captura de pantalla realizada por los autores.

Ahora bien, si por el contrario nos mueve la ciencia extensiva y de verdad estamos interesados en detectar emociones, si de veras queremos entender en profundidad la complejidad de la cuestión, empezando por la propia multidimensionalidad del concepto y no quedarnos en simplificaciones banales, herramientas como Elicit nos servirán mucho menos. En el mejor de los casos, Elicit nos servirá como herramienta de ayuda parcial en una tarea más abarcadora y rica.

Tenemos así otra respuesta para la pregunta planteada anteriormente. En un marco de ciencia extensiva, la respuesta es no: la investigación bibliográfica no es un mero instrumento que se pueda y deba automatizar. Aristóteles decía que la práctica de la medicina no consiste en cortar o no cortar, o en prescribir un remedio, sino en hacerlo de una manera determinada. Lo mismo podemos decir de la investigación bibliográfica; no se trata solo de obtener un resultado, unas páginas de texto con referencias a otros artículos, sino de obtenerlo de una manera determinada.

En suma, tenemos dos respuestas preliminares: para la ciencia intensiva, la investigación bibliográfica sí es automatizable, mientras que para la ciencia extensiva solo lo es parcialmente. Este punto requiere un tratamiento en mayor profundidad, y es lo que ofreceremos a continuación.

Fines intrínsecos y fines instrumentales

En filosofía suele hacerse la distinción entre dos tipos de valores (o fines): los intrínsecos y los instrumentales. Los intrínsecos se refieren a todas aquellas cosas que son valiosas por sí mismas, por ejemplo, la amistad, la salud, la diversión o la justicia. Los instrumentales se refieren a aquellas cosas cuyo valor depende de su relación con algo valioso, ya sea para obtenerlo o para preservarlo. Y es en este sentido que los valores instrumentales también son importantes.

Por ejemplo, un taladro no tiene valor intrínseco, sino que sirve para hacer agujeros en la pared para colgar cuadros y disfrutar de ellos. Por otro lado, el placer estético producto de la contemplación de dichos cuadros, sí que tiene un valor intrínseco. Ciertamente, poco sentido le encontraríamos a la pregunta acerca de para qué querríamos obtener placer estético, puesto que es algo que es deseable por sí mismo.

En algunas situaciones, una misma cosa puede aglutinar ambos tipos de valores, es decir, puede servir para algo y, a la vez, tener valor en sí misma. Pensemos en la amistad. Un amigo o amiga puede ayudarnos a conseguir un trabajo mejor o con una mudanza. A la vez, la amistad tiene valor en sí misma, y el valor de tener amigos y amigas no depende de que un amigo nos sirva para algo. Si comparamos el valor de la amistad con el taladro comentado anteriormente, la diferencia es evidente: un taladro cualquiera tiene poco o ningún valor más allá de servirnos para hacer agujeros en la pared o la madera.

El caso de las matemáticas puede servirnos para ilustrar esta diferencia en mayor profundidad. Las matemáticas se suelen dividir en puras y aplicadas. La primera incluye ámbitos como el álgebra, la geometría o el análisis matemático. De las personas que se dedican a las matemáticas puras se dice que tienen un interés in se, y que la realizan per se: en sí misma y por sí misma, no como un medio para algo. Es decir que alguien que investiga «grupos finitos» lo hace con un interés intrínseco, por ejemplo abstraer propiedades relevantes, con independencia de que estos descubrimientos sirvan o no para alguna aplicación práctica posterior. Naturalmente, es perfectamente posible que algún descubrimiento o teoría, por más abstracta que sea, pueda eventualmente servir para algo. Lo central aquí, sin embargo, es la modalidad en la que se aborda el estudio, que no depende de un para algo posterior. Contrariamente, en las matemáticas aplicadas sí encontramos este para algo. Por ejemplo, en el área de las matemáticas industriales, el foco está en la resolución de problemas de interés industrial, tales como optimizar la eficiencia energética en edificios mediante simulación numérica.

Esta diferencia entre matemáticas puras y aplicadas es una idealización, y lo que encontramos en la práctica es que, también en las matemáticas aplicadas, matemáticos y matemáticas están interesadas en la práctica de la matemática como un fin en sí mismo.(4) La resolución de un problema relacionado con un sistema geotérmico de calefacción bien puede tener una aplicación práctica, pero la propia tarea de resolución del problema y la actividad intelectual requerida para manipular ideas complejas, realizar abstracciones y formalizar soluciones son, en sí mismas, algo que vale la pena hacer y que le da sentido a las matemáticas como profesión.

El valor intrínseco de la investigación bibliográfica

Ahora que hemos aclarado la diferencia entre los fines intrínsecos y los instrumentales, volvamos a la investigación bibliográfica. La realización de una investigación bibliográfica excede la dimensión instrumental, ya que nos ayuda a adquirir y complementar un vocabulario con el cual desarrollar nuestras propias ideas, aumentando así nuestra capacidad de pensamiento crítico y creatividad, que es algo con valor intrínseco. Por encima de todo, una buena investigación bibliográfica sitúa nuestro trabajo dentro de un espacio de diálogo continuo con nuestros pares y quienes nos precedieron. A su vez, nos permite encontrar referentes y posicionarnos dentro de una corriente académica, lo cual puede tener y tiene efecto en nuestra identidad y en los valores y creencias que adoptamos como individuos. En otras palabras, si bien algunos aspectos de la investigación bibliográfica son instrumentales (es decir, que sirven para algo), existen muchos otros que tienen una importancia que es independiente de su aplicación o utilidad práctica inmediata, sino que son intrínsecos a la práctica de la ciencia en su modalidad extensiva.

Al igual que ocurre con la matemática aplicada, que nunca es meramente instrumental, vemos que algo aparentemente modesto como la investigación bibliográfica también está conectado profundamente con las dos clases de valores: sirve para algo y tiene, a la vez, valor en sí mismo.

A partir de esta constatación, podemos hacernos una serie de preguntas: ¿deberíamos automatizar estas tareas conectadas con lo más profundo de nuestra profesión y que incluso le dan sentido y la constituyen?

La respuesta no depende de que estos sistemas de asistencia a la investigación funcionen bien o no. Según nuestra experiencia, Elicit en su versión actual no ofrece mejores resultados que los de Google Scholar, pero este no es un aspecto central porque la calidad de estos resultados puede mejorar en el futuro. Aquí, la cuestión importante radica en la propia práctica académico-científica. ¿Qué ocurre con sus valores y fines intrínsecos cuando se automatizan? ¿Qué pasa con el significado y sentido de estas prácticas humanas cuando los valores instrumentales desplazan y erosionan actitudes, normas y actividades con valor intrínseco? Recordemos que, al llevar a cabo una investigación bibliográfica, uno aprende y da forma a sus pensamientos, se autocuestiona, y entabla un diálogo de acuerdos y disputas con quienes nos precedieron, consolida habilidades y desarrolla otras nuevas.

Podemos ir más lejos. ¿Qué pasa cuando los valores intrínsecos que se obtienen en una investigación bibliográfica son reemplazados por una respuesta proveniente de una especie de oráculo y no de quienes componen la práctica? Imaginemos el mejor escenario posible: una respuesta sin errores, sin contenido inventado («alucinaciones»), compilado a partir de fuentes actuales y con reputación. Supongamos entonces que, en el mejor de los casos, mediante estos sistemas podamos obtener los ocho artículos más relevantes. ¿Pero relevantes para quién? ¿Tiene sentido hablar de relevancia como una noción neutra y universal? Si separamos a la investigadora o al investigador de este proceso de búsqueda, si los separamos de este diálogo con las diferentes tradiciones que tiene lugar al realizar una investigación bibliográfica, ¿qué herramientas conceptuales tenemos para desarrollar una noción de relevancia? ¿Cómo podemos hablar de relevancia sin un sujeto que imprima significado y compromiso en esta fase de la investigación?

El proceso de investigación bibliográfica es parte del proceso de construcción de un andamiaje conceptual y teórico para pensar acerca de los temas que investigamos. Estos andamios, a su vez, no son islas, sino que están conectados con los andamios de esa multitud de investigadores e investigadoras, del presente y del pasado, con quienes directa e indirectamente compartimos prácticas académico-científicas y con quienes nos relacionamos mediante vocabularios, tradiciones, métodos, consensos y disputas. Una parte crucial de la investigación bibliográfica es, justamente, considerar una fuente para incluirla o descartarla. ¿En qué criterios y valoraciones basamos nuestra decisión? Esta tarea es clave en la construcción de una hipótesis o teoría, y no puede ser automatizada mediante un LLM que opera sobre la base de regularidades estadísticas. Delegar esta tarea ocasiona una enorme pérdida para la propia investigación al vaciar de significado la tarea de determinar la relevancia de una fuente y su inclusión o exclusión.

¿Debemos entonces no automatizar nada? ¿Es imposible optimizar el proceso y hacerlo más eficiente? Claro que podemos automatizar y optimizar. Automatizamos la generación de una lista de referencias con un gestor bibliográfico como Zotero, y delegamos el control gramatical al procesador de texto. Pero en cada actividad que automatizamos, hay cosas que se pierden y otras que se ganan; en estos casos, perdemos ciertas habilidades. Preparar manualmente un listado en formato APA o corregir la gramática requiere más conocimiento y habilidad que usar Zotero o Word. Sin embargo, podemos defender estas automatizaciones porque optimizan el proceso y aumentan la eficiencia sin erosionar de manera fundamental los aspectos intrínsecos de la práctica extensiva de la ciencia.

Este ensayo no es un alegato en contra de la automatización, sino una reflexión que busca razonar acerca de qué actividades y tareas pueden automatizarse y cuáles conviene no delegar a máquinas. ¿Tiene sentido automatizar la generación de hipótesis, la revisión bibliográfica, el diseño de experimentos o la discusión de los resultados? ¿Podemos automatizar ciertas partes de estos procesos? ¿Qué partes y en qué medida?

Para responder adecuadamente, debemos tener claro qué perdemos en la automatización y qué obtenemos a cambio. ¿Se trata de habilidades y actividades que vale la pena dejar de lado a cambio de algo más valioso? O, por el contrario, ¿sacrificamos cosas intrínsecamente valiosas a cambio del valor instrumental de la eficiencia?

Las respuestas a estas preguntas no pueden quedar en manos de ingenieros con visiones simplistas y «solucionistas» de la práctica científica, que la reducen al mínimo para que quepa por los agujeros de entrada y salida de un sistema algorítmico. Tampoco pueden quedar en manos de gestores académicos meramente interesados en «indicadores de calidad». Estas respuestas debemos darlas, principalmente, las personas interesadas en los valores intrínsecos de las prácticas científico-académicas, no personas guiadas por meros valores instrumentales. Somos conscientes de que todo esto implica también un cuestionamiento radical del modo en que comunicamos y evaluamos la producción científica.

Para concluir, volvamos a la agricultura y a la ganadería. Los fertilizantes y los robots de ordeño no son meras herramientas, sino que son elementos tecnológicos que dan forma a un tipo de práctica determinada. Las tecnologías no son instrumentos neutros, sino que son maneras de llevar ciertas visiones a la práctica y, a la vez, excluir la realización de otras. La cría de terneros en jaulas está reñida con el pastoreo extensivo, y el monocultivo, con la agricultura sostenible y resiliente. Algo parecido puede ocurrir con sistemas con IA como ChatGPT o Elicit, cuyo diseño y funcionalidad parecen encajar mejor con los valores instrumentales de la ciencia intensiva que con los fines intrínsecos de la ciencia extensiva. Por ello, pensar en la eventual adopción y uso de estos sistemas es una buena excusa para pensar también en la dirección que queremos para nuestra práctica académico-científica. ¿Queremos una ciencia de textos (parcialmente) automatizados por máquinas que luego procesan y resumen otras máquinas y en la que nadie lee lo que escribimos? ¿Queremos una ciencia intensiva, instrumental y optimizada para la cantidad y la eficiencia o, por el contrario, preferimos imaginar y realizar una ciencia extensiva que busque calidad cualitativa, profundidad y que no sea solo un instrumento para algo, sino un fin en sí misma?

Agradecimientos

Los autores agradecen a Txetxu Ausin y César Astudillo por sus valiosos comentarios sobre un borrador de este artículo.

Notas

1. La agricultura intensiva busca maximizar el rendimiento y los beneficios de un cultivo mediante, por ejemplo, maquinaria industrial, fertilizantes o riego abundante, lo que produce un mayor impacto medioambiental. La agricultura extensiva, por el contrario, es más respetuosa con el medio ambiente y busca una explotación más sostenible de la tierra. Con la ganadería sucede algo similiar, aunque con el agregado de la importante cuestión del bienestar animal. Este aspecto es ignorado en la ganadería intensiva, que hace un procesamiento fabril de seres vivos que viven en naves y son alimentados con cebo, mientras que la ganadería extensiva tiende a buscar mejores condiciones para el cuidado de los hábitats, las especies y los ecosistemas, por ejemplo, mediante el pastoreo libre según la estación.

2. Entendida como una práctica científica hipertecnologizada y acelerada, en la cual la tecnología ya no es solo el resultado de la aplicación del conocimiento científico, sino que esta, a la vez, transforma la propia práctica científica en todos los niveles, desde los procesos hasta los valores.

3. Por razones de foco y espacio, dejamos para otro momento la discusión epistémico-ontológica sobre la naturaleza de este conocimiento científico intensivo. Para la discusión que nos ocupa, asumiremos que la ciencia intensiva sí produce conocimiento, del mismo modo que la agricultura y la ganadería intensivas también producen carne, huevos y lechugas.

4. También conviene apuntar que la matemática pura tampoco está exenta de las prácticas intensivas a las que nos hemos referido.

Cita recomendada: GUERSENZVAIG, Ariel; SÁNCHEZ MONEDERO, Javier. Nadie escribiendo y nadie leyendo: los generadores de texto con inteligencia artificial y la ciencia que queremos. Mosaic [en línea], junio 2023, no. 199. ISSN: 1696-3296. DOI: https://doi.org/10.7238/m.n199.2309

Acerca de los autores

Especialista en Ética del diseño y la tecnología, y profesor en Elisava, Facultad de Diseño e Ingeniería de Barcelona, donde dirige el máster Diseño y Dirección de UX. Su investigación académica ha sido publicada en revistas académicas como ACM Interactions, AI & Society, Journal of Design o IEEE Technology and Society. Es autor de The Goods of Design: Professional Ethics for Designers (Rowman & Littlefield, 2021). Forma parte del Comité de Ética de la Investigación de la Universidad de Vic-UCC.
Twitter: @interaccionesLinkedIn.

Investigador distinguido en el grupo de investigación Aprendizaje y Redes Neuronales Artificiales de la Universidad de Córdoba e investigador asociado al Data Justice Lab de la Universidad de Cardiff. Su investigación actual se sitúa en el análisis y diseño de sistemas inteligentes con aproximaciones interdisciplinares y de justicia de datos. Ha publicado en revistas académicas como Big Data & Society, Internet Policy Review, Journal of Machine Learning Research, Applied Soft Computing, IEEE TKDE e IEEE TMI, entre otras.
Twitter: @javisamo • Mastodon: @javisamoLinkedIn.

Deja un comentario