Universitat Oberta de Catalunya

Ningú escrivint i ningú llegint: els generadors de text amb intel·ligència artificial i la ciència que volem

Des de la seva introducció massiva a la fi de 2022, els generadors de text amb intel·ligència artificial (IA) –anomenats Large Language Models (LLM)– com ChatGPT i i versions posteriors com GPT-4 no deixen d’acaparar interès en els mitjans. Aquests sistemes són capaços de generar textos, resums, traduccions i transcripcions d’àudios. La seva capacitat de redacció seria tan avançada que aquests sistemes són capaços de generar abstracts tan coherents que ni tan sols els propis especialistes són capaços de detectar que han estat escrits per una màquina. Els seus usos aplicats estan a l’ordre del dia; s’ha suggerit, per exemple, que podrien servir per predir les primeres fases de la malaltia d’Alzheimer. No obstant això, també s’ha insistit molt que aquests sistemes manquen de capacitat real de comprendre els textos que processen (que «llegeixen» o «escriuen»). Per aquesta raó, se’ls ha caracteritzat com «lloros estocàstics». També s’ha posat l’accent en altres problemes com ara la falta de transparència en les dades d’entrenament, privacitat, els biaixos, o les anomenades «al·lucinacions» i falsedats que produeixen.

Si bé l’interès és real, ara com ara no pot afirmar-se amb certesa que l’ús d’aquesta tecnologia estigui implementada en processos de treball formalitzats ni que s’hagi generalitzat més enllà de l’ús experimental, la xafarderia lúdica o la satisfacció de la curiositat. Aquesta és, sens dubte, una qüestió que mereix ser dilucidada mitjançant estudis empírics seriosos.

Generadors de text amb IA com a assistents

En aquest article deixarem de costat els aspectes tècnics i ens concentrarem en alguns aspectes epistemològics i filosòfics generals relacionats amb l’automatització de processos clau de lectura i redacció en l’àmbit acadèmic. Atesa l’extensió d’aquest article i sense pretendre ser exhaustius, ens limitarem a una qüestió bastant específica: l’ús de LLM per a l’automatització del procés de recerca i revisió bibliogràfica que sol precedir a tota recerca acadèmica.

Prenguem com a exemple el cas de Elicit, una d’aquestes eines que busca optimitzar fluxos de recerca acadèmica. En el seu web, l’empresa desenvolupadora la descriu de la manera següent:

“Elicit és un assistent de recerca que utilitza models de llenguatge com GPT-3 per automatitzar parts dels fluxos de treball dels investigadors. Actualment, el flux de treball principal en Elicit és la revisió de literatura. Si fas una pregunta, Elicit mostrarà documents rellevants i resums d’informació clau sobre aquests documents en una taula fàcil d’usar.”

Segons els creadors d’Elicit, a partir d’una pregunta de l’usuari, el sistema troba els 400 articles «semànticament» més relacionats amb la pregunta, els ordena i retorna com a resultat la informació clau més important dels vuit articles més rellevants (outcome measured, intervention i sample size).

En tots els àmbits acadèmics i cientificotècnics, la recerca bibliogràfica de l’estat de la qüestió sol precedir qualsevol recerca. És un instrument que usem per saber què s’ha dit sobre un tema, quines altres visions o teories hi ha, quins buits queden per cobrir, etc., i que serveix, en resum, per establir els fonaments de la nostra pròpia recerca.

Però és la recerca bibliogràfica un mer instrument que podem optimitzar mitjançant una eina com Elicit?

Per a respondre aquesta pregunta, hem de tractar primer una qüestió preliminar de caràcter més general i relacionada amb la manera de fer ciència, que és el que comentarem a continuació.

Ciència intensiva i ciència extensiva

Per a abordar la qüestió, i esperem que sense simplificar massa, podem fer un paral·lel amb l’agricultura i ramaderia (1) i distingir entre ciència «intensiva» i «extensiva».

La ciència intensiva és una ciència que és «reeixida» en termes de resultats quantitatius, entesos com la publicació massiva de papers i la maximització de totes les dimensions de la puntuació avaluables per les agències de qualitat científica. La pràctica intensiva permet al personal investigador sobreviure i promocionar. A més, és un model d’especialització vertical i, seguint amb el paral·lel de l’agricultura, de monocultiu. En resum, la ciència intensiva cerca obtenir el màxim rendiment possible del temps i altres recursos dels quals es disposa amb la finalitat de maximitzar beneficis tangibles a costa d’altres aspectes menys tangibles o directament intangibles.

La pràctica de la ciència intensiva és habitual en IA, on, per exemple, hi ha multitud d’articles sobre sistemes que es presenten com a capaços de «detectar emocions», encara que aquests sistemes siguin en realitat incapaços de detectar emocions en el sentit estricte. No obstant això, per complir amb els imperatius de la maquinària productiva de la tecnociència (2) intensiva, l’enorme complexitat de les emocions humanes és reduïda a allò que es pot mesurar amb un sistema amb IA, encara que per a això faci falta establir falses categories universals i eliminar del model algorítmic tota referència a la corporalitat, al context i a la cultura.

Llavors, si el principal interès com a investigador és «produir» un article per tenir cites i millorar la puntuació en els indicadors de «qualitat» acadèmica, encara que l’article no aporti massa que sigui intrínsecament valuós, probablement la recerca bibliogràfica prèvia no és més que un instrument i no una fi en si mateixa. Es buscarà recopilar articles i catalogar-los, llegint com a molt les paraules clau, el títol i l’abstract, augmentant així la productivitat.

És això automatitzable?

Sí, i en aquest sentit, eines com Elicit, salvant dificultats tècniques que possiblement milloraran en el futur, poden servir per a aquesta mena de ciència intensiva, que és reduccionista i centrada en l’obtenció de solucions, i el propòsit principal de les quals és maximitzar la producció d’articles.

Si fem una prova amb Elicit (veure figura 1), el programa ens presenta com a evidències revistes de ciències de la computació, però no ens ofereix resultats sobre les teories de l’emoció d’àrees de psicologia, que de seguida situaria el reduccionisme dels sistemes de reconeixement d’emocions mitjançant IA com desfasat en el millor dels casos. Però això no importa per al model de ciència intensiva, en el qual els grups de recerca s’especialitzen en el monocultiu d’articles i per als quals la interdisciplinarietat és una amenaça per al sentit de la seva tasca.(3)

figura 1
Figura 1. Exemple d’ús d’Elicit: pot la IA detectar emocions? Font: captura de pantalla realitzada pels autors.

Ara bé, si per contra ens mou la ciència extensiva i de debò estem interessats a detectar emocions, si de debò volem entendre en profunditat la complexitat de la qüestió, començant per la pròpia dimensió múltiple del concepte i no quedar-nos en simplificacions banals, eines com Elicit ens serviran molt menys. En el millor dels casos, Elicit ens servirà com a eina d’ajuda parcial en una tasca més abraçadora i rica.

Tenim així una altra resposta per a la pregunta plantejada anteriorment. En un marc de ciència extensiva, la resposta és no: la recerca bibliogràfica no és un mer instrument que es pugui i s’hagi d’automatitzar. Aristòtil deia que la pràctica de la medicina no consisteix a tallar o no tallar, o a prescriure un remei, sinó a fer-ho d’una manera determinada. El mateix podem dir de la recerca bibliogràfica; no es tracta només d’obtenir un resultat, unes pàgines de text amb referències a altres articles, sinó d’obtenir-ho d’una manera determinada.

En suma, tenim dues respostes preliminars: per a la ciència intensiva, la recerca bibliogràfica sí que és automatitzable, mentre que per a la ciència extensiva solament ho és parcialment. Aquest punt requereix un tractament en més profunditat, i és el que oferirem a continuació.

Finalitats intrínseques i finalitats instrumentals

En filosofia sol fer-se la distinció entre dos tipus de valors (o finalitats): els intrínsecs i els instrumentals. Els intrínsecs es refereixen a totes aquelles coses que són valuoses per si mateixes, per exemple, l’amistat, la salut, la diversió o la justícia. Els instrumentals es refereixen a aquelles coses el valor de les quals depèn de la seva relació amb una cosa valuosa, ja sigui per obtenir-lo o per preservar-lo. I és en aquest sentit que els valors instrumentals també són importants.

Per exemple, un trepant no té valor intrínsec, sinó que serveix per fer forats en la paret per penjar quadres i gaudir d’ells. D’altra banda, el plaer estètic producte de la observació d’aquests quadres, sí que té un valor intrínsec. Certament, poc sentit li trobaríem a la pregunta sobre per què voldríem obtenir plaer estètic, ja que és una cosa que és desitjable per si mateixa.

En algunes situacions, una mateixa cosa pot aglutinar tots dos tipus de valors, és a dir, pot servir per aalguna cosa i, alhora, tenir valor en si mateixa. Pensem en l’amistat. Un amic o amiga pot ajudar-nos a aconseguir una feina millor o amb una mudança. Alhora, l’amistat té valor en si mateixa, i el valor de tenir amics i amigues no depèn del fet que un amic ens serveixi per a alguna cosa. Si comparem el valor de l’amistat amb el trepant comentat anteriorment, la diferència és evident: un trepant qualsevol té poc o cap valor més enllà de servir-nos per fer forats en la paret o la fusta.

El cas de les matemàtiques pot servir-nos per il·lustrar aquesta diferència en més profunditat. Les matemàtiques se solen dividir en pures i aplicades. La primera inclou àmbits com l’àlgebra, la geometria o l’anàlisi matemàtica. De les persones que es dediquen a les matemàtiques pures es diu que tenen un interès in se, i que la fan per se: en si mateixa i per si mateixa, no com un mitjà per a alguna cosa. És a dir que algú que investiga «grups finits» ho fa amb un interès intrínsec, per exemple abstreure propietats rellevants, amb independència que aquests descobriments serveixin o no per a alguna aplicació pràctica posterior. Naturalment, és perfectament possible que algun descobriment o teoria, per més abstracta que sigui, pugui eventualment servir per a alguna cosa. El central aquí, no obstant això, és la modalitat en la qual s’aborda l’estudi, que no depèn d’un per a alguna cosa posterior. Contràriament, en les matemàtiques aplicades sí que trobem aquest per a alguna cosa. Per exemple, en l’àrea de les matemàtiques industrials, el focus rau en la resolució de problemes d’interès industrial, com ara optimitzar l’eficiència energètica en edificis mitjançant simulació numèrica.

Aquesta diferència entre matemàtiques pures i aplicades és una idealització, i el que trobem en la pràctica és que, també en les matemàtiques aplicades, matemàtics i matemàtiques estan interessades en la pràctica de la matemàtica com una fi en si mateixa.(4) La resolució d’un problema relacionat amb un sistema geotèrmic de calefacció bé pot tenir una aplicació pràctica, però la pròpia tasca de resolució del problema i l’activitat intel·lectual requerida per manipular idees complexes, fer abstraccions i formalitzar solucions són, en si mateixes, alguna cosa que val la pena fer i que li dona sentit a la matemàtica com a professió.

El valor intrínsec de la recerca bibliogràfica

Ara que hem aclarit la diferència entre les finalitats intrínseques i les instrumentals, tornem a la recerca bibliogràfica. La realització d’una recerca bibliogràfica excedeix la dimensió instrumental, ja que ens ajuda a adquirir i complementar un vocabulari amb el qual desenvolupar les nostres pròpies idees, augmentant així la nostra capacitat de pensament crític i creativitat, que és quelcom amb valor intrínsec. Per sobre de tot, una bona recerca bibliogràfica situa el nostre treball dins d’un espai de diàleg continu amb els nostres parells i els qui ens van precedir. Al seu torn, ens permet trobar referents i posicionar-nos dins d’un corrent acadèmic, la qual cosa pot tenir i té efecte en la nostra identitat i en els valors i creences que adoptem com a individus. En altres paraules, si bé alguns aspectes de la recerca bibliogràfica són instrumentals (és a dir, que serveixen per a alguna cosa), hi ha molts altres que tenen una importància que és independent de la seva aplicació o utilitat pràctica immediata, sinó que són intrínsecs a la pràctica de la ciència en la seva modalitat extensiva.

Igual que ocorre amb la matemàtica aplicada, que mai és merament instrumental, veiem que una cosa aparentment modesta com la recerca bibliogràfica també està connectada profundament amb les dues classes de valors: serveix per a alguna cosa i té, alhora, valor en si mateixa.

A partir d’aquesta constatació, podem fer-nos una sèrie de preguntes: hauríem d’automatitzar aquestes tasques connectades amb el més profund de la nostra professió i que fins i tot li donen sentit i la constitueixen?

La resposta no depèn del fet que aquests sistemes d’assistència a la recerca funcionin bé o no. Segons la nostra experiència, Eliciten la seva versió actual no ofereix millors resultats que els de Google Scholar, però aquest no és un aspecte central perquè la qualitat d’aquests resultats pot millorar en el futur. Aquí, la qüestió important radica en la pròpia pràctica acadèmic-científica. Què ocorre amb els seus valors i finalitats intrínseques quan s’automatitzen? Què passa amb el significat i sentit d’aquestes pràctiques humanes quan els valors instrumentals desplacen i erosionen actituds, normes i activitats amb valor intrínsec? Recordem que, en dur a terme una recerca bibliogràfica, un aprèn i dona forma als seus pensaments, es qüestiona a si mateix, i entaula un diàleg d’acords i disputes amb els qui ens van precedir, consolida habilitats i desenvolupa altres noves.

Podem anar més lluny. Què passa quan els valors intrínsecs que s’obtenen en una recerca bibliogràfica són reemplaçats per una resposta provinent d’una espècie d’oracle i no dels qui componen la pràctica? Imaginem el millor escenari possible: una resposta sense errors, sense contingut inventat («al·lucinacions»), compilat a partir de fonts actuals i amb reputació. Suposem llavors que, en el millor dels casos, mitjançant aquests sistemes puguem obtenir els vuit articles més rellevants. Però rellevants per qui? Té sentit parlar de rellevància com una noció neutra i universal? Si separem la investigadora o l’investigador d’aquest procés de cerca, si els separem d’aquest diàleg amb les diferents tradicions que té lloc en fer una recerca bibliogràfica, quines eines conceptuals tenim per desenvolupar una noció de rellevància? Com podem parlar de rellevància sense un subjecte que imprimeixi significat i compromís en aquesta fase de la recerca?

El procés de recerca bibliogràfica és part del procés de construcció d’una bastimentada conceptual i teòrica per pensar sobre els temes que investiguem. Aquestes bastides, al seu torn, no són illes, sinó que estan connectades amb les bastides d’aquesta multitud d’investigadors i investigadores, del present i del passat, amb els qui directament i indirectament compartim pràctiques acadèmic-científiques i amb els qui ens relacionem mitjançant vocabularis, tradicions, mètodes, consensos i disputes. Una part crucial de la recerca bibliogràfica és, justament, considerar una font per incloure-la o descartar-la. En quins criteris i valoracions basem la nostra decisió? Aquesta tasca és clau en la construcció d’una hipòtesi o teoria, i no pot ser automatitzada mitjançant un LLM que opera sobre la base de regularitats estadístiques. Delegar aquesta tasca ocasiona una enorme pèrdua per a la pròpia recerca en buidar de significat la tasca de determinar la rellevància d’una font i la seva inclusió o exclusió.

No hem d’automatitzar res, doncs? És impossible optimitzar el procés i fer-lo més eficient? Clar que podem automatitzar i optimitzar. Automatitzem la generació d’una llista de referències amb un gestor bibliogràfic com Zotero, i deleguem el control gramatical al processador de text. Però en cada activitat que automatitzem, hi ha coses que es perden i unes altres que es guanyen; en aquests casos, perdem certes habilitats. Preparar manualment un llistat en format APA o corregir la gramàtica requereix més coneixement i habilitat que usar Zotero o Word. No obstant això, podem defensar aquestes automatitzacions perquè optimitzen el procés i augmenten l’eficiència sense erosionar de manera fonamental els aspectes intrínsecs de la pràctica extensiva de la ciència.

Aquest assaig no és un al·legat en contra de l’automatització, sinó una reflexió que busca raonar sobre quines activitats i tasques poden automatitzar-se i quines convé no delegar a màquines. Té sentit automatitzar la generació d’hipòtesis, la revisió bibliogràfica, el disseny d’experiments o la discussió dels resultats? Podem automatitzar certes parts d’aquests processos? Quines parts i en quina mesura?

Per a respondre adequadament, hem de tenir clar què perdem en l’automatització i què obtenim a canvi. Es tracta d’habilitats i activitats que val la pena deixar de costat a canvi d’una cosa més valuosa? O, per contra, sacrifiquem coses intrínsecament valuoses a canvi del valor instrumental de l’eficiència?

Les respostes a aquestes preguntes no poden quedar en mans d’enginyers amb visions simplistes i «solucionistes» de la pràctica científica, que la redueixen al mínim perquè càpiga pels forats d’entrada i sortida d’un sistema algorítmic. Tampoc poden quedar en mans de gestors acadèmics merament interessats en «indicadors de qualitat». Aquestes respostes hem de donar-les, principalment, les persones interessades en els valors intrínsecs de les pràctiques científic-acadèmiques, no persones guiades per mers valors instrumentals. Som conscients que tot això implica també un qüestionament radical de la manera en què comuniquem i avaluem la producció científica.

Per a concloure, tornem a l’agricultura i a la ramaderia. Els fertilitzants i els robots de munyiment no són meres eines, sinó que són elements tecnològics que donen forma a una mena de pràctica determinada. Les tecnologies no són instruments neutres, sinó que són maneres de portar certes visions a la pràctica i, alhora, excloure la realització d’unes altres. La cria de vedells en gàbies està renyida amb el pasturatge extensiu, i el monocultiu, amb l’agricultura sostenible i resilient. Una cosa semblant pot ocórrer amb sistemes amb IA com ChatGPT o Elicit, el disseny i la funcionalitat dels quals semblen encaixar millor amb els valors instrumentals de la ciència intensiva que amb les finalitats intrínseques de la ciència extensiva. Per això, pensar en l’eventual adopció i ús d’aquests sistemes és una bona excusa per pensar també en la direcció que volem per a la nostra pràctica acadèmic-científica. Volem una ciència de textos (parcialment) automatitzats per màquines que després processen i resumeixen altres màquines i en la qual ningú llegeix el que escrivim? Volem una ciència intensiva, instrumental i optimitzada per a la quantitat i l’eficiència o, per contra, preferim imaginar i realitzar una ciència extensiva que busqui qualitat qualitativa, profunditat i que no sigui només un instrument per a alguna cosa, sinó una fi en si mateixa?

Agraïments

Els autors agraeixen a Txetxu Ausin i César Astudillo pels seus valuosos comentaris sobre un esborrany d’aquest article.

Notes

1. L’agricultura intensiva cerca maximitzar el rendiment i els beneficis d’un cultiu mitjançant, per exemple, maquinària industrial, fertilitzants o reg abundant, la qual cosa produeix un impacte mediambiental més gran. L’agricultura extensiva, per contra, és més respectuosa amb el medi ambient i cerca una explotació més sostenible de la terra. Amb la ramaderia succeeix una cosa semblant, encara que amb l’agregat de la important qüestió del benestar animal. Aquest aspecte és ignorat en la ramaderia intensiva, que fa un processament fabril d’éssers vius que viuen en naus i són alimentats amb enceball, mentre que la ramaderia extensiva tendeix a buscar millors condicions per a la cura dels hàbitats, les espècies i els ecosistemes, per exemple, mitjançant el pasturatge lliure segons l’estació.

2. Entesa com una pràctica científica hipertecnologitzada i accelerada, en la qual la tecnologia ja no és només el resultat de l’aplicació del coneixement científic, sinó que aquesta, alhora, transforma la pròpia pràctica científica en tots els nivells, des dels processos fins als valors.

3. Per raons de focus i espai, deixem per un altre moment la discussió epistèmica-ontològica sobre la naturalesa d’aquest coneixement científic intensiu. Per a la discussió que ens ocupa, assumirem que la ciència intensiva sí que produeix coneixement, de la mateixa manera que l’agricultura i la ramaderia intensives també produeixen carn, ous i enciams.

4. També convé apuntar que la matemàtica pura tampoc està exempta de les pràctiques intensives a les quals ens hem referit.

Cita recomanada: GUERSENZVAIG, Ariel; SÁNCHEZ MONEDERO, Javier. Ningú escrivint i ningú llegint: els generadors de text amb intel·ligència artificial i la ciència que volem. Mosaic [en línia], juny 2023, no. 199. ISSN: 1696-3296. DOI: https://doi.org/10.7238/m.n199.2309

Acerca de los autores

Especialista en Ética del diseño y la tecnología, y profesor en Elisava, Facultad de Diseño e Ingeniería de Barcelona, donde dirige el máster Diseño y Dirección de UX. Su investigación académica ha sido publicada en revistas académicas como ACM Interactions, AI & Society, Journal of Design o IEEE Technology and Society. Es autor de The Goods of Design: Professional Ethics for Designers (Rowman & Littlefield, 2021). Forma parte del Comité de Ética de la Investigación de la Universidad de Vic-UCC.
Twitter: @interaccionesLinkedIn.

Investigador distinguido en el grupo de investigación Aprendizaje y Redes Neuronales Artificiales de la Universidad de Córdoba e investigador asociado al Data Justice Lab de la Universidad de Cardiff. Su investigación actual se sitúa en el análisis y diseño de sistemas inteligentes con aproximaciones interdisciplinares y de justicia de datos. Ha publicado en revistas académicas como Big Data & Society, Internet Policy Review, Journal of Machine Learning Research, Applied Soft Computing, IEEE TKDE e IEEE TMI, entre otras.
Twitter: @javisamo • Mastodon: @javisamoLinkedIn.

Deja un comentario