Universitat Oberta de Catalunya

Tensions i interseccions entre aprenentatge automàtic i creació artística

Les innovacions tecnològiques imparables que ha estat capaç de produir l’espècie més «intel·ligent» de la Terra han canviat la faç del planeta. La creativitat no està limitada als artistes, però a través de les seves obres poden comunicar emocions, pensaments i experiències personals, i també explorar temes desafiadors i provocatius, tot generant preguntes i reflexions crítiques sobre la societat i la vida.

En aquests moments, la humanitat, en general, i els artistes, especialment, fan front a un «invent» transformador que ha experimentat un creixement exponencial en els darrers anys; la intel·ligència artificial (IA). A partir de l’any 2000, la IA va ressorgir amb avanços en l’aprenentatge automàtic (machine learning – ML) i les xarxes neuronals artificials, la qual cosa va revolucionar àrees com les de la visió per computadora i el processament del llenguatge natural (Russell i Norvig, 2016).

Concretament, el 2014, va sorgir una tècnica innovadora de generació d’imatges anomenada xarxes generatives antagòniques (Generative Adversarial Networks– GAN) que implica entrenar dues xarxes neuronals en competència. Una xarxa, la generativa, experimenta amb combinacions en un espai latent per produir imatges candidates similars a les de la base de dades. L’altra xarxa, la discriminadora, avalua les candidates utilitzant dades originals per determinar quines imatges són genuïnes i quines són artificials. Aquesta rivalitat entre les xarxes millora constantment la qualitat i el realisme de les imatges generades (Goodfellow et al., 2014).

El 2016, Radford i el seu equip van ampliar aquesta tècnica en utilitzar xarxes neuronals convolucionals profundes (Deep Convolutional Generative Adversarial Networks– DCGAN) per generar rostres. Les GAN han evolucionat i s’han diversificat en múltiples variants des de 2014, fins a esdevenir un model generatiu poderós que abasta aplicacions en processament d’imatges, visió per computadora, processament de llenguatge natural, música, veu, àmbit mèdic, etc.

D’altra banda, hi ha enfocaments com el Neural Style Transfer (NST) (Gatys et al., 2015) que permet combinar l’estil d’una imatge amb el contingut d’una altra. També es va introduir el model Pix2Pix el 2017, una GAN condicional que utilitza una imatge real per guiar la generació en lloc de partir de soroll (Isola et al., 2017).

El 2019, Karras i el seu equip van implementar el mètode d’entrenament StyleGAN. Aquesta tècnica progressiva permet un creixement gradual tant del generador com del discriminador, partint de resolucions baixes i afegint capes per capturar detalls més fins a mesura que avança l’entrenament. Aquesta metodologia ha portat a una millora notable en la resolució i qualitat de les imatges generades per les GAN.

A més de les xarxes convolucionals, que requereixen codificadors i descodificadors, s’han desenvolupat models més eficients que connecten aquests components mitjançant mecanisme d’«atenció». Una arquitectura destacada és el transformer, que es basa únicament en mecanismes d’atenció, de manera que elimina la necessitat de recurrències i convolucions (Vaswani et al., 2017). Un exemple de transformer molt conegut és el ChatGPT (Chat Generative Pre-Trained Transformer) (Brown, 2020). Els transformers són, en definitiva, un tipus important de model generatiu que ha despertat un interès creixent també en la síntesi d’imatges (Caron et al., 2021; Esser et al., 2021).

El problema de la creativitat en el context dels algorismes generatius és un tema fascinant i complex que ha generat debats i reflexions en diverses àrees, com l’art, la tecnologia o l’ètica. Els algorismes generatius poden produir continguts que abans s’associaven principalment al procés creatiu humà. Això planteja interrogants sobre si aquestes creacions automàtiques es poden considerar veritablement «artístiques» en el sentit tradicional.

Enfront de les perspectives apocalíptiques, alguns argumentem que els algorismes generatius no reemplacen la creativitat humana, sinó que ofereixen noves maneres de col·laboració entre humans i màquines. Els artistes i dissenyadors poden fer servir aquests algorismes com a eines per explorar noves idees i expressions, combinant les seves pròpies habilitats amb les capacitats de l’ML (Rosat-Rodrigo i Reverter, 2020). A més a més, l’ús i la reflexió crítica sobre les perspectives artístiques i humanístiques de l’aprenentatge automàtic proporcionen narratives alternatives a les de les ciències de la computació, que faciliten una comprensió interdisciplinària.

La investigadora i autora destacada en intel·ligència artificial i creativitat Margaret Boden ha explorat àmpliament en el seu treball com les màquines poden ser considerades creatives i la seva relació amb la creativitat humana. En el context de la intel·ligència artificial, sosté que les màquines poden ser creatives en generar noves combinacions i explorar possibilitats inèdites que resultin valuoses en un context específic. Tanmateix, subratlla que la creativitat humana involucra aspectes emocionals, contextuals i culturals encara no replicats completament per les màquines (Boden, 2004).

Les diferències clau entre l’aprenentatge en computadores i humans es refereixen a la naturalesa de l’aprenentatge i a la capacitat de generalització. Les computadores aprenen mitjançant algorismes i models matemàtics basats en càlculs, mentre que els humans aprenen mitjançant experiència i la reflexió. Les computadores poden generalitzar patrons amb dades similars, però els humans tenen una capacitat més flexible per aplicar conceptes a situacions noves.

Benjamins i Salazar especulen sobre el futur de la humanitat respecte a temes com la presa de decisions autònomes, la privacitat, la relació entre màquines i persones, la computació quàntica i la possibilitat d’emmagatzemar informació en molècules d’ADN, reflexionant sobre altres tecnologies importants, a més de la IA, com la biotecnologia, neurotecnologia o nanotecnologia (aquestes plantegen qüestions similars a les de la IA, però no des del punt de vista d’una màquina, sinó des de la perspectiva dels humans «millorats» o «intervinguts»). Remarquen el perill de la pèrdua de privacitat dels pensaments, ja que s’estan fent proves per llegir l’activitat cerebral i desxifrar-la com a paraules i imatges; aquests treballs obririen la porta a manipular els pensaments de les persones mitjançant senyals elèctrics (Benjamins i Salazar, 2020, pàg. 280).

Altres autors, com Byung-Chul Han, ens conviden a reflexionar i qüestionar el món tecnològic en què vivim. Opinen que «avui estem en la transició de l’era de les coses a l’era de les no-coses. No són les coses, sinó la informació, la qual cosa determina el món en què vivim» (Han, 2021, pàg. 13). Han té una visió crítica sobre la IA i advoca per recuperar la màgia d’allò sòlid i allò tangible, de manera que reflexiona sobre el silenci que es perd amb el soroll de la informació.

Des d’un altre punt de vista, Miller, en el seu llibre The artist in the machine de 2019, explica que nosaltres mateixos som màquines biològiques i ens dirigim a hibridar-nos amb màquines basades en el silici. De la mateixa manera que les computadores, nosaltres també busquem patrons en les dades per a la nostra pròpia supervivència, i aquests patrons poden ser també bells.

Igual que va ocórrer amb l’aparició de la fotografia, on es va debatre àmpliament sobre el paper que exerceix la càmera en el procés fotogràfic, de manera que moltes vegades es minimitza el del fotògraf, les imatges produïdes mitjançant ML han estat emmarcades com a expressions de les capacitats dels algorismes, obviant el creador. Però és un fet innegable que les exploracions dels artistes, sovint presentant perspectives poc ortodoxes sobre com es pot utilitzar l’aprenentatge automàtic, proporcionen perspectives enriquidores per al debat.

Com apunta Wasielewski, mentre que «interdisciplinarietat» continua sent una paraula de moda en el món acadèmic, qualsevol comunicació entre disciplines sol estar plena de malentesos epistemològics (Wasielewski, 2023). Les ciències de la computació i l’art parlen «idiomes diferents» i utilitzen metodologies diferents. Importar epistemologies de les ciències de la computació a l’àmbit de la creació artística pot produir que els artistes que treballin en les fronteres d’aquestes disciplines es trobin empantanats ingènuament en problemes recursius o preocupacions que l’àmbit de l’art tingui llargament superats al llarg de la seva història; el simple fet de generar un tipus d’imatge, reproduir un estil determinat o aparença no és prou per qualificar el producte com a obra d’art.

En l’escenari descrit, l’ensenyament artístic superior enfronta el desafiament d’integrar de manera efectiva els avanços en algorismes d’aprenentatge automàtic en el procés formatiu, i alhora fomentar l’originalitat, l’autenticitat i el pensament crític entre els estudiants. Alguns dels reptes importants inclouen aconseguir un equilibri entre creativitat humana i automatització, revisar els plans d’estudi per incloure conceptes d’IA i ajudar els alumnes a comprendre com utilitzar aquestes eines en el seu treball creatiu, integrant aquestes habilitats tècniques en la seva formació artística. A més, és convenient incloure discussions sobre l’ètica de la IA en el context artístic, formar als artistes per treballar en equip amb experts en IA, mantenir els programes d’ensenyament actualitzats i promoure una adaptació constant del professorat a la ràpida evolució de la tecnologia.

Finalment, destaquem que encara els models d’aprenentatge automàtic generatiu no són sistemes creatius completament autònoms, no poden formular intencions ni avaluar els seus propis resultats. En incorporar aquests processos «intel·ligents» en els nostres protocols creatius, si ens centrem en l’aprenentatge per a la perfecció, perdrem altres resultats interessants en la creació artística. Per concloure, defensem el potencial dels algorismes d’ML, des de la perspectiva de l’art, per proporcionar nous imaginaris formals i conceptuals, i posem en valor la manera com l’aprenentatge automàtic pot ampliar la nostra comprensió de les imatges.

Bibliografia:

BENJAMINS, Richard; SALAZAR, Inma (2020). El mito del algoritmo. Ediciones Anaya.

BODEN, Margareth (2004). The Creative Mind: Myths and Mechanisms (2a. ed). Routledge. DOI: https://doi.org/10.4324/9780203508527

BROWN, Tom; MANN, Ben; RYDER, Nick; SUBBIAH, Melanie; KAPLAN, Jared D.; DHARIWAL, Prafulla; NEELAKANTAN, Arvind; SHYAM, Pranav; SASTRY, Girish; ASKELL, Amanda; AGARWAL, Sandhini; HERBERT-VOSS, Aliya; KRUEGER, Gretchen; HENIGHAN, Tom; CHILD, Rewon; RAMESH, Aditya; ZIEGLER, Daniel M; WU, Jeffrey; WINTER, Clemens; HESSE, Chris; CHEN, Mark; SIGLER, Eric; LITWIN, Mateen; GRAY, Scott; CHESS, Benjamin; CLARK, Jack; BERNER, Christopher; McCANDLISH, SAM; RADFORD, Alec; SUTSKEVER, Ilya; AMODEI Dario (2020). «Language models are few-shot learners». Advances in neural information processing systems, no. 33, pàg. 1877-1901. DOI: https://doi.org/10.48550/arXiv.2005.14165

CARON, Mathilde; TOUVRON, Hugo; MISRA, Ishan; JÉGOU, Hervé; MAIRAL, Julien; BOJANOWSKI, Piotr; JOULIN, Armand (2021). «Emerging properties in self-supervised vision Transformers». Proceedings of the IEEE/CVF international conference on computer vision, pàg. 9650-9660). DOI: https://doi.org/10.1109/ICCV48922.2021.00951

ESSER, Patrick; ROMBACH, Robin; OMMER, Björn (2021). «Taming transformers for high-resolution image synthesis». Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pàg. 12873-12883). DOI: https://doi.org/10.1109/CVPR46437.2021.01268

GATYS, Leon A.; ECKER, Alexander S.; BETHGE, Matthias (2015, 26 agosto). «A Neural Algorithm of Artistic Style». arXiv. DOI: https://doi.org/10.48550/arXiv.1508.06576

GOODFELLOW, Ian; POUGET-ABADIE, Jean; MIRZA, Mehdi; XU, Bing; WARDER-FARLEY, David; OZAIR, Sherjil; COURVILLE, Aaron; BENGIO, Yoshua (2014). «Generative Adversarial Nets». Advances in neural information processing systems, 27 (NIPS 2014) [en línia]. Disponible a: https://papers.nips.cc/paper_files/paper/2014/hash/5ca3e9b122f61f8f06494c97b1afccf3-Abstract.html

HAN, Byung Chul (2021). No-cosas. Quiebras del mundo de hoy. Taurus.

ISOLA, Phillip; ZHU, Jun-Yan; ZHOU, Tinghui; EFROS, Alexei A. «Image-to-image translation with conditional adversarial networks». Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pàg. 1125-1134.

KARRAS, Tero; LAINE, Samuli; AILA, Timo (2019). «A Style-Based Generator Architecture for Generative Adversarial Networks». Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pàg. 4401-4410. DOI: https://doi.org/10.1109/CVPR.2019.00453

MILLER, Arthur I. (2019). The artist in the machine: the world of AI-powered creativity. Massachusetts: The MIT press. DOI: https://doi.org/10.7551/mitpress/11585.001.0001

RADFORD, Alec; METZ, Luke; CHINTALA, Soumith (2016). «Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks». arXiv. DOI: https://doi.org/10.48550/arXiv.1511.06434

ROSADO RODRIGO, Pilar; REVERTER COMES, Francesc (2020). «Panoramic views on the collective visual heritage through convolutional neural networks. The exhibitions Revolutionary Arkive and Mnemosyne 2.0 by Pilar Rosado». Artnodes, no. 26, pàg. 1-12. DOI: https://doi.org/10.7238/a.v0i26.3354

ROSADO RODRIGO, Pilar; REVERTER COMES, Francesc (2023). «The Art of the Masses: Overviews on the Collective Visual Heritage through Convolutional Neural Networks». Big Data and Cognitive Computing, vol. 7, no. 1, pàg. 33. DOI: https://doi.org/10.3390/bdcc7010033

RUSSELL, Stuart J.; NORVIG, Pete (2016). Artificial Intelligence: A Modern Approach. Pearson.

VASWANI, Ashish; SHAZEER, Noam; PARMAR, Niki; USZKOREIT, Jakob; JONES, Lukasz; GOMEZ, Aidan. N.; POLOSUKHIN, Illia (2017). «Attention is all you need». 31st Conference on Neural Information Processing Systems (NIPS 2017) [en línia]. Disponible a: https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

WASIELEWSKI, Adam (2023). Computational formalism. Art history and machine learning. Massachusetts: The MIT press. DOI: https://doi.org/10.7551/mitpress/14268.001.0001


Cita recomanada: ROSADO, Pilar. Tensions i interseccions entre aprenentatge automàtic i creació artística. Mosaic [en línia], març 2024, no. 200. ISSN: 1696-3296. DOI: https://doi.org/10.7238/m.n200.2313

Deja un comentario