Vés al contingut

Vicuna LLM

De la Viquipèdia, l'enciclopèdia lliure
Vicuna LLM

TipusIntel·ligència artificial

Vicuna LLM és un model de llenguatge òmnibus gran utilitzat en la investigació de la IA. La seva metodologia és permetre al públic en general contrastar i comparar la precisió dels LLM "en estat natural" (un exemple de ciència ciutadana) i votar sobre el seu resultat; s'utilitza un format de xat de preguntes i respostes. Al començament de cada ronda, es presenten aleatòriament i anònimament dos chatbots LLM d'un grup divers de nou, i les seves identitats només es revelen en votar les seves respostes. L'usuari té l'opció de tornar a jugar ("regenerar") una ronda o començar-ne una de completament nova amb nous LLM. (L'usuari també té l'opció de triar amb quins LLM lluitar.) Basat en Llama 2,[1] és un projecte de codi obert,[2] i s'ha convertit en objecte de recerca acadèmica en aquest camp en auge. Una demostració pública i no comercial del model Vicuna-13b està disponible per accedir-hi mitjançant LMSYS.[3][4]

Els Grans Models de Llenguatge (LLM) són models d'IA avançats que poden processar i comprendre el llenguatge humà, desenvolupats mitjançant tècniques d'aprenentatge profund i entrenats amb quantitats massives de dades textuals. Aquests models han guanyat una popularitat significativa, i GPT-4 és un model de transformador notable que es va publicar el març de 2023 i es va utilitzar al chatbot ChatGPT d'OpenAI. Les capacitats avançades del chatbot li permeten generar text semblant al d'un humà i respondre preguntes.

Un equip de la UC Berkeley, CMU, Stanford i UC San Diego va desenvolupar Vicuna, un chatbot de codi obert amb 13.000 milions de paràmetres. Per crear Vicuna, es va ajustar un model base de LLaMA utilitzant unes 70.000 converses compartides per usuaris recollides de ShareGPT.com a través d'API públiques. Segons les avaluacions inicials on s'utilitza GPT-4 com a referència, Vicuna-13B ha aconseguit una qualitat superior al 90%* en comparació amb OpenAI ChatGPT i Google Bard, i també ha demostrat un millor rendiment que altres models com LLaMA i Stanford Alpaca en més del 90% dels casos.[5]

El model Vicuna és significatiu perquè és un dels primers models de llenguatge gran de codi obert entrenats amb dades generades per humans i genera text coherent i creatiu. És una versió millorada del model Alpaca, basat en l'arquitectura Transformer, però afinat en un conjunt de dades de converses generades per humans. Això el converteix en una eina valuosa per crear chatbots potents i per a investigadors que estudien models de llenguatge gran. El model Vicuna és un signe de progrés en el camp del processament del llenguatge natural i fa que els models de llenguatge gran siguin més accessibles al públic, cosa que podria tenir diversos beneficis.

Referències

[modifica]
  1. «What Is an Arbitrary Waveform Generator Used For? | SpinQ» (en anglès). [Consulta: 1r febrer 2026].
  2. «Pulse Generator» (en anglès). [Consulta: 1r febrer 2026].
  3. U.S. Air Force accepts first delivery of Raytheon Miniature Air Launched Decoy[Enllaç no actiu]
  4. «lmsys/vicuna-7b-v1.5 · Hugging Face» (en anglès), 18-07-2023. [Consulta: 7 febrer 2026].
  5. Parthasarathy, Sriram. «The Significance of Vicuna, an Open-Source Large Language Model for Chatbots» (en anglès), 03-04-2023. [Consulta: 7 febrer 2026].