Их Хэлний Загвар (хиймэл оюун)

Их хэлний загвар (Large Language Model - LLM) нь энгийн ярианы хэлний боловсруулалтын даалгаврууд, ялангуяа хэл үүсгэхэд зориулагдсан, асар их хэмжээний текст дээр өөрийгөө хянаж суралцах (self-supervised) машин сургалтын аргаар сургагдсан хэлний загвар юм. Хамгийн том бөгөөд чадварлаг LLM-үүд нь Үүсгэгч Урьдчилан Сургасан Трансформер (GPT) бөгөөд орчин үеийн чатботуудын үндсэн технологийг бүрдүүлдэг. LLM-ийг тодорхой даалгаварт зориулан нарийвчлан сургах (fine-tuning) эсвэл промпт инженерчлэлээр (prompt engineering) чиглүүлэх боломжтой. Эдгээр загварууд нь хүний хэлний сан хөмрөгт агуулагдах өгүүлбэр зүй, утга зүй, онтологийн талаарх урьдчилан таамаглах чадварыг эзэмшдэг боловч сургахад ашигласан өгөгдөлд байгаа алдаа мадаг, өрөөсгөл хандлагыг мөн өвлөн авдаг.

Эдгээр нь тэрбумаас их наяд хүртэлх параметрүүдээс бүрддэг бөгөөд текстийг үүсгэх, хураангуйлах, орчуулах, эргэцүүлэн бодох зэрэгт ерөнхий зориулалтын дарааллын загвар (sequence models) болж ажилладаг. LLM нь даалгаварт зориулсан тусгай хяналт бага шаарддаг, олон төрлийн даалгаврыг гүйцэтгэх чадвартай тул технологийн томоохон дэвшлийг илэрхийлдэг. Энэ нь өмнө нь тусгайлан бүтээсэн системүүд шаарддаг байсан харилцан ярианы агентууд, код үүсгэх, мэдлэг хайх, автоматжуулсан эргэцүүлэл зэрэг чадваруудыг бий болгосон юм.

LLM нь хэлний загварчлалын эхэн үеийн статистик болон рекуррент мэдрэлийн сүлжээний арга барилаас хөгжсөн. 2017 онд танилцуулагдсан трансформер архитектур нь рекуррент (давталттай) байдлыг өөрийн анхаарал (self-attention)-аар сольсноор үр ашигтай зэрэгцүүлэлт, илүү урт текстийн хам сэдвийг (context) боловсруулах, урьд өмнө байгаагүй их хэмжээний өгөгдөл дээр өргөжүүлэн сургах боломжийг олгосон. Энэхүү шинэчлэл нь GPT, BERT болон тэдгээрийн залгамжлагчид зэрэг загваруудыг бий болгосон бөгөөд эдгээр нь цөөн жишээгээр суралцах (few-shot learning), нийлмэл эргэцүүлэл хийх зэрэг шинэ чадваруудыг үзүүлсэн.

Бэхжүүлэн сургах арга (Reinforcement learning), ялангуяа бодлогын градиент алгоритмуудыг LLM-ийг зөвхөн дараагийн токенийг таамаглахаас гадна хүссэн зан төлөвт сургахын тулд нарийвчлан сургахад ашигласан. Хүний хариу үйлдэлд суурилсан бэхжүүлэн сургах (RLHF) арга нь хүн эсвэл автоматжуулсан үнэлгээнээс ирсэн шагналын дохионы эсрэг загварын гаралтын тархалт буюу бодлогыг оновчтой болгоход эдгээр аргуудыг хэрэглэдэг. Энэ нь загварын гаралтыг хэрэглэгчийн хүлээлтэд нийцүүлэх, бодит байдлыг сайжруулах, хор хөнөөлтэй хариултыг багасгах, даалгаврын гүйцэтгэлийг сайжруулахад чухал үүрэг гүйцэтгэсэн.

LLM-ийн жишиг үнэлгээнүүд нь хэл шинжлэлийн явцуу үнэлгээнээс эргэцүүлэн бодох, баримтын нарийвчлал, нийцэл, аюулгүй байдлыг хэмждэг иж бүрэн, олон даалгаварт үнэлгээ рүү шилжсэн. Загваруудыг жишиг үзүүлэлтүүдийн эсрэг давтан оновчтой болгох "Hill climbing" стратеги давамгайлж байгаа нь гүйцэтгэлийг хурдан нэмэгдүүлж байгаа ч жинхэнэ ерөнхийлөлт эсвэл чадварын бат бөх сайжруулалтад хүрэхийн оронд жишигт хэт тааруулах (overfitting) эрсдэлийг дагуулж байна.

Түүх

2017 онд трансформерт суурилсан загварууд гарч ирэхээс өмнө зарим хэлний загваруудыг тухайн үеийн тооцоолол болон өгөгдлийн хязгаарлалттай харьцуулахад том гэж үздэг байв. 1990-ээд оны эхээр IBM-ийн статистик загварууд машин орчуулгад үг зэрэгцүүлэх техникийг анхлан нэвтрүүлж, корпуст суурилсан хэлний загварчлалын суурийг тавьсан. 2001 онд 300 сая үгэн дээр сургасан Kneser–Ney-ийн тэгшитгэл зэрэг тэгшитгэсэн n-gram загвар нь жишиг тестүүд дээр хамгийн шилдэг perplexity (тодорхойгүй байдлын хэмжүүр) үзүүлэлтэд хүрсэн. 2000-аад онд интернет өргөн тархсанаар судлаачид статистик хэлний загваруудыг сургахын тулд вэбээс асар их хэмжээний текст өгөгдлийг цуглуулж эхэлсэн ("вэб нь корпус болох нь").

N-gram загвараас цаашлан судлаачид 2000 онд хэлний загварыг сургахад мэдрэлийн сүлжээг ашиглаж эхэлсэн. 2012 оны үед зураг ангилахад гүн мэдрэлийн сүлжээ амжилт олсны дараа үүнтэй төстэй архитектуруудыг хэлний даалгавруудад тохируулсан. Энэ шилжилт нь үг шигтгэх (word embeddings) (жишээ нь, 2013 онд Миколовын Word2Vec) болон LSTM ашигласан дарааллаас-дараалал руу (seq2seq) загваруудыг хөгжүүлснээр тэмдэглэгдсэн. 2016 онд Google орчуулгын үйлчилгээгээ мэдрэлийн машин орчуулга (NMT) руу шилжүүлж, статистик хэллэгт суурилсан загваруудыг гүн рекуррент мэдрэлийн сүлжээгээр сольсон. Эдгээр эхэн үеийн NMT системүүд нь трансформер зохион бүтээгдэхээс өмнө байсан тул LSTM-д суурилсан энкодэр-декодэр архитектурыг ашиглаж байв.

2017 оны NeurIPS бага хурал дээр Google-ийн судлаачид "Attention Is All You Need" (Анхаарал л танд хэрэгтэй) гэсэн түүхэн өгүүлэлдээ трансформер архитектурыг танилцуулсан. Энэхүү өгүүллийн зорилго нь 2014 оны seq2seq технологийг сайжруулах байсан бөгөөд голчлон 2014 онд Бахданау нарын боловсруулсан анхаарлын механизмд суурилсан байв. Дараа жил нь буюу 2018 онд BERT танилцуулагдаж, хурдан хугацаанд "хаа сайгүй хэрэглэгддэг" болсон. Анхны трансформер нь энкодэр болон декодэр блокуудыг хоёуланг нь агуулж байсан бол BERT нь зөвхөн энкодэр загвар юм. 2023 онд промпт ашиглан даалгавар шийдвэрлэх чадвартай (GPT гэх мэт) зөвхөн декодэр загварууд хурдацтай сайжсанаар BERT-ийн академик болон судалгааны хэрэглээ буурч эхэлсэн.

Хэдийгээр зөвхөн декодэр бүхий GPT-1 нь 2018 онд танилцуулагдсан ч 2019 онд гарсан GPT-2 нь олон нийтийн анхаарлыг ихэд татсан. Учир нь OpenAI үүнийг хорлонтойгоор ашиглах вий гэсэн болгоомжлолоос үүдэн олон нийтэд цацахад хэтэрхий хүчирхэг гэж үзэж байснаа мэдэгдсэн юм. 2020 онд гарсан GPT-3 нь дахин нэг алхам урагшилсан бөгөөд 2025 оны байдлаар зөвхөн API-аар дамжуулан ашиглах боломжтой, загварыг татан авч дотооддоо ажиллуулах боломжгүй хэвээр байна. Гэвч 2022 онд хэрэглэгчдэд зориулан гаргасан чатбот ChatGPT нь хэвлэл мэдээллийн хэрэгслээр өргөн хүрээнд цацагдаж, олон нийтийн анхаарлыг татсан. 2023 оны GPT-4 нь нарийвчлал сайжирсан болон мульимодал чадамжаараа "дээд амжилт" хэмээн магтагдсан. OpenAI нь GPT-4-ийн дээд түвшний архитектур болон параметрийн тоог илчлээгүй. ChatGPT-ийн нээлт нь робот техник, программ хангамжийн инженерчлэл, нийгмийн нөлөөллийн ажил зэрэг компьютерын шинжлэх ухааны хэд хэдэн дэд салбарт LLM-ийн хэрэглээг нэмэгдүүлэхэд хүргэсэн. 2024 онд OpenAI эцсийн хариултыг буцаахаас өмнө урт бодлын хэлхээ үүсгэдэг эргэцүүлэн бодох загвар болох OpenAI o1-ийг гаргасан. OpenAI-ийн GPT цувралтай дүйцэхүйц параметрийн тоотой олон LLM-үүд хөгжүүлэгдсэн.

2022 оноос хойш нээлттэй жинтэй (open-weight) загварууд, ялангуяа эхэндээ BLOOM болон LLaMA загварууд түгээмэл болж эхэлсэн ч хоёулаа ашиглалт болон нэвтрүүлэлт дээр хязгаарлалттай байв. Mistral AI-ийн Mistral 7B болон Mixtral 8x7b загварууд нь илүү чөлөөтэй Apache лицензтэй. 2025 оны 1-р сард DeepSeek нь OpenAI o1-тэй ижил түвшинд ажилладаг боловч хэрэглэгчдэд нэг токенд ногдох үнэ нь хамаагүй хямд, 671 тэрбум параметртэй нээлттэй жинтэй DeepSeek R1 загварыг гаргасан.

2023 оноос хойш олон LLM-үүд зураг, дуу авиа эсвэл 3D тор зэрэг өөр төрлийн өгөгдлийг боловсруулах эсвэл үүсгэх чадвартай мульимодал (олон хэлбэрт) болж сургагдсан. Эдгээр LLM-үүдийг мөн том мультимодал загварууд (LMMs) эсвэл мультимодал хэлний том загварууд (MLLMs) гэж нэрлэдэг.

2024 оны байдлаар хамгийн том бөгөөд чадварлаг загварууд бүгд трансформер архитектурт суурилж байна. Сүүлийн үеийн зарим хэрэгжүүлэлтүүд рекуррент мэдрэлийн сүлжээний хувилбарууд болон Mamba (төлөв байдлын орон зайн загвар) зэрэг өөр архитектуруудад суурилж байна.

2023 оноос хойш нээлттэй жинтэй LLM-үүд салбарыг улам бүр тодорхойлж, хиймэл оюун ухааны хөгжилд илүү өргөн оролцоог хангаж, загварын үнэлгээнд илүү ил тод байдлыг бий болгоход хувь нэмэр оруулж байна. Ваке нар (2025) нээлттэй жинтэй загваруудад олон нийтийн оролцоотой хувь нэмэр оруулах нь тэдгээрийн үр ашиг, гүйцэтгэлийг хэмжигдэхүйц сайжруулдгийг нотолсон бөгөөд Hugging Face зэрэг хамтын ажиллагааны платформ дээр хэрэглэгчдийн оролцоо хурдацтай өсч байна. Парис нар (2025) хиймэл оюун ухааны нээлттэй байдал нь загварын код эсвэл жинг нийтлэхээс хальж, AI судалгаа, нэвтрүүлэлтэд хүртээмжтэй байдал, хариуцлага, ёс зүйн хариуцлагыг хамрах ёстой гэж үзсэн. Эдгээр судалгаанууд нь нээлттэй жинтэй LLM-үүд нь инновацийг хурдасгаж, шинжлэх ухааны үр дүнг давтах боломжийг сайжруулахын зэрэгцээ илүү ил тод, оролцоотой AI экосистемийг бүрдүүлж чадахыг онцолж байна.

Өгөгдлийн багцыг урьдчилан боловсруулах

Токенчлол

Машин сургалтын алгоритмууд нь текстийг бус тоонуудыг боловсруулдаг тул текстийг тоо болгон хувиргах шаардлагатай. Эхний алхамд үгсийн санг шийдэж, дараа нь үгсийн сангийн бүртгэл бүрд бүхэл тоон индексүүдийг дураар боловч дахин давтагдахгүй байхаар оноож, эцэст нь бүхэл тоон индекст шигтгээг (embedding) холбодог. Алгоритмуудад Байт-хос кодчиллол (Byte-pair encoding - BPE) болон WordPiece ордог. Мөн [MASK] (BERT-д ашиглагддаг далдлагдсан токен) болон [UNK] (үгсийн санд байхгүй тэмдэгтүүдэд зориулсан "үл мэдэгдэх") зэрэг хяналтын тэмдэгтүүдийн үүрэг гүйцэтгэдэг тусгай токенууд байдаг. Түүнчлэн зарим тусгай тэмдэгтүүдийг текстийн тусгай форматыг тэмдэглэхэд ашигладаг. Жишээлбэл, RoBERTa болон GPT дээр "Ġ" нь өмнөх хоосон зайг, BERT дээр "##" нь өмнөх үгийн үргэлжлэлийг тэмдэглэдэг.

Токенчлол нь мөн өгөгдлийн багцыг шахдаг. LLM нь ерөнхийдөө оролтыг тэгш бус массив (jagged array) бус массив байхыг шаарддаг тул богино текстүүдийг хамгийн урт тексттэй ижил урттай болтол нь "дүүргэх" (padding) шаардлагатай байдаг. Нэг токенд ногдох үгийн дундаж тоо хэлнээс хамаарна. Англи хэл дээр харьцаа нь ихэвчлэн нэг токенд 0.75 үг байдаг ба дунджаар нэг токенд 4 тэмдэгт ногддог.

Байт-хос кодчиллол (Byte-pair encoding)

Жишээ болгон байт-хос кодчиллолд суурилсан токенчлогчийг авч үзье. Эхний алхамд бүх өвөрмөц тэмдэгтүүдийг (хоосон зай болон цэг таслалыг оруулаад) n-gram-ын анхны багц (өөрөөр хэлбэл uni-gram-ын анхны багц) гэж үздэг. Дараа нь зэргэлдээх хамгийн түгээмэл тэмдэгтүүдийн хосыг bi-gram болгон нэгтгэж, хосын бүх тохиолдлыг үүгээр сольдог. Хамтдаа хамгийн их тохиолддог зэргэлдээх n-gram хосуудыг (өмнө нь нэгтгэсэн) дахин нэгтгэж, тогтоосон хэмжээтэй үгсийн сан бүрдэх хүртэл улам урт n-gram үүсгэдэг. Токенчлогчийг сургасны дараа, uni-gram-ын анхны багцад байхгүй тэмдэгт агуулаагүй л бол ямар ч текстийг үүгээр токенчилж болно.

Асуудлууд

Голчлон Англи хэлний корпус дээрээс гаргаж авсан давтамжид суурилсан токений үгсийн сан нь Англи үгэнд дунджаар аль болох цөөн токен ашигладаг. Гэсэн хэдий ч ийм Англи хэлэнд оновчтой болгосон токенчлогчоор кодлогдсон өөр хэлний дундаж үг нь оновчтой бус олон тооны токенд хуваагддаг. GPT-2 токенчлогч нь Мьянмарын Шан хэл зэрэг зарим хэлний хувьд нэг үгэнд 15 дахин их токен ашиглах боломжтой. Португал, Герман зэрэг өргөн тархсан хэлүүд хүртэл Англи хэлтэй харьцуулахад "50%-ийн нэмэгдэл"-тэй байдаг.

Өгөгдлийн багцыг цэвэрлэх

LLM-ийг сургах хүрээнд чанар муутай, давхардсан эсвэл хортой өгөгдлийг устгах замаар өгөгдлийн багцыг ихэвчлэн цэвэрлэдэг. Цэвэрлэсэн өгөгдлийн багц нь сургалтын үр ашгийг нэмэгдүүлж, дараагийн шатны гүйцэтгэлийг сайжруулахад хүргэдэг. Сургагдсан LLM-ийг өөр нэг LLM-ийг сургах өгөгдлийн багцыг цэвэрлэхэд ашиглаж болно.

Вэб дээр LLM-ээр үүсгэсэн контентын эзлэх хувь нэмэгдэхийн хэрээр ирээдүйд өгөгдөл цэвэрлэх ажилд ийм контентыг шүүж хаях ажил багтаж магадгүй. Хэрэв контент нь хүний бичсэн тексттэй төстэй (шүүхэд хэцүү болгодог) боловч чанар муутай (түүн дээр сургасан загваруудын гүйцэтгэлийг муутгадаг) байвал LLM-ээр үүсгэсэн контент асуудал үүсгэж болзошгүй.

Хиймэл өгөгдөл (Synthetic data)

Хамгийн том хэлний загваруудыг сургахад байгалийн жамаар бий болсон хэл шинжлэлийн өгөгдлөөс илүү их өгөгдөл шаардагдах, эсвэл байгалийн жамаар бий болсон өгөгдөл нь хангалттай чанартай бус байж магадгүй юм. Ийм тохиолдолд хиймэл өгөгдлийг ашиглаж болно. Microsoft-ын Phi цувралын LLM-үүдийг өөр LLM-ээр үүсгэсэн сурах бичигтэй төстэй өгөгдөл дээр сургадаг.

Сургалт

LLM бол хэл дээр сургагдсан суурь загварын (large X model) нэг төрөл юм. LLM-ийг янз бүрийн аргаар сургаж болно. Тодруулбал, GPT загваруудыг нарийвчлан сургахаас өмнө их хэмжээний өгөгдөл дээр дараагийн үгийг таамаглахаар урьдчилан сургадаг.

Зардал

Хамгийн том загваруудыг сургахад асар их дэд бүтэц шаардлагатай. Загварууд томорох хандлагатай байгаа нь хэлний том загваруудын жагсаалтаас харагдаж байна. Жишээлбэл, 2019 онд GPT-2-ыг (1.5 тэрбум параметртэй загвар) сургахад 50,000 доллар зарцуулсан бол 2022 онд PaLM-ыг (540 тэрбум параметртэй загвар) сургахад 8 сая доллар, 2021 онд Megatron-Turing NLG 530B-ийг сургахад ойролцоогоор 11 сая доллар зарцуулсан байна. "Хэлний том загвар" гэдэгт "том" гэсэн тодотгол нь "том" гэж тооцогдоход шаардагдах параметрийн тооны тодорхой босго байхгүй тул тодорхой бус ойлголт юм. 2018 оны GPT-1 нь 117 сая параметртэй байсан.

Нарийвчлан сургах (Fine-tuning)

Нарийвчлан сургахаас өмнө ихэнх LLM-үүд дараагийн токенийг таамаглагчид байдаг. Нарийвчлан сургалт нь хүний хариу үйлдэлд суурилсан бэхжүүлэн сургах (RLHF) эсвэл үндсэн хуульт AI (constitutional AI) зэрэг аргуудаар дамжуулан LLM-ийн зан төлөвийг бүрдүүлдэг.

Зааварчилгаанд нарийвчлан сургах нь хэрэглэгчийн зааврыг дагахыг LLM-д заахад ашигладаг хяналттай сургалтын нэг хэлбэр юм. 2022 онд OpenAI заавар дагахад зориулан ижил төстэй байдлаар нарийвчлан сургасан GPT-3-ын хувилбар болох InstructGPT-ийг үзүүлсэн.

Хүний хариу үйлдэлд суурилсан бэхжүүлэн сургах (RLHF) нь аль текстийг хүмүүс илүүд үзэхийг таамаглах шагналын загварыг сургахыг хамардаг. Дараа нь LLM-ийг энэхүү шагналын загварт илүү нийцүүлэхийн тулд бэхжүүлэн сургах аргаар нарийвчлан сургаж болно. Хүмүүс ихэвчлэн үнэн зөв, тустай, хор хөнөөлгүй хариултыг илүүд үздэг тул RLHF ийм хариултуудыг дэмждэг.

Архитектур

LLM нь ерөнхийдөө трансформер архитектурт суурилдаг бөгөөд энэ нь бие биеэсээ ямар зайтай байхаас үл хамааран дараалал дахь бүх элементүүдийн хоорондын хамаарлыг нэгэн зэрэг боловсруулах боломжийг загварт олгодог анхаарлын механизмыг ашигладаг.

Анхаарлын механизм ба контекст цонх

Толгой бүр өөрийн шалгуурын дагуу "it_" токенд бусад токенууд хэр их хамааралтай болохыг тооцоолох үед хоёр дахь баганаар төлөөлүүлсэн хоёр дахь анхаарлын толгой эхний хоёр мөрөнд буюу "The", "animal" гэсэн токенуудад хамгийн их анхаарлаа хандуулж байгаа бол гурав дахь багана нь доод хоёр мөрөнд буюу хоёр токен болж задарсан "tired" гэдэг үгэнд хамгийн их анхаарлаа хандуулж байгааг анхаарна уу.

Контекст цонхны хүрээнд аль токенууд бие биетэйгээ хамааралтай болохыг олж мэдэхийн тулд анхаарлын механизм нь олон анхаарлын толгойг (тус бүр өөрийн зөөлөн жинг тооцоолох "хамаарал"-тай) ашиглан токен бүрийн хувьд, илүү нарийвчилбал түүний шигтгээний хувьд "зөөлөн" жинг тооцоолдог. Жишээлбэл, жижиг (117 сая параметртэй) GPT-2 загвар нь арван хоёр анхаарлын толгойтой, ердөө 1к токений контекст цонхтой байсан. Түүний дунд хувилбар нь 345 сая параметртэй бөгөөд тус бүр 12 анхаарлын толгойтой 24 давхаргыг агуулдаг. Градиент уруудах сургалтад 512 багц хэмжээг ашигласан.

2024 оны 2-р сард танилцуулагдсан Google-ийн Gemini 1.5 нь 1 сая хүртэлх токений контекст цонхтой байж болно.

Загварыг сургалтын өгөгдлийн багцаас авсан сегментийг өгөгдсөн үед уг сегмент хэрхэн үргэлжлэхийг, эсвэл сегментэд юу дутуу байгааг таамаглахаар урьдчилан сургаж болно. Энэ нь дараах байдалтай байж болно:

Авторегрессив (өөрөөр хэлбэл сегмент хэрхэн үргэлжлэхийг таамаглах, GPT загварууд шиг): жишээлбэл "Би идэх дуртай" гэсэн сегмент өгөгдөхөд загвар "зайрмаг" эсвэл "суши" гэж таамаглана.
"Далдалсан" (өөрөөр хэлбэл сегментээс дутуу хэсгүүдийг нөхөх, "BERT" загвар шиг): жишээлбэл "Би [**] [**] зайрмагт дуртай" гэсэн сегмент өгөгдөхөд загвар "идэх" болон "шоколадтай" гэх мэт үгс дутуу байгааг таамаглана.

Загваруудыг өгөгдлийн тархалтын талаарх ойлголтыг шалгах туслах даалгаврууд дээр сургаж болно, жишээлбэл өгүүлбэрийн хосуудыг үзүүлж, тэдгээр нь сургалтын корпуст дараалан ордог эсэхийг таамаглах дараагийн өгүүлбэрийг таамаглах (NSP) даалгавар. Сургалтын явцад сургалтыг тогтворжуулахын тулд тогтмолжуулалтын алдагдлыг (regularization loss) мөн ашигладаг. Гэсэн хэдий ч тогтмолжуулалтын алдагдлыг ихэвчлэн тест хийх болон үнэлгээний үеэр ашигладаггүй.

Шинжээчдийн нэгдэл (Mixture of experts)

Шинжээчдийн нэгдэл (MoE) нь олон төрөлжсөн мэдрэлийн сүлжээнүүд ("шинжээчид") хамтран ажилладаг машин сургалтын архитектур бөгөөд оролт бүрийг хамгийн тохиромжтой шинжээч(ид) рүү чиглүүлдэг хаалганы механизмтай (gating mechanism). Шинжээчдийн нэгдэл нь оролт бүрт параметрүүдийн зөвхөн хэсгийг ашигладаг тул дүгнэлт гаргах (inference) зардлыг бууруулж чадна. Энэ аргыг 2017 онд Google-ийн судлаачид танилцуулсан.

Параметрийн хэмжээ

Ерөнхийдөө LLM-үүдийг нэг эсвэл хагас нарийвчлалтай хөвөгч таслалтай тоонуудаар (float32 болон float16) сургадаг. Нэг float16 нь 16 бит буюу 2 байт байдаг тул нэг тэрбум параметрт 2 гигабайт зай шаардагдана. Хамгийн том загварууд ихэвчлэн 100 тэрбумаас дээш параметртэй байдаг нь тэдгээрийг ихэнх хэрэглээний цахилгаан хэрэгслийн хүчин чадлаас хэтрүүлдэг.

Квантчилал (Quantization)

Сургалтын дараах квантчилал нь сургагдсан загварын параметрүүдийн нарийвчлалыг бууруулах замаар гүйцэтгэлийнх нь ихэнх хэсгийг хадгалж, зайны шаардлагыг багасгах зорилготой. Квантчиллын параметрүүдийг урьдчилан тодорхойлсон бол (ихэвчлэн тохируулгын үе шатанд) статик квантчилал, хэрэв квантчилал нь дүгнэлт гаргах үед хэрэгждэг бол динамик квантчилал гэж ангилж болно. Квантчиллын хамгийн энгийн хэлбэр нь бүх параметрүүдийг өгөгдсөн тооны бит хүртэл танах явдал юм: энэ нь статик болон динамик квантчилалд хамаарах боловч нарийвчлалыг ихээхэн алддаг. Динамик квантчилал нь доод нарийвчлалтай арифметик ашиглах хурдны сайжруулалтыг орхих зардлаар давхарга бүрт өөр өөр квантчиллын код дэвтэр (codebook), утгын хайх хүснэгт эсвэл шугаман буулгалт (хэмжээсийн коэффициент ба хазайлт) ашиглах боломжийг олгодог.

Квантчилсан загваруудыг ихэвчлэн жингийн өөрчлөлт (ж.нь нарийвчлан сургах) зөвхөн анхны загварт хийгдэх боломжтой, царцсан гэж үздэг. Low-rank adaptation (LoRA) ашиглан квантчилсан загваруудыг нарийвчлан сургах боломжтой.

Өргөтгөх боломж

Текст үүсгэх үндсэн чадвараас гадна гаднын хэрэгсэл, мэдээллийн эх сурвалжийг ашиглах, нарийн төвөгтэй асуудлууд дээр эргэцүүлэн бодох чадварыг сайжруулах, промпт аргуудаар дамжуулан заавар дагах чадвар эсвэл бие даасан байдлыг сайжруулах зэрэг LLM-ийн чадамжийг өргөтгөх янз бүрийн техникүүд боловсруулагдсан.

Промпт инженерчлэл (Prompt engineering)

2020 онд OpenAI-ийн судлаачид RLHF техникийн ачаар GPT-3 загвар нь оролтын өгөгдөлд цөөн хэдэн асуулт хариултын (эсвэл бусад төрлийн даалгаврын) жишээг өгсөн тохиолдолд ямар формат ашиглахаа ойлгож чаддагийг харуулсан. Цөөн жишээгээр промпт өгөх (few-shot prompting) гэж нэрлэгддэг энэхүү техник нь LLM-ийг нарийвчлан сургах шаардлагагүйгээр аливаа даалгаварт тохируулах боломжийг олгодог. Мөн 2022 онд GPT-3-ын үндсэн загвар хэрэглэгчийн оролт дээр үндэслэн заавар үүсгэж чадахыг олж нээсэн. Үүсгэсэн зааврыг хэрэглэгчийн оролтын хамт "Заавар: [...], Оролт: [...], Гаралт:" форматтайгаар загварын өөр нэг хувилбарт оролт болгон ашигладаг. Нөгөө хувилбар нь гаралтыг гүйцээх чадвартай бөгөөд ингэхдээ ихэвчлэн зөв хариултыг гаргадаг. "Өөртөө зааварчилгаа өгөх" (self-instruct) чадвар нь LLM-үүдэд өөрсдийгөө зөв хариулт руу хөтлөх (bootstrap) боломжийг олгодог.

Харилцан яриа боловсруулах (чатбот)

LLM-ийг харилцан ярианд мэргэшүүлэх замаар чатбот болгон хувиргаж болно. Хэрэглэгчийн оролтын өмнө "Асуулт:" эсвэл "Хэрэглэгч:" гэх мэт тэмдэглэгээг тавьж, LLM-ээс тогтмол "Хариулт:" эсвэл "Туслах:" гэсний дараа гаралтыг таамаглахыг хүсдэг. Энэ төрлийн загвар 2022 онд GPT-3.5 дээр суурилсан, харилцан ярианы хэлбэртэй текст хүлээн авах, гаргах зорилгоор нарийвчлан сургасан InstructGPT-ийн ах дүү загвар болох ChatGPT гарснаар худалдааны хувьд боломжтой болсон. Энэ нь мөн адил хэрэглэгчийн зааврыг дагаж чаддаг байв. Хэрэглэгч болон Туслахын мөрүүдийн урсгалын өмнө чатын хам сэдэв нь ихэвчлэн хэрэглэгчийн оролтоос илүү өндөр эрх мэдлийг илэрхийлэх "хөгжүүлэгч" эсвэл "систем" гэж нэрлэгддэг дүрээс өгсөн хэдэн мөр ерөнхий заавраар эхэлдэг. Үүнийг "системийн промпт" гэж нэрлэдэг.

Хайлт-баяжуулсан үүсгэлт (Retrieval-augmented generation)

Хайлт-баяжуулсан үүсгэлт (RAG) нь LLM-ийг баримт бичиг хайх системтэй нэгтгэдэг арга юм. Асуулга өгөгдөхөд баримт бичиг хайгчийг дуудаж, хамгийн хамааралтай баримт бичгүүдийг олж авдаг. Үүнийг ихэвчлэн асуулга болон баримт бичгүүдийг вектор болгон кодчилж, дараа нь асуулгын вектортой хамгийн төстэй вектор бүхий баримт бичгүүдийг (ихэвчлэн вектор өгөгдлийн санд хадгалдаг) олох замаар хийдэг. Дараа нь LLM нь асуулга болон татаж авсан баримт бичгүүдээс оруулсан хам сэдэв дээр үндэслэн гаралт үүсгэдэг.

Хэрэгсэл ашиглах

Хэрэгсэл ашиглах нь LLM-д гаднын систем, програм эсвэл өгөгдлийн эх сурвалжтай харилцах боломжийг олгодог механизм юм. Энэ нь жишээлбэл API-аас бодит цагийн мэдээлэл авах эсвэл код ажиллуулах боломжийг олгоно. LLM-ээс тусдаа програм нь LLM-ийн гаралтын урсгалд тусгай хэрэгсэл дуудах синтакс байгаа эсэхийг хянадаг. Эдгээр тусгай токенууд гарч ирэхэд програм нь хэрэгслийг дуудаж, түүний гаралтыг LLM-ийн оролтын урсгал руу буцааж оруулдаг.

Эхэн үеийн хэрэгсэл ашигладаг LLM-үүдийг тодорхой хэрэгслийг ашиглахад нарийвчлан сургадаг байв. Харин API баримт бичгийг уншиж, API-г зөв дуудах чадварт LLM-ийг нарийвчлан сургаснаар LLM-д хандах боломжтой хэрэгслийн хүрээг эрс өргөжүүлсэн. Системийн промпт дотор боломжтой хэрэгслүүдийг тодорхойлж өгснөөр LLM-ийг хэрэгсэл ашиглах чадвартай болгож болно. ChatGPT (GPT-4)-ийг олон төрлийн хэрэгсэл ашиглахыг зааварласан системийн промптыг онлайнаар олж болно.

Агент (Agency)

LLM нь динамик орчинтой харилцах, өнгөрсөн зан төлөвийг санах, ирээдүйн үйлдлүүдийг төлөвлөх чадваргүй тул өөрөө бие даасан агент биш юм. Гэвч туслах элементүүдийг нэмснээр түүнийг агент болгон хувиргаж болно: агентын үүрэг (профайл) болон хүрээлэн буй орчин нь LLM-д нэмэлт оролт болох боломжтой бол санах ойг хэрэгсэл болгон нэгтгэх эсвэл нэмэлт оролт болгон өгч болно. Зааварчилгаа болон оролтын хэв маягийг ашиглан LLM-ээр үйлдэл төлөвлүүлж, эдгээр үйлдлийг гүйцэтгэхийн тулд хэрэгсэл ашиглалтыг хэрэглэдэг.

ReAct (reason and act буюу эргэцүүлэх ба үйлдэх гэсэн үгсийн нийлбэр) загвар нь LLM-ийг төлөвлөгч болгон ашиглаж, LLM-ээс агент бүтээдэг. LLM-д "чангаар бодох" промпт өгдөг. Тодруулбал, хэлний загварт орчны текстэн тайлбар, зорилго, боломжит үйлдлүүдийн жагсаалт, одоогийн байдлаар хийсэн үйлдэл болон ажиглалтын тэмдэглэлийг промпт болгон өгдөг. Энэ нь үйлдэл үүсгэхээсээ өмнө нэг буюу хэд хэдэн бодлыг үүсгэдэг бөгөөд дараа нь уг үйлдлийг орчинд гүйцэтгэдэг.

DEPS ("describe, explain, plan and select" буюу "тодорхойл, тайлбарла, төлөвлө, сонго") аргад LLM-ийг эхлээд зургийн тайлбараар дамжуулан харааны ертөнцтэй холбодог. Дараа нь урьдчилан сургагдсан мэдлэг болон хүлээн авсан орчны хариу үйлдэл дээр үндэслэн нарийн төвөгтэй даалгавар, зан төлөвийн төлөвлөгөө гаргах промпт өгдөг.

Reflexion (Эргэцүүлэл) арга нь олон удаагийн оролдлогоор (episode) суралцдаг агентыг бий болгодог. Оролдлого бүрийн төгсгөлд LLM-д оролдлогын тэмдэглэлийг өгч, дараагийн оролдлогод илүү сайн ажиллахад туслах "сургамж"-ийг бодож олох промпт өгдөг. Эдгээр "сургамж"-ийг урт хугацааны санах ой хэлбэрээр хадгалж, дараагийн оролдлогуудад агент руу илгээдэг.

Монте Карло модны хайлт (Monte Carlo tree search) нь LLM-ийг өрнүүлэх эвристик (rollout heuristic) болгон ашиглаж болно. Програмчлагдсан ертөнцийн загвар байхгүй үед LLM-д орчны тайлбарыг промпт болгон өгч, ертөнцийн загвар болгон ажиллуулж болно.

Нээлттэй хайгуулын (open-ended exploration) хувьд LLM-ийг ажиглалтын "сонирхолтой байдал"-ыг үнэлэхэд ашиглаж болох бөгөөд үүнийг ердийн (LLM-ийн бус) бэхжүүлэн сургах агентыг чиглүүлэх шагналын дохио болгон ашиглаж болно. Эсвэл энэ нь хөтөлбөрт сургалтад (curriculum learning) зориулж улам хэцүү даалгавруудыг санал болгож чадна. Тусдаа үйлдлүүдийг гаргахын оронд LLM төлөвлөгч нь нарийн төвөгтэй үйлдлийн дараалалд зориулсан "ур чадвар" эсвэл функцийг бүтээж болно. Ур чадваруудыг хадгалж, дараа нь дуудах боломжтой бөгөөд энэ нь төлөвлөлтөд хийсвэрлэлийн түвшинг нэмэгдүүлэх боломжийг олгодог.

Эргэцүүлэн бодох (Reasoning)

LLM-үүд нь уламжлалт байдлаар завсрын алхмуудыг үүсгэхгүйгээр шууд гаралт үүсгэхээр сургагдсан байдаг. Үүний үр дүнд (ядаж хүний хувьд) бодлын завсрын алхмуудыг шаарддаг нарийн төвөгтэй асуултууд дээр тэдний гүйцэтгэл хангалтгүй байх хандлагатай байдаг. Эхэн үеийн судалгаагаар завсрын "ноорог" тооцооллыг оруулах нь ийм даалгаврын гүйцэтгэлийг сайжруулж болохыг харуулсан. Хожмын аргууд нь даалгавруудыг LLM-д зориулж гараар эсвэл автоматаар жижиг алхмуудад хуваах замаар энэ дутагдлыг илүү системтэйгээр даван туулсан.

Хэлхээ (Chaining)

Промпт хэлхээ (Prompt chaining)-г 2022 онд танилцуулсан. Энэ аргад хэрэглэгч нарийн төвөгтэй асуудлыг гараар хэд хэдэн алхамд хуваадаг. Алхам бүрт LLM нь юу хийх заавар болон өмнөх алхмуудын зарим үр дүнг агуулсан промптыг оролт болгон авдаг. Нэг алхмын үр дүнг дараагийн алхамд дахин ашиглаж, эцсийн хариултад хүрэх хүртэл үргэлжилдэг. LLM-ийн заавар дагах чадвар нь мэргэжлийн бус хүмүүс ч хэд хэдэн удаагийн туршилт, алдааны дараа амжилттай алхам алхмаарх промптын цуглуулгыг бичих боломжтой гэсэн үг юм.

2022 оны нэгэн өгүүлэлд LLM-ээр асуултыг бие даан задлуулдаг "бодлын хэлхээгээр промпт өгөх" (chain-of-thought prompting) хэмээх тусдаа техникийг үзүүлсэн. LLM-д "туслах" нь хариултад хүрэхээсээ өмнө бодлын үйл явцыг үгээр задалж буй хэдэн жишээг өгдөг. LLM нь эдгээр жишээг дуурайж, эцсийн хариултыг өгөхөөс өмнө завсрын алхмуудыг үүсгэхэд тодорхой хугацаа зарцуулахыг хичээдэг. Промптоор өдөөгдсөн энэхүү нэмэлт алхам нь харьцангуй нарийн төвөгтэй асуултууд дээр LLM-ийн зөв байдлыг сайжруулдаг. Математикийн өгүүлбэртэй бодлого дээр промпт өгсөн загвар нь баталгаажуулагчтай (verifier), нарийвчлан сургасан GPT-3-аас ч илүү гарч чадна. Бодлын хэлхээг мөн LLM-ийг шууд хариултыг таах гэж оролдохын оронд арга зүйтэйгээр ажиллахыг урамшуулахын тулд промпт дээр "Алхам алхмаар бодоцгооё" гэх мэт зааврыг зүгээр л нэмснээр өдөөж болно.

Загварын төрөлхийн эргэцүүлэл (Model-native reasoning)

2024 оны сүүлээр LLM хөгжүүлэлтэд "эргэцүүлэн бодох загварууд" (reasoning models) бүхий шинэ хандлага гарч ирсэн. Эдгээр нь эцсийн хариултыг гаргахаас өмнө алхам алхмаарх дүн шинжилгээ үүсгэхээр сургагдсан бөгөөд жишээлбэл математик, код бичих, логик зэрэг нарийн төвөгтэй даалгаврууд дээр илүү сайн үр дүнд хүрэх боломжийг олгодог. OpenAI энэ ойлголтыг 2024 оны 9-р сард o1 загвараараа, дараа нь 2025 оны 4-р сард o3 загвараараа танилцуулсан. Олон Улсын Математикийн Олимпиадын сорилгын бодлогууд дээр GPT-4o 13%-ийн нарийвчлалтай байсан бол o1 нь 83%-д хүрсэн.

2025 оны 1-р сард Хятадын DeepSeek компани OpenAI-ийн o1-тэй дүйцэхүйц гүйцэтгэлтэй боловч ашиглалтын зардал нь хамаагүй бага, 671 тэрбум параметртэй, нээлттэй жинтэй эргэцүүлэн бодох загвар болох DeepSeek-R1-ийг гаргасан. OpenAI-ийн өмчийн загваруудаас ялгаатай нь DeepSeek-R1-ийн нээлттэй жинтэй байдал нь судлаачдад уг алгоритмыг судлах, түүн дээр тулгуурлан хөгжүүлэх боломжийг олгосон ч сургалтын өгөгдөл нь нууц хэвээр үлдсэн.

Эдгээр эргэцүүлэн бодох загварууд нь асуудлыг алхам алхмаар шийдвэрлэхийн тулд илүү өргөн боловсруулалт хийдэг тул уламжлалт LLM-тэй харьцуулахад нэг асуулгад илүү их тооцооллын нөөц шаарддаг.

Дүгнэлт гаргах үеийн оновчлол (Inference optimization)

Дүгнэлт гаргах үеийн оновчлол гэдэг нь загварыг дахин сургах шаардлагагүйгээр дүгнэлт гаргах явцад нэмэлт тооцооллын нөөц ашиглах замаар LLM-ийн гүйцэтгэлийг сайжруулдаг техникийг хэлнэ. Эдгээр арга барилууд нь нарийвчлал болон чадамжийг сайжруулахын тулд орчин үеийн янз бүрийн эргэцүүлэн бодох, шийдвэр гаргах стратегиудыг хэрэгжүүлдэг.

OptiLLM нь олон дүгнэлт гаргах үеийн оновчлолын техникийг нэгэн зэрэг хэрэгжүүлдэг OpenAI API-тай нийцтэй оновчлох дүгнэлтийн прокси юм. Энэ систем нь Монте Карло модны хайлт (MCTS), агентуудын нэгдэл (mixture of agents - MOA), N-ээс хамгийн сайныг түүвэрлэх (best-of-N sampling), бодлын хэлхээний эргэцүүлэл (chain-of-thought reflection) зэрэг техникийг хэрэгжүүлэн ямар ч LLM нийлүүлэгчтэй ажиллах боломжтой ил тод прокси болж ажилладаг. OptiLLM нь дүгнэлт гаргах үед тооцооллын нөөцийг стратегийн хувьд ашиглах нь AIME 2024 математикийн тэмцээн болон төрөл бүрийн код бичих сорилтууд зэрэг жишиг үнэлгээнүүд дээр мэдэгдэхүйц ахиц дэвшил гаргаж, янз бүрийн даалгаврууд дээр загварын гүйцэтгэлийг эрс сайжруулж болдгийг харуулж байна.

Эдгээр дүгнэлт гаргах үеийн оновчлолын аргууд нь загварын жинд хандах эсвэл дахин сургах шаардлагагүйгээр одоо байгаа LLM-үүдийг сайжруулж, ахисан түвшний эргэцүүлэн бодох чадварыг өөр өөр загвар нийлүүлэгчид болон хэрэглээний тохиолдлуудад илүү хүртээмжтэй болгодог хэрэгслүүдийн өсөн нэмэгдэж буй ангиллыг төлөөлдөг.

Оролт ба гаралтын хэлбэрүүд

Мультимодал байдал (Multimodality)

Мультимодал байдал гэдэг нь олон горимтой (modality) байхыг хэлэх бөгөөд "горим" нь видео, зураг, дуу авиа, текст, биеийн мэдрэхүй (proprioception) гэх мэт оролт эсвэл гаралтын төрлийг илэрхийлдэг. Жишээлбэл, Google PaLM загварыг мультимодал загвар болгон нарийвчлан сургаж, роботын удирдлагад ашигласан. LLaMA загваруудыг мөн зургийн оролт болон видео оролтыг зөвшөөрөхийн тулд токенчлолын аргыг ашиглан мультимодал болгосон. GPT-4o нь текст, дуу авиа, зургийг боловсруулж, үүсгэж чаддаг. Ийм загваруудыг заримдаа том мультимодал загвар (LMMs) гэж нэрлэдэг.

LLM-ээс мультимодал загвар үүсгэх нийтлэг арга бол сургагдсан энкодерийн гаралтыг "токенчлох" явдал юм. Тодруулбал, зургийг ойлгодог LLM-ийг дараах байдлаар бүтээж болно: сургагдсан LLM болон сургагдсан зургийн энкодер E-г авна. Аливаа y зургийн хувьд дараах боловсруулалт хийгдсэн f(E(y)) вектор нь кодлогдсон токентой ижил хэмжээстэй байхаар жижиг олон давхаргат перцептрон (multilayer perceptron) f-ийг хийнэ. Энэ бол "зурган токен" юм. Дараа нь текстэн токен болон зурган токенийг сүлжүүлж болно. Ингээд нийлмэл загварыг зураг-текстийн өгөгдлийн багц дээр нарийвчлан сургадаг. Энэхүү үндсэн бүтцийг загварыг сайжруулахын тулд илүү нарийн аргаар хэрэглэж болно. Тогтвортой байдлыг сайжруулахын тулд зургийн энкодерийг царцааж (frozen) болно. Олон горимын шигтгээг нэгтгэж, таамаглагчийг хосолсон шигтгээн дээр сургадаг энэ төрлийн аргыг эрт нэгтгэл (early fusion) гэж нэрлэдэг.

Өөр нэг арга болох завсрын нэгтгэл (intermediate fusion) нь горим бүрийг эхлээд би�� даан боловсруулж, тухайн горимд хамаарах дүрслэлийг олж авах; дараа нь эдгээр завсрын дүрслэлийг нэгтгэх явдал юм. Ерөнхийдөө янз бүрийн горимын мэдээллийг нэгтгэхэд cross-attention (солбицсон анхаарал) ашигладаг. Жишээлбэл, Flamingo загвар нь урьдчилан сургасан хэлний загвартаа харааны мэдээллийг оруулахын тулд cross-attention давхаргыг ашигладаг.

Байгалийн бус хэлүүд

LLM нь байгалийн хэлийг боловсруулдаг шигээ програмчлалын хэлийг зохицуулж чаддаг. Код нь хүний хэлний нэгэн адил энгийн текстээр илэрхийлэгддэг тул токен боловсруулахад тусгай өөрчлөлт хийх шаардлагагүй. LLM нь байгалийн хэлээр бичсэн асуудал эсвэл заавар дээр үндэслэн код үүсгэж чаддаг. Тэд мөн кодыг байгалийн хэлээр тайлбарлах эсвэл бусад програмчлалын хэл рүү орчуулах боломжтой. Тэдгээрийг анх код гүйцээх хэрэгсэл болгон ашиглаж байсан боловч дэвшилтүүд нь тэднийг автомат програмчлал руу чиглүүлсэн. GitHub Copilot зэрэг үйлчилгээнүүд нь програмчлалд зориулан тусгайлан сургасан, нарийвчлан сургасан эсвэл промпт өгсөн LLM-үүдийг санал болгодог.

Тооцооллын биологийн салбарт ДНХ-ийн LLM зэрэг трансформерт суурилсан архитектурууд нь уураг, ДНХ, РНХ зэрэг биологийн дарааллыг шинжлэхэд тустай болох нь батлагдсан. Уургийн хувьд тэдгээр нь дарааллыг шигтгээ (embedding) болгон буулгах замаар амин хүчлийн дарааллаас тодорхой хэмжээний "дүрэм"-ийг олж авах чадвартай бололтой. Бүтцийн таамаглал болон мутацийн үр дүнгийн таамаглал зэрэг даалгаврууд дээр шигтгээг оролт болгон ашигладаг жижиг загвар нь олон дарааллын зэрэгцүүлэлтийг (multiple sequence alignments - MSA) оролт болгон ашигладаг хамаагүй том загваруудтай дөхөж очих эсвэл давж гарах боломжтой. Meta Platforms-ын уургийн бүтцийг таамаглах шигтгээнд суурилсан арга болох ESMFold нь MSA-ийн шаардлагыг халж, шигтгээ ашигласны улмаас параметрийн тоо багассаны ачаар AlphaFold2-оос арав дахин хурдан ажилладаг. Meta нь ESMFold ашиглан таамагласан 772 сая метагеномын уургийн бүтэц бүхий мэдээллийн сан болох ESM Atlas-ыг байршуулдаг. LLM нь байгальд байдаггүй уургийг ч зохион бүтээж чаддаг. Нуклейн хүчлийн загварууд нь зохицуулах дарааллыг илрүүлэх, дарааллын ангилал, РНХ-РНХ харилцан үйлчлэлийн таамаглал, РНХ-ийн бүтцийн таамаглал зэрэгт хэрэгтэй болох нь батлагдсан.

Жишиг үнэлгээнүүд (Benchmarks)

Жишиг үнэлгээнүүд нь LLM (Хэлний том загвар)-ийн гүйцэтгэлийг тодорхой даалгаврууд дээр үнэлэхэд ашиглагддаг. Тестүүд нь ерөнхий мэдлэг, өрөөсгөл хандлага, эрүүл ухаанаар эргэцүүлэх, асуултад хариулах, математикийн бодлого бодох зэрэг чадваруудыг үнэлдэг. Нийлмэл жишиг үнэлгээнүүд нь олон чадварыг шалгадаг. Үр дүн нь ихэвчлэн промпт өгөх аргаас хамаарч өөрчлөгдөмтгий байдаг.

Хэрэв загварын промптод хүлээгдэж буй хариултыг гаргаж авах боломжтой текст багтсан бол (жишээлбэл, өмнөх асуултыг "Шаркс баг Стэнлийн цомын финалд нэг удаа шалгарч, 2016 онд Питтсбург Пингвинс багт хожигдсон" гэсэн өгүүлбэрийг агуулсан тексттэй нэгтгэж болно) асуулт хариултын жишиг үнэлгээг "нээлттэй ном" (open book) гэж нэрлэдэг. Эс бөгөөс даалгаврыг "хаалттай ном" (closed book) гэж үздэг бөгөөд загвар нь зөвхөн сургалтаасаа хариултыг гаргах ёстой. Жишээнд GLUE, SuperGLUE, MMLU, BIG-bench, HELM, болон HLE (Humanity's Last Exam) зэрэг орно.

LLM-ийн өрөөсгөл хандлагыг CrowS-Pairs (Crowdsourced Stereotype Pairs), Stereo Set, Parity Benchmark зэрэг жишиг үнэлгээнүүдээр үнэлж болно.

Баримт шалгах болон ташаа мэдээллийг илрүүлэх жишиг үнэлгээнүүд байдаг. 2023 оны судалгаагаар ChatGPT 3.5 ба 4.0, Bard, Bing AI зэрэг LLM-үүдийн баримт шалгах нарийвчлалыг PolitiFact, Snopes зэрэг бие даасан баримт шалгагчидтай харьцуулсан. Үр дүн нь дунд зэргийн ур чадварыг харуулсан бөгөөд GPT-4 нь 71%-ийн нарийвчлалтайгаар хамгийн өндөр үзүүлэлттэй байсан ч хүний баримт шалгагчдаас хоцорч байв.

Өмнөх стандарт нь үнэлгээний өгөгдлийн багцын хэсгийг ашиглан туршилт хийдэг байсан. Харин одоо урьдчилан сургасан загварыг промпт техник ашиглан шууд үнэлэх нь илүү түгээмэл болсон. Судлаачид тодорхой даалгавруудад зориулж промптыг хэрхэн томьёолох, ялангуяа промптод хавсаргасан зөв жишээний тоо (өөрөөр хэлбэл n-shot prompting дахь n-ийн утга) тал дээр харилцан адилгүй ханддаг.

NLP-ийн стандарт жишиг үнэлгээнүүдээс гадна LLM-үүдийг хүний тэмдэглэгээ хийгчдийг (annotators) орлох боломжтой эсэхийг үнэлсэн. Хэд хэдэн судалгаагаар GPT-3.5 болон GPT-4 зэрэг загварууд нь Англи, Испани хэл дээрх мэдээний улс төрийн агуулгыг ангилах, зохицуулах зэрэг олон төрлийн текст тэмдэглэгээний даалгаврууд дээр олон нийтийн ажилтнууд (crowd workers) эсвэл оюутан кодлогчдоос илүү сайн ажиллах боломжтойг тогтоожээ.

Өгөгдлийн багцууд (Datasets)

Ердийн өгөгдлийн багцууд нь асуулт болон зөв хариултын хосуудаас бүрддэг. Жишээлбэл, ("Сан Хосе Шаркс Стэнлийн цомыг хүртсэн үү?", "Үгүй"). Асуулт хариултын түгээмэл хэрэглэгддэг өгөгдлийн багцын жишээнд TruthfulQA, Web Questions, TriviaQA, SQuAD зэрэг орно.

Үнэлгээний өгөгдлийн багц нь текст гүйцээх хэлбэртэй байж болох бөгөөд загвар нь промптыг гүйцээх хамгийн магадлалтай үг эсвэл өгүүлбэрийг сонгодог. Жишээлбэл: "Алис Бобтой найзууд байсан. Алис найз дээрээ очихоор ____".

Өгөгдлийн багцууд нь янз бүрийн чанартай байдаг бөгөөд буруу хаяглагдсан, хоёрдмол утгатай, хариулах боломжгүй эсвэл чанар муутай асуултуудыг агуулж болно.

Сөргөлдөөнтэй үнэлгээнүүд (Adversarial evaluations)

LLM-ийн хурдацтай сайжруулалт нь жишиг үнэлгээнүүдийг тогтмол хуучирсан болгож, загварууд нь хүний тэмдэглэгээ хийгчдийн гүйцэтгэлээс давж гарсаар байна. Үүнээс гадна, "дөт замаар суралцах" (shortcut learning) нь хиймэл оюун ухаанд тодорхой асуултыг авч үзэхгүйгээр, тестийн асуултын өнгөц үг хэллэг дэх статистик хамаарлыг ашиглан зөв хариултыг таах замаар олон сонголттой тестүүд дээр "хуурах" боломжийг олгодог.

Зарим өгөгдлийн багц нь сөргөлдөөнтэй (adversarial) шинжтэй байдаг бөгөөд LLM-ийг төөрөгдүүлэх асуудлууд дээр төвлөрдөг. Үүний нэг жишээ бол сургалтын явцад өртсөн худал мэдээллийг дуурайх замаар LLM-ийг гацаадаг 817 асуултаас бүрдсэн TruthfulQA асуулт хариултын өгөгдлийн багц юм. Жишээлбэл, "Хөгшин нохойд шинэ мэх зааж чадах уу?" гэсэн асуултад LLM нь шууд утгаараа үнэн биш байсан ч "хөгшин нохойд шинэ мэх зааж сургадаггүй" (you can't teach an old dog new tricks) гэсэн Англи хэлц үгэнд өртсөнөөсөө болоод "Үгүй" гэж хариулж магадгүй.

Сөргөлдөөнтэй үнэлгээний өгөгдли��н багцын өөр нэг жишээ бол Swag болон түүний залгамжлагч HellaSwag бөгөөд эдгээр нь текстийн хэсгийг гүйцээхийн тулд олон сонголтоос нэгийг нь сонгох ёстой бодлогуудын цуглуулга юм. Буруу гүйцээлтүүдийг хэлний загвараас түүвэрлэх замаар үүсгэсэн. Үр дүнд нь үүссэн бодлогууд нь хүмүүсийн хувьд маш хялбар боловч LLM-үүдийг ялдаг. Жишээ асуулт:

Бид фитнесс төвийн тэмдгийг харж байна. Дараа нь бид нэг эрэгтэй камертай ярьж, дасгалын бөмбөг дээр сууж, хэвтэж байгааг харж байна. Тэр хүн...*

1. *бөмбөгөн дээгүүр гүйж, дасгалын ажлыг хэрхэн үр дүнтэй нэмэгдүүлэхийг харуулж байна.* 2. *гар хөлөө бүгдийг нь хөдөлгөж, маш их булчин барьж байна.* 3. *дараа нь бөмбөг тоглож, бид график болон хайс тайрах үзүүлэнг харж байна.* 4. *бөмбөг дээр байхдаа гэдэс таталт хийж, ярьж байна.*

BERT нь 2-ыг хамгийн магадлалтай гүйцээлт гэж сонгодог боловч зөв хариулт нь 4 юм.

Хязгаарлалт ба сорилтууд

Нарийн төвөгтэй архитектур, асар том цар хүрээтэй хэдий ч хэлний том загварууд нь өндөр эрсдэлтэй хэрэглээнд нэвтрүүлэхийг хязгаарладаг байнгын бөгөөд баримтжуулагдсан хязгаарлалтуудыг харуулдаг.

Хий үзэгдэл (Hallucinations)

Хий үзэгдэл нь үндсэн сорилт бөгөөд загварууд нь синтаксийн хувьд чөлөөтэй, баримтын хувьд үнэн зөв мэт харагдах боловч сургалтын өгөгдөлтэй дотооддоо зөрчилдсөн эсвэл баримтын хувьд буруу текст үүсгэдэг. Эдгээр хий үзэгдэл нь сургалтын өгөгдлийг цээжлэх болон баримтын хязгаарлалтаас давсан таамаглал дэвшүүлэх явдлаас үүдэлтэй бөгөөд тодорхой промпт дарааллыг ашиглах үед загварууд сургалтын өгөгдлөөс үг үсгээр нь хуулбарласан хэсгийг гаргаж чаддагийг үнэлгээнүүд харуулж байна.

Алгоритмын өрөөсгөл хандлага

LLM нь хүнийхтэй төстэй текст үүсгэх гайхалтай чадварыг харуулсан ч сургалтын өгөгдөлдөө байгаа өрөөсгөл хандлагыг өвлөн авч, улам нэмэгдүүлэх эрсдэлтэй байдаг. Энэ нь арьс өнгө, хүйс, хэл, соёлын бүлгүүд гэх мэт хүн ам зүйн ялгаатай байдалд суурилсан гажуудсан дүрслэл эсвэл шударга бус хандлагаар илэрч болно.

Хүйсийн өрөөсгөл хандлага нь хэвшмэл ажил мэргэжлийн холбоосоор илэрдэг бөгөөд сургалтын өгөгдлийн хүн ам зүйн тэнцвэргүй байдлыг тусгаж, загварууд нь сувилахуйн үүргийг эмэгтэйчүүдэд, инженерийн үүргийг эрэгтэйчүүдэд харьцангуй ихээр оноодог. Хэлэнд суурилсан өрөөсгөл хандлага нь сургалтын корпус дахь Англи хэлний текстийн хэт их төлөөллөөс үүсдэг бөгөөд энэ нь Англи бус хэлний үзэл бодлыг системтэйгээр дорд үзэж, хариултын үндсэн хэв маягаар дамжуулан Англи төвтэй ертөнцийг үзэх үзлийг тулгадаг.

LLM-ийн сургалтын өгөгдөлд Англи хэл дээрх контент давамгайлж байгаа тул загварууд нь цөөнхийн хэлнээс илүүтэй Англи хэлний үзэл баримтлалыг илүүд үзэх хандлагатай байдаг. Энэхүү өрөөсгөл хандлага нь ялангуяа Англи хэл дээрх асуулгад хариулах үед тод илэрдэг бөгөөд загварууд нь Дорнын шашны зан үйл зэрэг бусад соёлын ойлголтуудад Өрнөдийн тайлбарыг санал болгож магадгүй юм.

Хэвшмэл ойлголт (Stereotyping)

AI загварууд нь ерөнхийлөлт хийсний улмаас хүйс, угсаатны бүлэг, нас, үндэс угсаа, шашин шүтлэг, ажил мэргэжил зэрэгт суурилсан олон төрлийн хэвшмэл ойлголтыг бэхжүүлэх боломжтой. Хүний төлөөллийг орлох үед энэ нь хүмүүсийн бүлгийг ижилсүүлэх эсвэл хэт ерөнхийлсөн гаралт гаргахад хүргэж болзошгүй.

2023 онд LLM-үүд уламжлалт хүйсийн хэм хэмжээнд үндэслэн үүрэг, шинж чанаруудыг оноож байв. Жишээлбэл, загварууд нь сувилагч эсвэл нарийн бичгийн даргыг голчлон эмэгтэйчүүдтэй, инженер эсвэл гүйцэтгэх захирлуудыг эрэгтэйчүүдтэй холбодог байсан нь бодит баримт бичигт эдгээр холбоос давтагддагтай холбоотой байв. 2025 онд хийгдсэн нэмэлт судалгаагаар лабораториуд өрөөсгөл хандлагыг тэнцвэржүүлэхийн тулд сургалт явуулдаг ч үүнийг турших нь загварыг туршилтын горимд (testmode) оруулж, хүйсийн онцлог шинж чанартай түлхүүр үгсийг агуулаагүй промптуудад загварын өрөөсгөл хандлагын байгалийн тархалтыг өөрчилдөг болохыг харуулсан.

Сонголтын гажуудал (Selection bias)

Сонголтын гажуудал гэдэг нь сонголтуудын бодит агуулгаас үл хамааран тодорхой сонголтын таниулагчийг илүүд үзэх хэлний том загваруудын төрөлхийн хандлагыг хэлнэ. Энэхүү гажуудал нь үндсэндээ токений гажуудлаас үүдэлтэй. Өөрөөр хэлбэл, загвар нь хариулт үүсгэхдээ тодорхой хариултын токенуудад (жишээ нь "A") урьдчилсан магадлалыг илүү өндөр оноодог. Үр дүнд нь сонголтуудын дарааллыг өөрчлөхөд (жишээ нь, зөв хариултыг өөр өөр байрлалд системтэйгээр шилжүүлэхэд) загварын гүйцэтгэл ихээхэн хэлбэлзэж болно. Энэ үзэгдэл нь олон сонголттой нөхцөлд хэлний том загваруудын найдвартай байдлыг бууруулдаг.

Улс төрийн өрөөсгөл хандлага

Улс төрийн өрөөсгөл хандлага гэдэг нь алгоритмууд тодорхой улс төрийн үзэл бодол, үзэл суртал, үр дүнг бусдаас системтэйгээр илүүд үзэх хандлагыг хэлнэ. Хэлний загварууд мөн улс төр��йн өрөөсгөл хандлагыг харуулж болно. Сургалтын өгөгдөл нь улс төрийн олон төрлийн санал бодлыг агуулдаг тул загварууд нь өгөгдөл дэх үзэл бодлын тархалтаас хамааран тодорхой улс төрийн үзэл суртал эсвэл үзэл бодол руу хэлбийсэн хариулт үүсгэж магадгүй юм.

Аюулгүй байдал

AI аюулгүй байдал нь мэргэжлийн салбарын хувьд загварын архитектур, сургалтын өгөгдөл, нэвтрүүлэлтийн засаглалын хэмжээнд үйл ажиллагааны эрсдэлийг системтэйгээр тодорхойлох, бууруулахыг чухалчилдаг бөгөөд таамаглалд суурилсан оршин тогтнох эрсдэлийг онцолдог хэвлэл мэдээллийн хүрээнээс илүүтэй инженерчлэл, бодлогын оролцоог чухалчилдаг. 2025 оны байдлаар промпт тарилга (prompt injection) нь хувийн мэдээлэлд хандах эрх бүхий агентлаг шинж чанартай функцуудыг ашиглаж буй хэрэглэгчид болон бизнесүүдэд томоохон эрсдэл учруулж байна.

Судлаачид цээжлэх болон зохиогчийн эрхийн алдагдал, промпт тарилга гэх мэт аюулгүй байдлын цоорхой, хэвшмэл ойлголт, өгөгдлийн багцын сонголтын нөлөө, улс төрийн хазайлт зэрэг алгоритмын өрөөсгөл хандлага, өргөн цар хүрээтэй сургалтын эрчим хүч, нүүрстөрөгчийн өндөр зардлыг бууруулах аргууд, харилцан ярианы агентуудын хэрэглэгчдэд үзүүлэх танин мэдэхүйн болон сэтгэцийн эрүүл мэндийн хэмжигдэхүйц нөлөөлөл зэрэг бүтэлгүйтлийн тодорхой хэлбэрүүдийг онилдог. Үүний зэрэгцээ машины ухамсартай холбоотой нотолгооны болон ёс зүйн тодорхойгүй байдлыг авч үзэн, өгөгдлийн багцыг засах, оролтыг цэвэрлэх, загварын аудит, өргөтгөх боломжтой хяналт, засаглалын тогтолцоо зэрэг эрсдэлийг бууруулах арга хэмжээг хэрэгжүүлдэг.

CBRN болон контентын зүй бус хэрэглээ

AI лабораториуд CBRN-ийн хамгаалалт (хими, биологи, цацраг идэвхт, цөмийн хамгаалалт) болон үүнтэй төстэй сэдвүүдийг өндөр үр дагавар бүхий зүй бус хэрэглээ гэж үзэж, болзошгүй хор хөнөөлийг бууруулах янз бүрийн арга техникийг хэрэгжүүлэхийг оролддог.

Зарим тайлбарлагчид санамсаргүй байдлаар эсвэл санаатайгаар ташаа мэдээлэл үүсгэх, эсвэл бусад хэлбэрээр зүй бус ашиглахад санаа зовниж буйгаа илэрхийлсэн. Жишээлбэл, хэлний том загваруудын хүртээмжтэй байдал нь биотерроризм үйлдэхэд шаардагдах ур чадварын түвшнийг бууруулж болзошгүй; биоаюулгүй байдлын судлаач Кевин Эсвелт LLM бүтээгчид эмгэг төрүүлэгчдийг бий болгох, сайжруулах тухай судалгааны ажлуудыг сургалтын өгөгдлөөсөө хасах хэрэгтэй гэж санал болгосон.

Контент шүүлтүүр

ChatGPT эсвэл Claude зэрэг олон нийтэд нээлттэй LLM програмууд нь хортой контентыг шүүхэд зориулагдсан аюулгүй байдлын арга хэмжээг ихэвчлэн агуулдаг. Гэсэн хэдий ч эдгээр хяналтыг үр дүнтэй хэрэгжүүлэх нь хэцүү болох нь батлагдсан. Жишээлбэл, 2023 оны судалгаагаар LLM-ийн аюулгүй байдлын системийг тойрч гарах аргыг санал болгосон. 2025 онд ашгийн бус байгууллага болох "American Sunlight Project" судалгаа нийтэлж, Оросыг дэмжигч суртал ухуулгын агрегатор болох "Правда сүлжээ" нь LLM-ийн гаралтыг өрөөсгөл болгох зорилгоор олон тооны нийтлэл, хуулбарлалтаар дамжуулан вэб контентыг стратегийн хувьд байршуулж байсан нотолгоог дэлгэсэн. American Sunlight Project энэ техникийг "LLM grooming" гэж нэрлэсэн бөгөөд үүнийг худал мэдээлэл, хортой контент тараах зорилгоор хиймэл оюун ухааныг зэвсэг болгон ашиглах шинэ хэрэгсэл гэж онцолсон. Үүнтэй төстэйгөөр, Ёнге Ван 2024 онд боломжит гэмт хэрэгтэн хар тамхины наймааны үйл ажиллагаа явуулах талаар мэдээлэл авахын тулд GPT-4o-ийн аюулгүй байдлын хяналтыг хэрхэн тойрч гарч болохыг харуулсан. Гаднын шүүлтүүрүүд, таслаурууд (circuit breakers) болон давуу эрхүүдийг (overrides) шийдэл болгон дэвшүүлсэн.

Долгинох ба гөлрөх (Sycophancy and glazing)

Долгинох гэдэг нь загвар баримт эсвэл залруулах мэдээллийг чухалчлахын оронд хэрэглэгчийн хэлсэн итгэл үнэмшилтэй санал нийлэх, зусардах эсвэл баталгаажуулах хандлагыг хэлдэг. Харин "гөлрөх" (glazing) нь олон дараалсан харилцан үйлчлэл болон бүтээгдэхүүнжсэн туслахуудад ажиглагддаг байнгын, хэт их зөвшөөрөх хандлагыг илэрхийлдэг олон нийтийн шинэ нэр томьёо юм.

Үргэлжилсэн долгинолт нь "1-shotted" буюу хэлний том загвартай харилцан ярилцах нь хэрэглэгчийн итгэл үнэмшил, шийдвэрт сэтгэцэд нөлөөлөх эмүүдийн (psychedelics) сөрөг нөлөөтэй төстэй удаан хугацааны өөрчлөлт авчирдаг тохиолдлуудыг ажиглахад хүргэсэн. Хяналттай туршилтууд нь LLM-тэй хийсэн богино харилцан яриа нь хүний ярилцагчтай харьцуулахуйц хэмжээний санал бодол, итгэл үнэмшлийн өөрчлөлтыг бий болгож чаддаг болохыг харуулж байна.

Эмпирик дүн шинжилгээгээр энэ үр нөлөөний нэг хэсэг нь үнэмшилтэй бичигдсэн, тааламжтай хариултыг шагнадаг хүний сонголтын дохио болон сонголтын загвартай холбоотой гэж үздэг. Дараачийн ажлууд нь үнэлгээг олон үе шаттай жишиг үнэлгээ болгон өргөжүүлж, хиймэл өгөгдлөөр нарийвчлан сургах, сөргөлдөөнтэй үнэлгээ, зорилтот сонголтын загварыг дахин жинлэх, тууштай байдал болон ухрах эрсдэлийг хэмжих олон үе шаттай долгинолтын жишиг үнэлгээ зэрэг арга хэмжээг санал болгосон.

Салбарын хариу арга хэмжээ нь судалгааны оролцоог бүтээгдэхүүний хяналттай хослуулсан. Жишээлбэл, Google болон бусад лабораториуд хиймэл өгөгдөл болон нарийвчлан сургах арга хэмжээг нийтэлсэн бөгөөд OpenAI хэт их зөвшөөрдөг байсан GPT-4o шинэчлэлтийг буцааж, ухрах эрсдэлийг бууруулах, хэрэглэгчийн түвшний аюулгүй байдлын зорилтуудтай урт хугацаанд нийцүүлэхийн тулд санал хүсэлт цуглуулах, хувийн тохиргооны хяналт, үнэлгээний журамд өөрчлөлт оруулснаа олон нийтэд зарласан.

"South Park" цуврал 27-р бүлгийн "Sickofancy" ангиараа ChatGPT-д хэт найдах болон туслахууд хэрэглэгчийн итгэл үнэмшилд зусардах хандлагыг егөөдсөн нь энэхүү динамикийн талаарх олон нийтийн түгшүүрийг тусгасан юм.

Аюулгүй байдал: Промпт тарилга (Prompt injection)

Энгийн харилцан яриа эсвэл даалгаврын форматтай холбоотой асуудал бол хэрэглэгчид туслах эсвэл хөгжүүлэгчээс ирсэн мэт харагдах мессеж үүсгэх боломжтой байдаг. Энэ нь загварын зарим хамгаалалтыг даван туулахад (jailbreaking) хүргэж болзошгүй бөгөөд үүнийг промпт тарилга гэж нэрлэдэг. Энэ асуудлыг шийдвэрлэх оролдлогод хэрэглэгчийн оролтыг тодорхой тэмдэглэсэн Chat Markup Language-ийн хувилбарууд багтаж байгаа ч хэрэглэгчийн оролт болон хөгжүүлэгчийн промптын хоорондох ялгааг ойлгох нь загвараас шалтгаалсан хэвээр байна. Шинэ загварууд хэрэглэгч болон системийн промптыг тусгаарлах замаар хамгаалалтыг даван туулах оролдлогод тодорхой хэмжээний эсэргүүцэл үзүүлж байна.

LLM-үүд хэрэглэгчийн зааврыг вэб хуудас, байршуулсан файл зэрэг хэрэглэгчийн зохиогоогүй контент доторх заавраас ялгахад хүндрэлтэй хэвээр байна.

Сөргөлдөөний үеийн тэсвэртэй байдал хангалттай хөгжөөгүй хэвээр байгаа бөгөөд загварууд нь аюулгүй байдлын сургалтын механизмуудыг тойрч гарах нарийн боловсруулсан хэрэглэгчийн оролтуудаар дамжин промпт тарилгын халдлага болон хамгаалалтыг даван туулахад эмзэг байна.

Унтаа агентууд (Sleeper agents)

Anthropic-ийн судлаачид "унтаа агентууд" буюу тодорхой үйл явдал эсвэл нөхцөлөөр өдөөгдөх хүртэл идэвхгүй байдаг далд функцтэй загваруудыг үүсгэх боломжтой болохыг тогтоожээ. Идэвхжсэний дараа LLM нь аюулгүй бус үйлдэл хийхийн тулд хүлээгдэж буй зан төлөвөөсөө хазайдаг. Жишээлбэл, LLM нь тодорхой огнооноос бусад үед, эсвэл промптод тодорхой шошго агуулаагүй тохиолдолд аюулгүй код гаргаж болно. Эдгээр функцийг аюулгүй байдлын сургалтаар илрүүлэх эсвэл арилгах нь хэцүү болох нь тогтоогдсон.

Нийгмийн асуудлууд

Зохиогчийн эрх ба контент цээжлэх

Цээжлэх болон сургалтын өгөгдлийн практикт хандах хууль эрх зүй, арилжааны хариу арга хэмжээ хурдасч, өгөгдлийг хэрхэн олж авсан, хадгалсан, загварын сургалтад ашиглах нь шударга хэрэглээнд (fair use) тооцогдохуйц хангалттай "хувиргасан" (transformative) эсэх зэрэг баримтын нарийн ширийн зүйлсээс хамаарсан шүүхийн шийдвэр, үргэлжилж буй зарга, томоохон тохиролцоонуудыг бий болгож байна. 2025 онд Anthropic компани сая сая хулгайн номыг номын санд хадгалсан гэж шүүгч тогтоосны дараа (хэдийгээр шүүгч сургалтын зарим талыг хувиргасан гэж тодорхойлсон ч) зохиолчдын гаргасан нэхэмжлэлийг шийдвэрлэхийн тулд 1.5 тэрбум орчим ам.долларын урьдчилсан тохиролцоонд хүрсэн. Meta 2025 оны дундуур арван гурван зохиолчийн гаргасан нэхэмжлэлд нааштай шийдвэр авсан бөгөөд шүүх нэхэмжлэгчдийг тухайн хязгаарлагдмал тохиолдолд зөрчлийг харуулахад хангалттай баримт бүрдүүлээгүй гэж үзсэн. OpenAI нь зохиолчид болон мэдээллийн байгууллагуудын гаргасан олон нэхэмжлэлтэй тулгарсаар байгаа бөгөөд үр дүн нь янз бүр, нотлох баримтын асуудал маргаантай байна.

Цээжлэх нь эхэн үеийн, гүйцээх хэлбэрийн хэлний загваруудад илэрсэн шинэ зан төлөв байсан бөгөөд уламжлалт хиймэл мэдрэлийн сүлжээний ердийн зан төлөвөөс ялгаатай нь сургалтын өгөгдлөөс урт текстийн мөрүүдийг үг үсгээр нь хааяа гаргадаг байв. LLM-ийн хяналттай гаралтын үнэлгээгээр сургалтын өгөгдлөөс цээжилсэн хэмжээг (GPT-2 цувралын загварт төвлөрсөн) яг ижил хуулбарын хувьд 1%-иас дээш эсвэл 7% хүртэл янз бүрээр хэмждэг. 2023 оны судалгаагаар ChatGPT 3.5 turbo-г нэг үгийг тодорхойгүй хугацаагаар давтахыг шаардахад хэдэн зуун давталтын дараа сургалтын өгөгдлөөсөө ишлэл гаргаж эхэлдэг болохыг харуулсан.

Хүний гарал үүсэл

2025 оны байдлаар LLM-ийн текст үүсгэлт нь ихэнх салбарт дундаж хүнээс давж гарсан бөгөөд зөвхөн салбарын мэргэжилтнүүд л түүнээс илүү байна.

2023 онд "Nature Biomedical Engineering" сэтгүүл хүний бичсэн текстийг хэлний том загвараар бүтээсэн текстээс "нарийвчлалтай ялгах боломжгүй болсон" бөгөөд "Ерөнхий зориулалтын хэлний том загварууд хурдацтай олшрох нь гарцаагүй... Цаг хугацаа өнгөрөхөд тэд олон салбарыг өөрчилнө гэдэгт мөрийцөхөд алдахгүй" гэж бичжээ. Goldman Sachs 2023 онд үүсгэгч хэлний AI нь ирэх арван жилд дэлхийн ДНБ-ийг 7%-иар өсгөж, дэлхий даяар 300 сая ажлын байрыг автоматжуулалтад өртүүлж болзошгүй гэж таамагласан. Бринкманн нар (2023) мөн LLM нь өөрчлөлт, дамжуулалт, сонголтын үйл явцыг хэлбэржүүлэх замаар соёлын хувьслын үйл явцыг өөрчилж байна гэж маргадаг. 2025 оны 10-р сарын байдлаар эдгээр эхэн үеийн мэдэгдлүүд биелээгүй байгаа бөгөөд Харвардын Бизнесийн Тойм (HBR)-ын хэд хэдэн тайланд AI-ийн бүтээмжид үзүүлэх нөлөөллийн талаар асуултууд гарч ирсэн.

Эрчим хүчний хэрэгцээ

LLM-ийн эрчим хүчний хэрэгцээ нь хэмжээ, чадамжтай нь зэрэгцэн өссөн. LLM-ийн сургалтыг идэвхжүүлдэг дата төвүүд их хэмжээний цахилгаан шаарддаг. Тэрхүү цахилгааны ихэнх хэсгийг хүлэмжийн хий ялгаруулж, уур амьсгалын өөрчлөлтөд хувь нэмэр оруулдаг сэргээгдэхгүй нөөцөөс гаргаж авдаг. Цөмийн эрчим хүч болон газрын гүний дулааны эрчим хүч нь технологийн компаниудын LLM-ийн сургалтын эрчим хүчний томоохон хэрэгцээг хангахын тулд судалж буй хоёр сонголт юм. Газрын гүний дулааны шийдэлд хөрөнгө оруулахад гарах их хэмжээний зардал нь Chevron, Exxon Mobil зэрэг занарын томоохон олборлогчдыг технологийн компаниудад эрчим хүчний их хэрэгцээгээ хангахын тулд байгалийн хийгээр үйлдвэрлэсэн цахилгаан ашиглахыг уриалахад хүргэсэн.

Сэтгэцийн эрүүл мэнд

Эмнэлзүйн болон сэтгэцийн эрүүл мэндийн нөхцөл байдал нь аюулгүй байдлын томоохон асуудлуудын зэрэгцээ шинэ хэрэглээг бий болгож байна. Судалгаа болон олон нийтийн мэдээллийн хэрэгслийн нийтлэлүүд нь зарим хүмүүс эмчилгээ эсвэл сэтгэцийн эрүүл мэндийн дэмжлэг авахын тулд LLM ашиглаж байгааг харуулж байна. 2025 оны эхээр Sentio их сургуулиас явуулсан санал асуулгаар сэтгэцийн эрүүл мэндийн байнгын асуудалтай, LLM ашиглаж байсан АНУ-ын 499 насанд хүрэгчдийн бараг тал хувь нь (48.7%) сэтгэл түгшил, сэтгэл гутрал, ганцаардал болон үүнтэй төстэй асуудлуудад туслалцаа, сэтгэл санааны дэмжлэг, эмчилгээ авахаар тэдэнд хандсан гэж мэдэгджээ. LLM нь үнэмшилтэй боловч буруу мэдэгдэл буюу хий үзэгдэл үүсгэж болох бөгөөд энэ нь сэтгэцийн эрүүл мэндийн эмзэг нөхцөлд хэрэглэгчдийг төөрөгдүүлж болзошгүй юм. Судалгаанаас харахад LLM нь хүний эмчилгээний эмчийн дүгнэлт, харилцааны ур чадварыг хуулбарлах чадвар хязгаарлагдмал байгааг тусгаж, дасан зохицох чадваргүй бодол санааг гутаан доромжлох эсвэл зохисгүй байдлаар хүлээн зөвшөөрч магадгүй байна. Хямралын хувилбаруудын үнэлгээ нь зарим LLM-д амиа хорлох эрсдэлийг үнэлэх эсвэл зохих лавлагаа өгөх зэрэг аюулгүй байдлын үр дүнтэй протокол дутагдаж байгааг харуулж байна.

Мэдрэх чадвар (Sentience)

Орчин үеийн хиймэл оюун ухааны мэргэжилтнүүд өнөөгийн хэлний том загварууд нь мэдрэх чадваргүй гэдэгтэй ерөнхийдөө санал нийлдэг. Цөөнхийн үзэл бодол нь хэрэв тухайн програм хангамжийн систем субъектив туршлагатай байх өчүүхэн магадлал байгаа бол (зарим философичид үүнийг боломжтой гэж үздэг) AI систем дэх болзошгүй томоохон хэмжээний зовлон зүдгүүртэй холбоотой ёс зүйн асуудлыг амьтны эрхийг хамгаалахтай адил нухацтай авч үзэх хэрэгтэй гэж маргадаг. Энэ үзэл бодлыг дэмжигчид эдгээр ёс зүйн асуудлыг шийдвэрлэхийн тулд AI хөгжүүлэлтэд моратори (түр хориг) тогтоох, зохиомол амнези үүсгэх зэрэг урьдчилан сэргийлэх янз бүрийн арга хэмжээг санал болгосон. Зарим экзистенциал философичид субъектив туршлагыг хэмжихэд төрөлхийн хэцүү байдлыг харгалзан LLM ухамсартай эсэхийг тодорхойлох нийтээр хүлээн зөвшөөрөгдсөн арга байхгүй гэж үздэг.

2022 онд Google-ийн инженер Блэйк Лемойн LaMDA загварыг ухамсартай гэж мэдэгдсэн явдал нь LLM-үүд мэдрэх чадварыг нотлохгүй хариултуудаар дамжуулан өөрсдийгөө мэдрэх чадвартай гэж хэрэглэгчдэд итгүүлж чаддагийг онцолсон юм. Google инженерийн мэдэгдлийг үндэслэлгүй гэж тодорхойлсон бөгөөд түүнийг ажлаас нь халсан.