რა არის LLM (დიდი ენობრივი მოდელი)?
სტატიის სერია AI-ზე
ეს არის პირველი სტატია ოთხი ნაწილის სერიაში:
- LLMs: გაგება იმისა, თუ რა არის ისინი და როგორ მუშაობენ (ეს სტატია).
- NLP: ბუნებრივი ენის დამუშავების შესწავლა.
- AI აგენტები: ავტონომიური ხელოვნური ინტელექტების აღმოჩენა.
- შედარება და AI Smarttalk-ის პოზიციონირება: საერთო სინთეზი და პერსპექტივა.
გაიხსენეთ ველური ყვავილების მინდორი, რომელიც თვალის გაწვდამდე ვრცელდება, სადაც უზარმაზარი ბზების გუნდი აქტიურად ბზარებს. ისინი დაფრინავენ, აგროვებენ მტვერს თითოეული ყვავილიდან და გარდაქმნიან მას უკიდურესად კომპლექსურ თაფლში. ეს თაფლი არის ენა. და ეს ბზები არიან LLMs (დიდი ენობრივი მოდელები), ის უზარმაზარი ენობრივი მოდელები, რომლებიც tirelessly მუშაობენ, რათა გარდაქმნონ უზარმაზარი რაოდენობის ტექსტური მონაცემები რაღაც სტრუქტურირებულ, თანმიმდევრულ და ზოგჯერ ძალიან შემოქმედებით რამეში.
ამ სტატიაში, ჩვენ ღრმად შევისწავლით ბზების აქტიურ ბუდეს LLMs: გაგება იმისა, როგორ აშენებენ და აუმჯობესებენ ეს უზარმაზარი ბზები თავიანთ თაფლის კომბებს (მათ არქიტექტურას), რა სახის მტვერს აგროვებენ (მონაცემები), როგორ კოორდინირებენ თაფლის წარმოებისთვის (ტექსტის გენერაცია), და ბოლოს, როგორ უნდა გავმართოთ და დავამარცხოთ ეს გუნდი, რათა ისინი მიაწვდონ ტკბილი, კარგად დამზადებული ნექტარი, ნაცვლად შემთხვევითი ნივთიერებისა.
ჩვენ გავაკეთებთ რამდენიმე ძირითადი პუნქტის განხილვას:
- LLM-ის წარმოშობა და განსაზღვრა
- ტრენინგის ტექნიკები და ყურადღების როლი
- კონკრეტული გამოყენების შემთხვევები და შეზღუდვები
- ეთიკური, ენერგეტიკული და ტექნიკური გამოწვევები
- Prompt engineering LLM-ის მაქსიმალურად გამოსაყენებლად
- განთავსების და შენარჩუნების ვარიანტები
ჩვენ ბზების ანალოგიას საკმაოდ შორს წავიყვანდით. თქ ვენ შეიძლება მოეჩვენოთ, რომ ბზის გამოსახულება ნაზი და უვნებელია, მაგრამ გახსოვდეთ, რომ ცუდად გაწვდილი გუნდი მაინც შეუძლია მრავალი ნაკბენის დატოვება. სანამ მათ დასამშვიდებლად კვამლს ავანთებთ, მოდით შევისწავლოთ LLM-ის სტრუქტურა, რომელიც აღარ მოიცავს ბევრ საიდუმლოს, როდესაც წაიკითხავთ.
დაწყებისთვის, აქ არის გამარტივებული დიაგრამა (მეტი კომენტარის გარეშე) ტექსტის გზის შესახებ LLM-ში, შესვლისგან გამოსვლამდე, ყველა ძირითადი ეტაპის გავლით:
1. რა არის LLM? ბრბო, რომელიც ყველა სხვაზე ხმამაღლა მღერის
1.1. წარმოშობა და კონცეფცია
რამდენიმე წლის განმავლობაში, ხელოვნური ინტელექტის კვლევა კონცენტრირდა ბუნებრივ ენაზე: როგორ შეგვიძლია მოდელის გაგება და შესაბამისი ტექსტის გენერაცია? თავდაპირველად, ვიყენებდით NLP (ბუნებრივი ენის დამუშავება) ტექნიკებს, რომლებიც ეფუძნებოდა მარტივ წესებს ან საბაზისო სტატისტიკას. შემდეგ კი მნიშვნელოვანი ეტაპი დადგა: ღრმა სწავლების და ნეირონული ქსელების გამოჩენა.
დიდი ენობრივი მოდელები ამ რევოლუციიდან წარმოიშვა. ისინი “დიდი” ეწოდებათ, რადგან მათ აქვთ ათასობით ან თუნდაც ასობით მილიარდი პარამეტრი. პარამეტრი არის რაღაც მსგავსი “პატარა კომპონენტის პოზიცია” ბუდის კომპლექსურ ორგანიზაციაში. თითოეული პარამეტრი “სწავლობს” სიგნალის წონის ან რეგულირების უკეთესად პროგნოზირებას მომდევნო ტოკენისთვის მოცემულ სექვენციაში.
1.2. ბუდე, რომელიც აშენებულია მასიური მონაცემების რაოდენობით
LLM-ების ბუდის ასაშენებლად, საჭიროა უზარმაზარი რაოდენობის “პოლენი”: ტექსტი. ისინი შთანთქავენ ფენომენალურ მოცულობებს შინაარსის, ციფრული წიგნებიდან დაწყებული, პრესის სტატიებით, ფორუმებითა და სოციალური მედიის საშუალებით. ამ მონაცემების შთანთქმით, მოდელის შიდა სტრუქტურა ფორმირდება, რათა შეიპყროს და არეკლოს ენის რეგულარობები.
ამიტომ, ეს ხელოვნური ფუტკრები საბოლოოდ სწავლობენ, რომ მოცემულ კონტექსტში,Certain სიტყვები უფრო სავარაუდოა, რომ გამოჩნდეს, ვიდრე სხვები. ისინი ტექსტს არ ახსოვნებენ ხაზიდან ხაზზე; ამის ნაცვლად, ისინი სწავლობენ, როგორ “სტატისტიკურად გამოიმუშავონ” ტიპიური ფორმები, სინტაქსი და იდეების ასოციაციები, რომლებიც ენის შინაარსში მოიპოვება.
2. ფუტკრის ბუდეში შესვლა: როგორ მუშაობს მისი მიმოხილვა
2.1. ტოკენიზაცია: მტვრის შეგროვება ნაწილ-ნაწილ
პირველი ნაბიჯი არის ტოკენიზაცია. ჩვენ ვიღებთ ნედლ ტექსტს და ვყოფთ მას ტოკენებად. წარმოიდგინეთ ყვავილების მინდორი: თითოეული ყვავილი არის სიტყვა (ან სიტყვასახის ნაწილი), საიდანაც ფუტკარი მტვერს აგროვებს. “ტოკენი” შეიძლება იყოს მთელი სიტყვა (“სახლი”), ფრაგმენტი (“სახლ-”, “-ი”), ან ზოგჯერ უბრალოდ პუნქტუაციის ნიშანი.
ეს სექმენტაცია დამოკიდებ ულია მოდელისთვის სპეციფიურ ვოკაბულარზე: რაც უფრო დიდი არის ვოკაბულარი, მით უფრო დეტალური შეიძლება იყოს სექმენტაცია. ტოკენიზაცია კრიტიკულად მნიშვნელოვანია, რადგან მოდელი შემდეგ ტოკენებს მანიპულირებს, არა ნედლ ტექსტს. ეს მსგავსია იმასთან, რომ ფუტკარი ზუსტად აგროვებს მტვერს, ნაცვლად იმისა, რომ მთელი ყვავილი აიღოს.
2.2. ემბედინგები: მტვრის ვექტორებად გადაქცევა
როდესაც მტვერი შეგროვებულია, ის უნდა გადაიქცეს ფორმატში, რომელსაც მოდელი შეძლებს გამოიყენოს: ეს ნაბიჯი ეწოდება ემბედინგი. თითოეული ტოკენი გარდაიქმნება ვექტორად (რიცხვების სია), რომელიც კოდირებს სემანტიკურ და კონტექსტუალურ ინფორმაციას.
გაიხსენეთ, რომ ეს არის მტვრის “ფერი” ან “გემო”: ორი სიტყვა, რომლებიც მსგავს მნიშვნელობას ატარებენ, ექნება მსგავსი ვექტორები, ისე, როგორც ორი დაკავშირებული ყვავილი აწარმოებს მსგავს მტვერს. ეს ნაბიჯი აუცილებელია, რადგან ნეირალური ქსელები მხოლოდ რიცხვებს ხვდებიან.
2.3. “ტრანსფორმერების” ფენები: ფუტკრის ცეკვა
ბუდეში, ფუტკრები ურთიერთობენ “ფუტკრის ცეკვით,” რთული ქორეოგრაფიით, რომელიც მიუთითებს, სად მდებარეობს ყველაზე მდიდარი მტვერი. LLM-ში, კოორდინაცია ხდება ყურადღების მექანიზმის საშუალებით (მפורალი “ყურადღება არის ყველაფერი, რაც გჭირდებათ”, რომელიც 2017 წელს იქნა წარმოდგენილი).
ყოველი ტრანსფორმერის ფენა იყენებს საკუთარ ყურადღებას: თითოეული ტოკენისთვის, მოდელი calculates მისი მნიშვნელობა ყველა სხვა ტოკენის მიმართ სექვენციაში. ეს არის ინფორმაცია, რომელიც ერთდროულად ცვლის, ისე, როგორც თითოეული ფუტკარი ამბობს: “აქ არის მტვრის ტიპი, რომელიც მაქვს; რა გჭირდებათ?”
ბევრი ტრანსფორმერის ფენის ჩ stacking-ით, მოდელი შეუძლია დაიჭიროს კომპლექსური ურთიერთობები: ის შეუძლია ისწავლოს, რომ გარკვეულ წინადადებაში, სიტყვა “მეფე” ეხება კონცეფციას, რომელიც დაკავშირებულია “ფუტკრებთან” ან “ბუდესთან,” არა “მონარქიასთან,” დამოკიდებულია კონტექსტზე.
2.4. თაფლის წარმოება: მომავალი ტოკენის პროგნოზირება
ბოლო ჯერზე, ბუდე აწარმოებს თაფლს, ანუ შექმნილი ტექსტი. კონტექსტის ანალიზის შემდეგ, მოდელს უნდა უპასუხოს მარტივ კითხვას: “რა არის ყველაზე შესაძლო მომავალი ტოკენი?” ეს პროგნოზი დამოკიდებულია ქსელის რეგულირებულ წონებზე.
დამოკიდებულია ჰიპერპარამეტრებზე (ტემპერატურა, top-k, top-p და სხვ.), პროცესი შეიძლება იყოს უფრო შემთხვევითი ან უფრო დეტერმინირებული. დაბალი ტემპერატურა არის როგორც ძალიან დისციპლინირებული ფუტკარი, რომელიც პროგნოზირებად თაფლს აწარმოებს. მაღალი ტემპერატურა არის როგორც უფრო ექსცენტრიული ფუტკარი, რომელიც თავისუფლად მოძრაობს და უფრო შემოქმედებით თაფლს ქმნის, რისკით, რომ არ იყოს თანმიმდევრული.