Привіт! У наших попередніх бесідах ми вже пройшли великий шлях створення по-справжньому розумних асистентів. Спочатку розібралися з RAG (Retrieval-Augmented Generation) і, по суті, видали нашому ШІ-помічнику нескінченну «шпаргалку». Потім зробили наступний крок і познайомилися з MCP (Model Context Protocol). Ми надали нашому ерудиту набір інструментів.

Але що, як і цього недостатньо? Що, як нам потрібен не просто ерудований агент, а ШІ з певним характером, унікальним стилем спілкування або глибокими знаннями у дуже вузькій сфері? Що, як нам потрібен ШІ-юрист, який висловлюється суто в межах правового поля, чи ШІ-копірайтер, який безпомилково пише в зухвалому стилі вашого бренду?

Саме тут на сцену виходить третій, і, можливо, найфундаментальніший метод — донавчання, або Fine-tuning.

Якщо RAG — це доступ до зовнішньої бібліотеки, а MCP — це набір інструментів для роботи онлайн, то Fine-tuning — це як виховання талановитого співробітника. Це процес, під час якого змінюється не тільки те, що він знає, а як він думає, говорить і підходить до виконання завдань. Ми змінюємо його базові навички і, якщо хочете, його «характер».

У цій статті докладно і простими словами розберемо, що таке донавчання, в яких випадках без нього не обійтися та як воно доповнює вже знайомі нам RAG і MCP для створення по-справжньому унікальних і потужних ШІ-рішень.

Як і раніше, хочу наголосити: стаття написана для широкої аудиторії — підприємців, менеджерів та всіх, хто хоче зрозуміти суть технології. Тому я буду використовувати спрощення та аналогії, щоб зробити складні речі трохи зрозумілішими.

Основа основ: що таке «ваги» і як вони формують «характер» моделі

Перш ніж ми зануримося в сам процес донавчання, потрібно зробити одну важливу зупинку і поговорити про саме серце будь-якої нейронної мережі. Цей розділ — найтехнічніший, але він критично важливий для розуміння «магії» донавчання.

Почати треба трохи здалека. Людський мозок складається з мільярдів нейронів, з'єднаних між собою трильйонами синапсів (зв'язків між нейронами). Сила кожного такого зв'язку визначає, як ми вчимося, що запам'ятовуємо та як реагуємо на світ.

А зараз повернемося до ШІ та згадаємо, що іноді їх називають нейронними мережами. Це тому, що у великих мовних моделей (LLM) теж є свої нейрони та зв'язки між нейронами. Звісно, вони не такі, як у людини. Як нейрони в LLM виступають шари, аналогом синаптичних зв'язків, виступають ваги (weights). Саме ваги для нас важливі.

Ваги — це просто гігантський набір чисел, який може налічувати від кількох мільйонів до сотень мільярдів. Кожне із цих чисел — це аналог сили синаптичного зв'язку в нашому мозку. Саме в цих числах закодовані всі «знання» і «навички» моделі: граматика мов, історичні факти, вміння писати код, логічно міркувати і навіть наслідувати стиль Шекспіра. Далі знову трохи здалека, але так краще зрозуміти.

«Паспорт» кожного слова (Ембединг)

Для початку правильніше буде сказати, що кожне слово має не одну «вагу», а цілий «цифровий паспорт» — набір із сотень або тисяч чисел. Цей паспорт називається векторним представленням чи ембедингом. Трохи докладніше я про це писав у статті про RAG. Магія в тому, що слова зі схожим значенням мають схожі «паспорти».

Наприклад, числові паспорти слів «яблуко» та «груша» знаходитимуться в цьому багатовимірному математичному всесвіті набагато ближче одне до одного, ніж паспорти слів «яблуко» та «автомобіль». У цьому «паспорті» слова «яблуко» ніби зашифровані всі його потенційні значення та асоціації: і про фрукт, і про колір, і про смак, і, звичайно, про компанію Apple. На цьому етапі слово є багатозначним.

Роль ваг моделі

А ось тепер на сцену виходять ваги самої моделі. Ці ваги — це властивості не окремих слів, а всієї системи, яка обробляє ці слова. Коли ви пишете фразу, наприклад, «Саша зірвав яблуко і з'їв», відбувається таке:

  1. Модель отримує на вхід «цифрові паспорти» кожного слова: «Саша», «зірвав», «яблуко», «і», «з'їв».
  2. Далі починається робота ваг. Завдяки навчанню на гігантських обсягах текстів, ваги моделі «знають» статистичні закономірності. Вони «пам'ятають», що після дієслів на кшталт «з'їв», «відкусив», «прожував» з імовірністю 99,9% йде щось їстівне.
  3. Ваги моделі працюють як складна система «посилення» та «послаблення» сигналів. Присутність слова «з'їв» діє як потужний контекстуальний тригер. Ваги, пов'язані із цим словом, негайно підсвічують і посилюють ті числові значення в «паспорті» слова «яблуко», які відповідають за його «фруктову» сутність (асоціації з їжею, садом, деревом, смаком).
  4. Одночасно із цим ті значення в «паспорті» «яблука», які пов'язані з компанією Apple (телефон, комп'ютер, Тім Кук), навпаки, приглушуються. Контекст «з'їв» робить їх вкрай малоймовірними.

Фінальний результат

Саме завдяки цій роботі ваг, які динамічно оцінили весь контекст речення, модель на наступних етапах генерації відповіді оперуватиме словом «яблуко» виключно як фруктом. Вона зрозуміла, про що йдеться, тому що математика її ваг, натренованих на трильйонах прикладів, з величезною ймовірністю вказує на єдиний правильний у цьому контексті сенс. Зв'язок «з'їв —> отже, яблуко можна їсти», і він фізично закодований у числових значеннях мільйонів ваг.

Щоб зробити цю концепцію ще наочнішою в питанні донавчання моделей, скористаймося іншою аналогією — студією звукозапису. Уявіть собі величезний і неймовірно складний мікшерний пульт, на якому не десять і не сто, а мільярди крихітних повзунків. Кожен повзунок — це одна «вага» нашої моделі.

  • Переднавчена модель (Pre-trained model): це як універсальний пресет — готовий набір налаштувань для цього пульта, створений геніальним звукорежисером. Із цими налаштуваннями будь-яка музика — чи то рок, класика або електроніка — звучить дуже добре, чисто і професійно. Це результат тисяч годин роботи та аналізу незліченних композицій.
  • Донавчання (Fine-tuning): тепер уявіть, що в студію приходить джазовий гурт зі своїм унікальним звучанням. Універсальний пресет хороший, але для них можна зробити ще краще. Досвідчений звукорежисер не буде рухати всі мільярди повзунків навмання. Він знає, що ось цей набір з кількох сотень повзунків відповідає за теплоту баса, а ось та група — за яскравість саксофона. Він злегка, дуже акуратно підкручує тільки ці, потрібні йому повзунки, щоб досягти ідеального, фірмового звучання саме для цього гурту, зберігаючи водночас усю гармонію базових налаштувань.

Це і є суть донавчання. Ми не створюємо модель з нуля. Ми беремо чудову «заводську настройку» і вносимо в неї точкові, ювелірні коригування, щоб ідеально адаптувати її під наше вузьке, специфічне завдання. Ми налаштовуємо вже наявні ваги, щоб надати моделі нового характеру, навчити її нашого корпоративного стилю або змусити розуміти унікальний жаргон нашої галузі.

Як робиться донавчання (Fine-tuning) та які є варіанти

Отже, ми встановили, що донавчання — це «підвищення кваліфікації» нашої ШІ-моделі, яке відбувається через тонке налаштування її ваг. Але що це означає на практиці? Якщо говорити просто, донавчання (Fine-tuning) — це процес взяття вже наявної потужної моделі та її подальшого тренування на ваших даних.

Це тренування — той самий математичний процес корекції, що й за початкового навчання, але набагато більш ощадливий і цілеспрямований. Він безпосередньо змінює мільйони тих самих «повзунків на мікшерному пульті» (ваг), щоб досягти нового, спеціалізованого звучання. Ми не вчимо модель з нуля, а коригуємо її «характер».

Існує кілька різних стратегій, як саме це робити. Вони кардинально відрізняються за вимогами до ресурсів, вартості та результатів. Розглянемо два основні підходи.

1. Повне донавчання (Full Fine-Tuning)

Це класичний і найпрямолінійніший метод. Уявіть, що ви вирішили не просто підкрутити кілька повзунків на нашому уявному мікшерному пульті, а «розморозити» абсолютно всі мільярди повзунків і дозволити їм усім трохи зрушити в процесі навчання на ваших нових даних.

  • Як це працює: усі ваги вихідної моделі стають навчаними та оновлюються. Це схоже на повну перепрошивку пристрою.
  • Плюси: потенційно може дати найвищу якість, оскільки вся модель цілком і повністю адаптується під вашу специфіку.
  • Мінуси:
  • Астрономічно дорого: вимагає величезних обчислювальних потужностей — кластерів з найсучасніших і найдорожчих GPU з великим обсягом відеопам'яті.
  • Ризик «катастрофічного забування»: рухаючи всі «повзунки», є шанс збити геніальні заводські налаштування. Модель може так сильно захопитися вашим вузьким завданням, що забуде базові знання про світ.
  • Величезна вага: у результаті ви отримуєте нову модель, яка важить стільки ж, скільки й вихідна — десятки чи сотні гігабайтів.
  • Висновок: через свою дорожнечу і складність повне донавчання великих сучасних моделей сьогодні практично не використовується, за винятком великих технологічних корпорацій.

2. Параметрично-ефективне донавчання (PEFT) і метод LoRA

Це сучасний, витончений і набагато більш практичний підхід. Повертаючись до нашої аналогії, замість того, щоб рухати всі повзунки, ми застосовуємо «хірургічну точність».

  • Як це працює: ми заморожуємо 99,9% ваг оригінальної моделі — вони залишаються недоторканими. А потім додаємо до неї крихітні нові набори навчаних ваг — адаптерів. Найпопулярніший метод називається LoRA (Low-Rank Adaptation). Це ніби ми не переписували всю енциклопедію, а просто вклеювали в потрібні сторінки маленькі стікери з новою, уточнювальною інформацією. Навчаються тільки ці «стікери», а не вся книга.
  • Плюси:
  • На порядки дешевше: вимагає в десятки разів менше обчислювальних ресурсів. Часто донавчання за допомогою LoRA можна провести навіть на одній потужній споживчій відеокарті.
  • Швидко: процес забирає набагато менше часу.
  • Немає катастрофічного забування: оскільки основна модель «заморожена», її фундаментальні знання нікуди не зникають.
  • Компактність: у результаті навчання ви отримуєте не гігантську нову модель, а лише маленький файлик з вагами вашого адаптера (вагою в кілька мегабайтів). Ви можете мати одну базову модель і десятки таких «адаптерів-спеціалізацій» для різних завдань (один для юридичного стилю, інший для маркетингового, третій для технічної підтримки).
  • Висновок: PEFT і LoRA — це сьогоднішній індустріальний стандарт для донавчання мовних моделей. Це технологія, яка зробила кастомізацію ШІ доступною для широкого кола компаній і розробників.

Як саме зміна ваг допомагає виконувати конкретні бізнес-завдання

1. Прищеплюємо моделі потрібний стиль і тон спілкування (Style and Tone)

  • Завдання: змусити ШІ-консультанта для магазину елітних годинників говорити стримано та експертно.
  • Як змінюються ваги: показуючи моделі сотні прикладів діалогів у потрібному стилі, ми запускаємо процес підлаштування. Ті комбінації ваг, які відповідають за вибір формальних слів, побудову складних речень та експертну лексику, отримують позитивне підкріплення і «посилюються». Водночас ваги, що ведуть до простомовних або нейтральних відповідей, у цьому контексті «послаблюються». По суті, ми рухаємо «повзунки» тональності, і модель починає віддавати перевагу певному стилю, оскільки числові значення її ваг тепер до цього спонукають.

2. Навчаємо розуміти специфічну термінологію (Jargon)

  • Завдання: навчити модель розуміти складний жаргон інженерів-хіміків.
  • Як змінюються ваги: коли ми згодовуємо моделі наші внутрішні документи, вона вчиться новим асоціаціям. Ваги, що пов'язують абревіатуру КДК зі словами «кріогенний декомпресор», «охолодження» і «тиск», стають сильнішими. Для базової моделі ці слова будуть не звʼязані, але після донавчання в її мозку формуються міцні синаптичні зв'язки. Тепер, зустрічаючи КДК, модель завдяки зміненим вагам знає, про що йдеться.

3. Змушуємо дотримуватися складних форматів виведення

  • Завдання: генерувати позовні заяви в суворому юридичному форматі.
  • Як змінюються ваги: щоразу, коли модель бачить приклад правильно оформленого документа, вона коригує ваги, що відповідають за структуру відповіді. Вона вчиться, що після блоку «Позивач» з високою ймовірністю має йти блок «Відповідач», а в кінці обов'язково має бути розділ «Прошу суд:». Ця структурна логіка буквально прошивається в її ваги, перетворюючись з інструкції, якою можна знехтувати, на фундаментальний шаблон поведінки.

4. Підвищуємо надійність у вузькому завданні

  • Завдання: точно класифікувати відгуки клієнтів за 15 унікальними категоріями.
  • Як змінюються ваги: цей процес дуже схожий на налаштування високоточного інструменту. Наприклад для кожної з 15 категорій існують свої ключові слова та фрази-індикатори, але часто вони можуть бути схожі. У процесі донавчання на розмічених прикладах модель налаштовує свої ваги так, щоб надавати максимального значення саме цим індикаторам. Вона вчиться відрізняти нюанси: наприклад, що слова «коробка пом'ята» і «скол на чашці» належать до різних категорій («проблема з доставкою» та «заводський брак»), і за ці відмінності відповідають різні групи тонко налаштованих ваг.

    У всіх цих випадках ми не просто даємо моделі інструкцію. Ми фізично (у цифровому сенсі) змінюємо її внутрішню структуру — її ваги, — щоб вона стала не просто розумною, а була корисною та ефективною саме в контексті наших унікальних вимог.

RAG vs. Fine-tuning: коли використовувати «шпаргалку», а коли — відправляти на курси

Отже, ми розібралися з двома потужними технологіями. Одна дає моделі доступ до зовнішніх знань (RAG), а інша змінює її внутрішній «характер» (Fine-tuning). Тепер виникає головне практичне запитання: що вибрати для свого проєкту?

Почнемо з ключової думки: RAG і донавчання — це не вороги і не конкуренти, а радше два різні інструменти в ящику майстра. Їх можна використовувати окремо для виконання конкретних завдань, але справжня магія часто відбувається, коли вони працюють у команді.

Цей розділ допоможе зрозуміти, яку роль кожна технологія відіграє в цій команді. Щоб зробити вибір усвідомленим, порівняймо їх за ключовими параметрами.

Використовуйте RAG (шпаргалку), коли:

  • Знання постійно змінюються. Ваш ШІ-помічник має відповідати на запитання про наявність товарів на складі, актуальні ціни, останні новини компанії чи статус замовлення. Цю інформацію неможливо «зашити» у ваги моделі, оскільки вона застаріє через годину. RAG ідеально підходить для роботи з динамічними, «живими» даними.
  • Потрібна стовідсоткова фактична точність і посилання на джерела. У юридичній, медичній чи фінансовій сферах критично важливо, щоб відповідь ШІ ґрунтувалася на конкретному документі, законі або дослідженні. RAG дозволяє не тільки дати відповідь на основі знайденого тексту, а й вказати джерело, звідки була взята інформація.
  • Головна проблема — брак знань у моделі. Якщо ваше основне завдання — дати моделі доступ до вашої внутрішньої бази знань, інструкцій, статей чи каталогу товарів, то RAG — це найпряміший і найефективніший шлях.
  • Бюджет і час обмежені. Базову RAG-систему можна розгорнути значно швидше і дешевше, ніж провести якісне донавчання моделі.

Використовуйте Fine-tuning (курси), коли:

  • Потрібно змінити поведінку, стиль чи формат. Ви хочете, щоб модель говорила в унікальному стилі вашого бренду, генерувала відповіді в суворій JSON-структурі або вела діалог за складним сценарієм. Це завдання на зміну поведінки, а не на отримання знань.
  • Знання відносно статичні. Ви навчаєте модель принципів юриспруденції, медичних протоколів, правил граматики для рідкісної мови або стилю конкретного письменника. Ці знання не змінюються щодня, і їх можна і потрібно вкарбувати у ваги моделі для глибшого розуміння.
  • Головна проблема — модель не розуміє, як відповідати, а не що відповідати. Вона може мати доступ до всіх потрібних даних через RAG, але не може їх правильно синтезувати, робить неправильні висновки або спілкується невідповідним тоном.
  • Потрібна максимальна продуктивність у дуже вузькому завданні. Наприклад, для високоточної класифікації чи аналізу тональності в специфічному контексті донавчання дасть надійніший результат.

Посилення для RAG: як донавчання може поліпшити «шпаргалку»

А тепер поєднаймо ці два світи. Пам'ятаєте, що ефективність RAG безпосередньо залежить від того, наскільки якісну «шпаргалку» (фрагмент тексту) знайде його пошуковий механізм? Так ось, цей механізм теж можна поліпшити за допомогою донавчання! Стандартна модель, що відповідає за пошук (embedding-модель), добре розуміє загальну мову. Але вона може заплутатися у ваших внутрішніх термінах. Наприклад, для неї артикули ВН-78-СИН і ВН-78-СІР можуть здатися майже однаковими, хоча це синій і сірий варіанти одного товару.

Рішення? Можемо донавчити саму пошукову модель на наших даних. Ми «показуємо» їй наші товари, статті, документи та вчимо її розуміти нюанси: «Ось ці два описи дуже схожі за змістом, а цей третій — зовсім про інше». У результаті такого тренування пошуковик у RAG-системі стає набагато розумнішим. Він починає знаходити значно релевантніші фрагменти з вашої бази знань. А чим краща «шпаргалка», тим точнішою та якіснішою буде фінальна відповідь, згенерована великою мовною моделлю.

Так, вибір стоїть не або-або. Для простого завдання вам може вистачити одного інструменту. Для складного комплексного завдання ви, найімовірніше, будете використовувати обидва: донавчите модель, щоб вона думала і говорила, як треба, і одночасно дасте їй RAG для доступу до актуальних і постійно мінливих даних, можливо, навіть посиливши його донавченим пошуковиком. Вибір залежить виключно від цілей вашого проєкту.

Як створюються матеріали для донавчання і скільки їх потрібно

Якщо донавчання — це курси підвищення кваліфікації для ШІ, то навчальні матеріали або датасет (dataset) — це його підручники, конспекти та практичні завдання. Якість кінцевого результату на 80% залежить саме від якості цих «підручників». Розберемося, як вони створюються і в якій кількості потрібні.

Як створюються «підручники» для ШІ

Основна мета — створити набір прикладів, які в явному вигляді показують моделі той патерн поведінки, якого ми хочемо її навчити. Найчастіше ці дані структурують у форматі пар «інструкція/питання» —> «ідеальна відповідь».

Приклад 1: навчання стилю. Припустимо, ми хочемо, щоб наш ШІ-асистент відповідав клієнтам у підбадьорливому і доброзичливому тоні, а не сухо і формально. Наш приклад у датасеті міг би виглядати так:

JSON
{
«інструкція»: «Перепиши цю відповідь клієнту в доброзичливому і підбадьорливому тоні»,

«вхідні дані«: «Термін оплати вашого рахунку минув.»,

«ідеальна відповідь»: «Привіт! Просто дружнє нагадування: здається, ми ще не отримали оплату за вашим останнім рахунком. Якщо виникли якісь складнощі або питання, просто дайте знати, ми завжди раді допомогти!»
}

Приклад 2: навчання фактів і формату. Ми хочемо навчити нашого помічника для магазину посуду давати чіткі інструкції з догляду за товарами.

JSON
{
«запитання»: «Як правильно доглядати за чавунною пательнею?»,

«ідеальна відповідь»: «Щоб ваша чавунна пательня служила вічно, дотримуйтеся цих кроків: \n1. Після готування дайте їй трохи охолонути. \n2. Вимийте вручну теплою водою. Уникайте мила, щоб не змити захисний олійний шар. \n3. Ретельно висушіть пательню, можна навіть злегка прогріти її на плиті. \n4. Змастіть внутрішню поверхню тонким шаром рослинної олії.»
}

Звідки брати ці дані

  1. Написати вручну. Експерти у вашій компанії (менеджери, копірайтери, інженери) самі створюють ідеальні приклади. Це найякісніший, але й найскладніший спосіб.
  2. Витягти з наявних документів. Можна проаналізувати і структурувати логи листування з клієнтами, внутрішні інструкції, статті з бази знань та FAQ.
  3. Згенерувати за допомогою ШІ та перевірити. Сучасний підхід: можна доручити більш потужній моделі створити сотні таких прикладів за вашим завданням, а потім співробітники їх уважно вичитають, виправляють та затвердять. Це значно прискорює процес.

Скільки даних потрібно

Це найчастіше запитання і найскладніше. Правильна відповідь: «Залежить від завдання». Але щоб дати вам хоч якийсь орієнтир, позначимо загальні принципи.

Важливо: будь-які цифри — це лише дуже приблизний орієнтир! Кількість необхідних прикладів (50, 500 чи 5000) критично залежить від складності завдання, якості вихідної моделі, а головне — від якості самих навчальних даних.

Запам'ятайте правило: 10 ідеальних, вичищених вручну прикладів можуть принести більше користі, ніж 1000 «брудних» і суперечливих. Завжди починайте з малого й ітеративно оцінюйте результат.
  • Для зміни стилю чи формату часто достатньо відносно невеликого набору даних. Помітні зміни в поведінці моделі можна побачити вже на 50–200 дуже якісних прикладах. Модель швидко вловлює патерн, якого їй потрібно дотримуватися.
  • Для освоєння нової складної предметної області або для навчання моделі виконанню комплексних завдань (наприклад, написання коду рідкісною мовою програмування) може знадобитися значно більше даних — від кількох сотень до кількох тисяч прикладів.

Головне — не гнатися за кількістю. Краще витратити час на створення невеликого, але бездоганного датасету, ніж на збір величезного масиву даних з помилками і невідповідностями. Донавчання — це той випадок, коли якість дійсно перемагає кількість.

Зазирнемо під капот: моделі з «команди експертів» (MoE)

Наостанок давайте коротко торкнемося архітектури, яка використовується в деяких найпередовіших моделях і з великою часткою ймовірності в майбутньому стане стандартом. Це допоможе зрозуміти, наскільки гнучкими стають сучасні підходи. Уявіть, що всередині ШІ сидить не один всезнайко, а ціла «рада директорів» або «команда експертів» (Mixture of Experts, MoE).

Один «експерт» спеціалізується на математиці та логіці, інший — на креативному письмі та поезії, третій — на програмуванні, четвертий — на аналізі даних. Коли ви ставите запитання, спеціальний «секретар-маршрутизатор» швидко визначає суть завдання і направляє його до найкомпетентнішого в цій галузі експерта (або невеликої групи експертів). Це дозволяє моделям бути одночасно і дуже потужними, і більш ефективними, оскільки в кожен момент часу працює не весь гігантський мозок, а тільки його потрібна частина.

Яке це має відношення до донавчання? Ця архітектура відкриває в майбутньому ще тонші можливості для налаштування. Теоретично можна буде донавчати не всю модель і навіть не просто додавати адаптер, а проводити цілеспрямоване «стажування» для одного конкретного «експерта» в команді, роблячи його ще сильнішим у своїй галузі, не зачіпаючи інших. Це ще один крок на шляху до створення спеціалізованих та ефективних ШІ-систем.

Від теорії до практики: які моделі можна донавчати та як їх потім використовувати

Добре, з теорією розібралися. Тепер перейдімо до найважливішого практичного запитання: «Я хочу донавчити модель. Із чого мені почати, якими вони бувають і що з ними робити після навчання?» Відповідь на це запитання залежить від того, який з двох шляхів ви оберете. Глобально всі сучасні LLM можна розділити на два типи.

1. Моделі як сервіс (через API)

Це найпростіший і найшвидший шлях. Сюди належать моделі від великих компаній, як-от OpenAI (серія GPT) або Anthropic (серія Claude), деякі моделі Gemini (Google).

Важливо: не всі моделі можна донавчати, наприклад, у Gemini можна навчити тільки дуже старі моделі, а нові не дають такої можливості.
  • Як це працює: ви не завантажуєте саму модель. Весь процес відбувається через спілкування із сервером компанії по API. Ви готуєте датасет, надсилаєте його їм і запускаєте завдання донавчання. Вся складна технічна робота відбувається на їхній стороні.
  • Що ви отримуєте в результаті: результатом є не файл, а унікальне ім'я вашої моделі, яке називають «ендпоінт» (endpoint). По суті, це персональна адреса вашої донавченої моделі в хмарі провайдера.

2. «Відкриті» моделі (Open-Source)

Це шлях повного контролю та гнучкості. Сюди належать моделі, які можна вільно завантажити, наприклад, Llama 3 від Meta або моделі від Mistral AI, які часто знаходять на платформі Hugging Face.

  • Як це працює: тут уся відповідальність на вас. Ви маєте налаштувати власний робочий простір — сервер (локальний або в хмарі) з відповідною відеокартою (GPU). Завантажуєте файли з вагами базової моделі й самостійно запускаєте процес донавчання за допомогою спеціальних бібліотек на кшталт PyTorch і Transformers.
  • Що ви отримуєте в результаті: у результаті у вас на сервері з'являються нові файли. Якщо ви робили повне донавчання, це буде повноцінна копія моделі вагою в десятки або сотні гігабайт. Якщо ви використовували сучасний метод PEFT/LoRA, то це буде крихітний файл-«адаптер» на кілька мегабайтів.

Життя після донавчання: як використовувати вашу кастомну модель

Отже, модель готова. Як тепер інтегрувати її у ваш застосунок? Тут наші два шляхи теж виглядають по-різному.

Використання моделі через API

У цьому сценарії все гранично просто. У коді вашого застосунку в рядку, де ви вказуєте, яку модель використовувати, ви просто замінюєте стандартне ім'я на ваше унікальне.

Наприклад, було: model=«gpt-4o»

Стало: model=«ft:gpt-4o:my-organization:my-custom-model-1234»

І все. Ваш застосунок починає спілкуватися з донавченою версією. Усі питання продуктивності, доступності та обслуговування серверів вирішує провайдер.

Використання відкритої моделі на своєму сервері

Тут з'являється додатковий, але дуже важливий крок — «розгортання» (deployment). Вам потрібно запустити вашу модель як сервіс, що постійно працює та готовий приймати запити.

Для цього використовується спеціальне програмне забезпечення (наприклад, популярні AnythingLLM чи Ollama), яке оптимізує роботу моделі на GPU. Після того як сервіс запущено, ваш застосунок буде надсилати запити вже на ваш власний сервер.

І тут розкривається вся краса методу PEFT/LoRA:

  • За умови повного донавчання, щоб запустити 5 різних кастомних моделей, вам потрібно 5 разів підняти «важкий» процес, який забере багато ресурсів.
  • За умови використання LoRA ви запускаєте всього одну базову модель. А коли надходить запит, ви просто на льоту застосовуєте до неї потрібний маленький адаптер. Це дозволяє обслуговувати десятки різних донавчених «характерів» на ресурсах, необхідних для роботи всього однієї моделі. Це неймовірно ефективно й економно.
💡
Короткий підсумок: вибір між цими двома світами — це вибір між зручністю та контролем. Моделі-сервіси дозволяють швидко отримати результат без технічних складнощів. Відкриті моделі вимагають більше експертизи, але дають вам повну свободу, гнучкість і контроль над вашими даними.

Висновок: Fine-tuning — це створення унікальної ДНК для вашого ШІ

Ну що ж, ось ми і завершили наше глибоке занурення у світ донавчання. Ми з'ясували, що Fine-tuning — це не просто ще одна функція, а найфундаментальніший рівень кастомізації штучного інтелекту. Це процес, який дозволяє нам зазирнути під капот і змінити саму суть моделі — її ваги, її «синаптичні зв'язки», її цифрову ДНК.

Якщо RAG дає нашому ШІ очі, щоб бачити актуальну інформацію, а MCP — руки, щоб виконувати дії в реальному світі, то Fine-tuning формує його характер, особистість та унікальний спосіб мислення. Ми перетворюємо геніального студента-універсала на висококласного спеціаліста, який не просто знає, що говорити, а й розуміє, як це потрібно робити в контексті саме вашого бізнесу.

Ми побачили, що сучасні підходи, як-от PEFT і LoRA, зробили цю колись елітарну технологію доступною та практичною, дозволивши нам створювати вузькоспеціалізованих помічників без «катастрофічного забування» і непомірних витрат. А технологія MoE потенційно зробить процес донавчання ще простішим і ефективнішим.

Тепер у вашому арсеналі є розуміння всіх трьох китів, на яких будуються сучасні інтелектуальні системи:

  • RAG — для доступу до зовнішніх, динамічних знань.
  • MCP — для виконання дій та інтеграції із зовнішніми системами.
  • Fine-tuning — для формування стилю, поведінки та глибокої експертизи.

Ми детально розібрали кожного з них окремо. Але як вони взаємодіють? Як побудувати систему, де донавчений під ваш стиль ШІ-юрист за допомогою RAG знаходить найсвіжішу постанову суду, а потім за допомогою MCP надсилає готовий документ на підпис? Саме про це ми й поговоримо наступного разу.

У завершальній статті нашої серії ми нарешті зберемо всі частини головоломки воєдино і подивимося, як ці три кити працюють в одній злагодженій команді для створення по-справжньому потужних, комплексних і автономних ШІ-рішень.

Зробімо наступну статтю по-справжньому інтерактивною

Я пропоную вам стати її співавторами. Опишіть бізнес-завдання, яке стоїть перед вами: автоматизувати підтримку, аналізувати документи, створити унікального асистента — все що завгодно. А я, зі свого боку, у фінальному матеріалі серії розберу найпоказовіші кейси і на їх прикладі продемонструю, як можна спроєктувати рішення, комбінуючи RAG, MCP та донавчання. За потреби в статті можна буде вказати, хто поставив запитання, або ж залишити його анонімним.

Сміливо пишіть у приватні повідомлення або в коментарі — найцікавіші приклади стануть основою для нашого наступного практичного посібника!

Дякую, що пройшли цей шлях разом зі мною! Як і завжди, буду радий вашим запитанням у коментарях чи особистих повідомленнях.