Data Science and Machine Learning
-
Session Language |English
Тонке налаштування заздалегідь навчених мовних моделей на основі трансформаторів, таких як BERT, стала звичайною практикою, домінуючи в списках лідерів в різних бенчмарках NLP. Незважаючи на високу емпіричну продуктивність моделей з тонким налаштуванням, тонке налаштування є нестабільним процесом - навчання однієї і тієї ж моделі з декількома випадковими навантаженнями може привести до великих коливань у виконанні завдання. У попередній літературі називалися дві потенційні причини спостережуваної нестабільності : катастрофічна забудькуватість і малий розмір наборів даних для тонкого налаштування.У нашій статті ми показуємо, що обидві гіпотези не пояснюють нестабільність тонкого налаштування. Ми аналізуємо BERT, RoBERTa і ALBERT, які налаштовуються на три часто використовувані набори даних з еталону GLUE, і показуємо, що спостережувана нестабільність пов'язана з труднощами оптимізації, які призводять до зникнення градієнтів. Крім того, ми показуємо, що дисперсія, що залишилася, в подальшому виконанні завдання може бути пояснена відмінностями в узагальненні, коли тонко налагоджені моделі з однаковими втратами при навчанні показують помітно різні результати тестування.На основі нашого аналізу ми представляємо простий, але надійний базовий підхід, який робить тонке налаштування моделей на основі BERT значно стабільнішим, чим раніше запропоновані