Российские ученые из МФТИ научились определять идеальный объем данных для ИИ

Учёные из МФТИ разработали два подхода для определения оптимального объёма данных для машинного обучения. Они предлагают оценивать изменение «уверенности» модели в параметрах при добавлении или удалении данных с помощью двух математических критериев: KL-дивергенции и s-score.
Эти методы основаны на анализе апостериорных распределений параметров. При нормальном распределении KL-дивергенция стремится к нулю, а s-score — к единице с увеличением выборки, что указывает на стабильность модели. Эксперименты на синтетических и реальных данных подтвердили эти выводы. Метод на основе KL-дивергенции требует больше данных, чем s-score.
Понимание момента достаточности данных экономит ресурсы на этапах сбора и обучения моделей, а также помогает планировать и мониторить процесс разработки систем ИИ, пишет science.