Миниатюрная модель ИИ от Samsung превосходит гигантские модели LLM
В новой статье исследователя ИИ из Samsung объясняется, как небольшая сеть может превзойти огромные большие языковые модели (LLM) в сложных рассуждениях.
В гонке за превосходство в области ИИ отраслевой девиз часто звучал так: «Чем больше, тем лучше». Технологические гиганты вкладывают миллиарды в создание всё более крупных моделей, но, по словам Алексии Жоликер-Мартино из Samsung SAIL Montréal, с помощью миниатюрной рекурсивной модели (TRM) возможен радикально иной и более эффективный путь развития.
Используя модель всего с 7 миллионами параметров, что составляет менее 0,01% от размера ведущих LLM, TRM достигает новых передовых результатов в таких невероятно сложных тестах, как тест интеллекта ARC-AGI. Работа Samsung бросает вызов распространённому мнению о том, что масштабирование — единственный способ расширить возможности моделей ИИ, предлагая более устойчивую и параметрически эффективную альтернативу. Преодоление ограничений масштабирования
Хотя LLM продемонстрировали невероятную способность генерировать текст, похожий на человеческий, их способность выполнять сложные многоэтапные рассуждения может быть нестабильной. Поскольку они генерируют ответы токен за токеном, одна ошибка на раннем этапе процесса может сорвать всё решение и привести к неверному окончательному ответу.
Для смягчения этого были разработаны такие методы, как «цепочка мыслей», когда модель «думает вслух», чтобы разбить задачу на части. Однако эти методы требуют больших вычислительных затрат, часто требуют огромного количества высококачественных данных для рассуждений, которые могут быть недоступны, и всё ещё могут давать ошибочную логику. Даже с этими дополнениями LLM испытывают трудности с решением некоторых задач, где требуется идеальное логическое выполнение.
Работа компании Samsung основана на недавно разработанной модели искусственного интеллекта, известной как иерархическая модель рассуждений (HRM). HRM представила новый метод, использующий две небольшие нейронные сети, которые рекурсивно обрабатывают задачу с разной частотой для уточнения ответа. Она подавала большие надежды, но была сложной, опираясь на неопределённые биологические аргументы и сложные теоремы о неподвижной точке, применение которых не гарантировалось.
Вместо двух сетей HRM, TRM использует одну крошечную сеть, которая рекурсивно улучшает как свои внутренние «рассуждения», так и предлагаемый «ответ».
Модели задаётся вопрос, первоначальная догадка об ответе и латентный признак рассуждения. Сначала она проходит несколько этапов, чтобы уточнить свои латентные рассуждения на основе всех трёх входных данных. Затем, используя эти улучшенные рассуждения, она обновляет свой прогноз для окончательного ответа. Весь этот процесс можно повторять до 16 раз, что позволяет модели постепенно исправлять собственные ошибки с высокой эффективностью параметров.
Вопреки здравому смыслу, исследование показало, что крошечная сеть всего с двумя слоями достигла гораздо лучшего обобщения, чем четырёхслойная версия. Такое уменьшение размера, по-видимому, предотвращает переобучение модели – распространённую проблему при обучении на небольших специализированных наборах данных.
TRM также избавляется от сложных математических обоснований, использовавшихся её предшественницей. Исходная модель HRM требовала предположения о сходимости функций к фиксированной точке для обоснования метода обучения. TRM полностью обходит это, просто применяя обратное распространение ошибки через весь рекурсивный процесс. Одно это изменение обеспечило значительный прирост производительности, повысив точность в тесте Sudoku-Extreme с 56,5% до 87,4% в исследовании абляции.
Модель Samsung превосходит тесты ИИ, используя меньше ресурсов.
Результаты говорят сами за себя. На наборе данных Sudoku-Extreme, использующем всего 1000 обучающих примеров, TRM достигает точности теста 87,4%, что значительно больше, чем 55% у HRM. В задаче Maze-Hard, требующей поиска длинных путей в лабиринтах размером 30×30, TRM показывает результат 85,3% по сравнению с 74,5% у HRM.
В частности, TRM демонстрирует огромный прогресс в работе с Abstraction and Reasoning Corpus (ARC-AGI) – бенчмарком, разработанным для измерения истинного гибкого интеллекта в системах искусственного интеллекта. При использовании всего 7 млн параметров TRM достигает точности 44,6% на ARC-AGI-1 и 7,8% на ARC-AGI-2. Это превосходит показатели HRM, использующего модель с 27 млн параметров, и даже многих крупнейших в мире LLM-моделей. Для сравнения, Gemini 2.5 Pro набирает всего 4,9% на ARC-AGI-2.
Процесс обучения TRM также стал более эффективным. Адаптивный механизм ACT, который определяет, когда модель достаточно улучшила ответ и может перейти к новой выборке данных, был упрощен, чтобы исключить необходимость второго, дорогостоящего прямого прохода по сети на каждом этапе обучения. Это изменение не оказало существенного влияния на итоговое обобщение.
Это исследование Samsung представляет собой убедительный аргумент против текущей тенденции развития постоянно расширяющихся моделей искусственного интеллекта. Оно показывает, что, разрабатывая архитектуры, способные итеративно рассуждать и корректировать свои действия, можно решать чрезвычайно сложные задачи, используя лишь малую долю вычислительных ресурсов.
