Тонкая настройка Llama 3.2 11B с Q-LoRA для экстрактивного вопросно-ответного поиска

вторник, ноябрь 26, 2024 12:00 ночи
131

Большие языковые модели (LLM) стали необходимыми инструментами в обработке естественного языка, способными справляться с различными задачами. Однако из-за широкого обучения они могут не проявлять себя в конкретных приложениях без дальнейшей адаптации. Техники тонкой настройки, такие как Q-LoRA, позволяют исследователям адаптировать предварительно обученные модели, такие как Llama 3.2 11B, для конкретных задач, таких как экстрактивный вопросно-ответный поиск. Эта статья описывает процесс тонкой настройки Llama 3.2 11B с использованием Q-LoRA на наборе данных SQuAD v2, демонстрируя улучшения производительности, достигнутые с помощью этого метода.

LoRA, или адаптация низкого ранга, — это техника, которая вводит новые веса в существующую модель, не изменяя оригинальные параметры. Добавляя адаптерные веса, которые корректируют выходы определенных слоев, LoRA позволяет моделям сохранять свои предварительно обученные знания, одновременно приобретая новые возможности, адаптированные к конкретным задачам. В этом эксперименте акцент сделан на тонкой настройке Llama 3.2 11B для экстрактивного вопросно-ответного поиска, с целью извлечения точных текстовых сегментов, которые напрямую отвечают на запросы пользователей, а не обобщают или перефразируют содержание. Эксперимент проводился на платформе Google Colab с использованием GPU A100, при этом библиотека Hugging Face Transformers облегчала реализацию.

Результаты процесса тонкой настройки были многообещающими, продемонстрировав значительное увеличение производительности модели на валидационном наборе. Оценка BERT улучшилась с 0.6469 до 0.7505, в то время как точный балл совпадения вырос с 0.116 до 0.418. Эти улучшения указывают на то, что техника Q-LoRA эффективно адаптирует модель Llama 3.2 11B для задач экстрактивного вопросно-ответного поиска. Эта статья служит руководством для исследователей, желающих применить аналогичные методы к другим моделям и задачам, подчеркивая потенциал тонкой настройки в области обработки естественного языка.

Related News

DeepLink и SoonChain объединяют усилия для революции в Web3-играх cover
3 дня назад
DeepLink и SoonChain объединяют усилия для революции в Web3-играх
DeepLink подписал стратегическое сотрудничество с SoonChain, платформой блокчейн-игр на базе AI Layer-2, которая стремится изменить ландшафт Web3. Партнёрство интегрирует передовое решение SoonChain по созданию игр с использованием искусственного интеллекта (AIGG), которое помогает разработчикам игр создавать увлекательные блокчейн-игры. Использование технологии AIGG устраняет традиционную элегантность программирования и выводит Web3-игры на массовый рынок. Этот набор инструментов предназначен для создания возможностей для более эффективной работы над созданием захватывающей игры, одновременно открывая двери для большего творчества в индустрии видеоигр. В этой интеграции обе компании стремятся поделиться равными возможностями и ранним доступом к игровой индустрии, поскольку посредников здесь немного. Инициатива доступности для разработчиков и игроков SoonChain — это единая платформа, которая соединяет искусственный интеллект, децентрализованные физические инфраструктурные сети (DePIN) и массовые вычисления на GPU с стандартами AAA игр. Интеграция с DeepLink позволит разработчикам создавать игры, а платформа будет спроектирована таким образом, чтобы не требовать глубоких технических навыков для создания игры, что сделает индустрию доступной для всех, особенно для независимых команд. Кроме того, это способствует децентрализации игровых возможностей как части стратегии увеличения их доступности. Этот подход соответствует мировоззрению Web3, которое стремится минимизировать количество посредников и предоставить пользователям контроль и право собственности над их играми. DeepLink и SoonChain предлагают децентрализованную основу для инноваций DeepLink и SoonChain представляют собой видение открытого и децентрализованного пространства, нацеленного на привлечение разработчиков и игроков для сотрудничества и создания новых возможностей без типичных ограничений. Разработанное на архитектуре DeepBrainChain, сотрудничество интегрирует протоколы облачного игрового ИИ, основанные на децентрализации, что полезно для роста и оптимизации игр. Это партнёрство включает интеграцию мощностей ИИ с блокчейном, что подчеркивает заботу о разделении новой границы в разработке игр. Оно символизирует квантовый скачок в использовании искусственного интеллекта и децентрализованных приложений для предоставления уникальных игровых решений для глобальной клиентуры. * [https://blockchainreporter.net/deeplink-and-soonchain-join-forces-to-revolutionize-web3-gaming/ ](https://blockchainreporter.net/deeplink-and-soonchain-join-forces-to-revolutionize-web3-gaming/)
Университет штата Мичиган присоединяется к Theta EdgeCloud для исследований в области ИИ cover
4 дня назад
Университет штата Мичиган присоединяется к Theta EdgeCloud для исследований в области ИИ
Университет штата Мичиган (MSU) официально принял платформу EdgeCloud для исследований в области ИИ, став вторым учебным заведением в Соединенных Штатах, присоединившимся к этой инициативе после Университета Орегона. Лаборатория SEIT, возглавляемая доцентом Цибеном Яном, будет использовать децентрализованную инфраструктуру GPU Theta для содействия достижениям в области ИИ, кибербезопасности и распределенных систем. Как выдающееся исследовательское учреждение первого уровня, сотрудничество MSU добавляет значительную ценность академическим партнерствам Theta в США. Кроме того, EdgeCloud планирует улучшить свою облачную инфраструктуру GPU в различных местах, включая Калифорнию, Техас и Средний Запад, с бета-релизом своей гибридной облачно-краевой вычислительной платформы, запланированным на июнь 2025 года. Профессор Цибен Ян является выдающимся экспертом в области безопасности IoT, конфиденциальности ИИ, устойчивости блокчейна и кибербезопасности. Его лаборатория SEIT находится на переднем крае исследований, направленных на защиту подключенных устройств и сетей от сложных киберугроз. Работа Яна была признана на престижных конференциях и получила значительное финансирование от Национального научного фонда (NSF). Он выразил энтузиазм по поводу сотрудничества с Theta, подчеркнув, что платформа EdgeCloud будет способствовать масштабированию проектов ИИ, требующих высокопроизводительных вычислений, одновременно расширяя границы децентрализованных технологий в безопасных и интеллектуальных системах для приложений IoT и ИИ. Лаборатория SEIT посвящена созданию безопасных, интеллектуальных систем с акцентом на распределенные системы, федеративное обучение и технологии блокчейн. Последние проекты включают исследования NSF по устойчивому к атакам ИИ для распознавания речи и инновационные структуры для безопасных смарт-контрактов. Приняв Theta EdgeCloud, лаборатория SEIT получит выгоду от децентрализованной облачной платформы, которая значительно ускоряет обучение и развертывание моделей ИИ, сокращая время настройки ресурсов GPU до пяти раз по сравнению с традиционными провайдерами. Это партнерство не только укрепляет академическую сеть Theta, но и подчеркивает ее приверженность решению сложных задач в различных областях, включая медиа, здравоохранение, биоинформатику и финансы.
Network3 AI запускает N3 на платформе IoTeX cover
7 дней назад
Network3 AI запускает N3 на платформе IoTeX
22 января 2025 года Network3 AI планирует запустить свой новый продукт N3 на платформе IoTeX. Это инновационное предложение сочетает в себе децентрализованный доступ к ИИ с передовыми технологиями, что является значительным шагом в интеграции децентрализованных физических инфраструктурных сетей (DePIN) и искусственного интеллекта (ИИ). Ожидается, что запуск привлечет технических энтузиастов в экосистему IOTX, что потенциально повысит уровень принятия и положительно повлияет на цену токена, если сообщество отреагирует благоприятно. Введение N3 — это не просто технологический прогресс; это представляет собой сдвиг к демократизации доступа к ИИ. Используя возможности крайних вычислений и графических процессоров, Network3 AI стремится предоставить пользователям улучшенные инструменты, которые могут расширить их возможности в различных приложениях. Как и с любой новой технологией, ожидание вокруг N3, вероятно, вызовет спекуляции и волнение на рынке, что может привести к увеличению инвестиций в IOTX, поскольку заинтересованные стороны стремятся воспользоваться потенциальным ростом. По мере того как обратный отсчет до запуска продолжается, сообщество призывается отметить в своих календарях это ключевое событие. Сотрудничество между Network3 AI и IoTeX знаменует собой многообещающее будущее для децентрализованных технологий и их приложений в области ИИ. С запуском на горизонте все взгляды будут прикованы к тому, как N3 будет работать и как это повлияет на более широкую экосистему блокчейна.
Революция в облачном гейминге с децентрализованной инфраструктурой! cover
7 дней назад
Революция в облачном гейминге с децентрализованной инфраструктурой!
DeepLink раздвигает границы в мире игр, сочетая ИИ, блокчейн и децентрализованные кластеры GPU для предоставления облачного гейминга с ультранизкой задержкой. Разработанный для того, чтобы сделать игры доступными и масштабируемыми, DeepLink позволяет пользователям наслаждаться высокопроизводительным игровым процессом на любом устройстве, от AAA-игр до погружающих VR/AR-окружений. * Ключевые особенности DeepLink * ✅ Децентрализованные кластеры GPU: Высокопроизводительные кластеры GPU обеспечивают бесперебойный игровой процесс без необходимости в дорогих обновлениях оборудования. * ✅ Оптимизация ИИ: Использование ИИ для обеспечения плавного игрового процесса, снижения задержки и улучшения визуального качества для игроков по всему миру. * ✅ Доступный гейминг: Превращает устройства начального уровня в игровые мощи, демократизируя премиум-игровые впечатления для всех. * ✅ Интеграция блокчейна: Обеспечивает прозрачные, безопасные транзакции и децентрализацию для надежной игровой экосистемы. * ✅ Масштабируемый и экономически эффективный: От инди-разработчиков до AAA-издателей, DeepLink предлагает гибкую и доступную инфраструктуру для игр и развлечений.
Auki Labs улучшает розничную робототехнику с новыми инновациями cover
9 дней назад
Auki Labs улучшает розничную робототехнику с новыми инновациями
Розничные магазины по всему миру сталкиваются с серьезной нехваткой персонала, что усугубляется демографическими изменениями в развитых странах. Чтобы справиться с этой проблемой, Auki Labs усиливает свое внимание к робототехнике и ИИ, полагая, что эти технологии могут повысить операционную эффективность и улучшить клиентский опыт. Компания недавно объявила о двух ключевых обновлениях своих инициатив в области робототехники, которые включают в себя усовершенствования их запатентованного робота и усилия по обеспечению совместимости с роботами других производителей, начиная с моделей Unitree. Эта инициатива направлена на создание совместимой сети машинного восприятия, которая позволит различным роботам и устройствам бесшовно сотрудничать в коммерческих помещениях. Первое обновление подчеркивает улучшения, внесенные в магазинный робот Auki, который теперь обладает повышенной интерактивностью и более умными функциями. Новая фронтальная камера предоставляет данные в реальном времени на сервер реконструкции, позволяя роботу поддерживать актуальное цифровое представление своей среды. Это улучшение не только повышает пространственное восприятие робота, но и автоматизирует процесс картографирования. Более того, робот оснащен сенсорным экраном, позволяющим клиентам искать продукты и получать направленную помощь, тем самым упрощая одно из самых распространенных взаимодействий с клиентами в розничной торговле. Эта функция особенно важна, учитывая текущие проблемы с набором персонала, с которыми сталкиваются ритейлеры. Второе обновление представляет собой Unitree Go2-W, роботизированную охранную собаку, предназначенную для патрулирования розничных помещений. Оснащенный датчиками и поисковым фонарем, этот робот может контролировать условия в магазине и предупреждать персонал о потенциальных проблемах, таких как брошенные пакеты. Auki Labs стремится продвигать интеграцию различных роботизированных технологий через свою сеть Auki, улучшая их возможности и создавая более эффективный розничный опыт. Поскольку Auki Labs продолжает внедрять инновации в области робототехники и пространственных вычислений, будущее розничной торговли, похоже, готово к трансформации, обещая улучшенное обслуживание и операционную эффективность в условиях продолжающейся нехватки персонала.
io.net и Injective сотрудничают для улучшения децентрализованных вычислений для ИИ cover
10 дней назад
io.net и Injective сотрудничают для улучшения децентрализованных вычислений для ИИ
В значительном шаге для секторов децентрализованных финансов (DeFi) и искусственного интеллекта (ИИ) io.net и Injective объявили о партнерстве, направленном на улучшение возможностей децентрализованных вычислений в сети Injective. Это сотрудничество, о котором было объявлено в блоге 14 января 2025 года, позволит io.net расширить свою децентрализованную сеть вычислений на GPU для поддержки разработчиков DeFAI на платформе Injective. Интеграция уже запущена, что стало важным шагом в эволюции децентрализованных физических инфраструктурных сетей, которые в настоящее время представляют собой рынок, оцененный примерно в 32 миллиарда долларов. io.net выделяется как ведущий проект в области децентрализованной инфраструктуры, с рыночной капитализацией 393 миллиона долларов на 14 января 2025 года. Другие заметные игроки в этом секторе включают Render, Filecoin, Theta Network и The Graph. Тем временем, рыночные капитализации AI-агентов и ИИ составляют 13 миллиардов и 44 миллиарда долларов соответственно. Сам Injective, инкубированный Binance и поддерживаемый такими известными венчурными капитальными компаниями, как Jump Crypto и Pantera Capital, имеет рыночную капитализацию 2,03 миллиарда долларов, что делает его ключевым игроком в блокчейн-ландшафте для DeFi, реальных активов и ИИ. Партнерство между io.net и Injective направлено на предоставление разработчикам доступа к современным инструментам через фреймворк iAgent от Injective и децентрализованную сеть GPU от io.net. Эта инициатива следует за предыдущим сотрудничеством между Injective и Aethir в декабре 2024 года, которое представило токенизированное распределение вычислительных ресурсов на GPU. Превращая ресурсы GPU в торгуемые токены на платформе Injective, разработчики, исследователи и компании теперь могут более гибко и экономически эффективно получать доступ к вычислительным ресурсам, тем самым способствуя инновациям в экосистеме ИИ и более широком пространстве web3.
Подпишитесь на последние новости и обновления DePIN