Tinh Chỉnh Llama 3.2 11B với Q-LoRA cho Câu Hỏi Trích Xuất

thứ ba, tháng 11 26, 2024 12:00 AM
215

Các Mô Hình Ngôn Ngữ Lớn (LLMs) đã trở thành công cụ thiết yếu trong xử lý ngôn ngữ tự nhiên, có khả năng xử lý nhiều nhiệm vụ khác nhau. Tuy nhiên, do việc đào tạo rộng rãi của chúng, chúng có thể không xuất sắc trong các ứng dụng cụ thể mà không cần điều chỉnh thêm. Các kỹ thuật tinh chỉnh, chẳng hạn như Q-LoRA, cho phép các nhà nghiên cứu điều chỉnh các mô hình đã được đào tạo trước như Llama 3.2 11B cho các nhiệm vụ cụ thể, chẳng hạn như câu hỏi trích xuất. Bài viết này phác thảo quy trình tinh chỉnh Llama 3.2 11B sử dụng Q-LoRA trên tập dữ liệu SQuAD v2, trình bày những cải tiến về hiệu suất đạt được thông qua phương pháp này.

LoRA, hay Điều Chỉnh Thấp Hạng, là một kỹ thuật giới thiệu các trọng số mới vào một mô hình hiện có mà không thay đổi các tham số gốc. Bằng cách thêm các trọng số bộ điều chỉnh điều chỉnh đầu ra của một số lớp nhất định, LoRA cho phép các mô hình giữ lại kiến thức đã được đào tạo trước trong khi có được các khả năng mới được điều chỉnh cho các nhiệm vụ cụ thể. Trong thí nghiệm này, trọng tâm là tinh chỉnh Llama 3.2 11B cho câu hỏi trích xuất, nhằm mục đích trích xuất các đoạn văn bản chính xác trả lời trực tiếp các truy vấn của người dùng, thay vì tóm tắt hoặc diễn đạt lại nội dung. Thí nghiệm được thực hiện trên nền tảng Google Colab sử dụng GPU A100, với thư viện Hugging Face Transformers hỗ trợ việc triển khai.

Kết quả của quá trình tinh chỉnh rất hứa hẹn, cho thấy sự cải thiện đáng kể trong hiệu suất của mô hình trên tập xác thực. Điểm BERT cải thiện từ 0.6469 lên 0.7505, trong khi điểm khớp chính xác tăng từ 0.116 lên 0.418. Những cải tiến này cho thấy kỹ thuật Q-LoRA thích ứng hiệu quả mô hình Llama 3.2 11B cho các nhiệm vụ câu hỏi trích xuất. Bài viết này phục vụ như một hướng dẫn cho các nhà nghiên cứu muốn áp dụng các phương pháp tương tự cho các mô hình và nhiệm vụ khác, nhấn mạnh tiềm năng của việc tinh chỉnh trong lĩnh vực xử lý ngôn ngữ tự nhiên.

1

Related News

Các loại tiền điện tử tập trung vào AI đối mặt với sự suy giảm đáng kể giữa sự chậm lại của Microsoft trong việc mở rộng trung tâm dữ liệu cover
2 ngày trước
Các loại tiền điện tử tập trung vào AI đối mặt với sự suy giảm đáng kể giữa sự chậm lại của Microsoft trong việc mở rộng trung tâm dữ liệu
Sự suy giảm gần đây trong thị trường tiền điện tử, đặc biệt là đối với các token tập trung vào AI, đã bị ảnh hưởng đáng kể bởi quyết định của Microsoft trong việc làm chậm kế hoạch mở rộng trung tâm dữ liệu. Trong 24 giờ qua, token của Bittensor đã giảm 10%, với mức giảm đáng kinh ngạc 24% trong tuần qua. Render Token (RNDR) và Grass cũng đã chứng kiến sự suy giảm lần lượt là 10% và 20%, góp phần vào sự giảm 10% trong tổng vốn hóa thị trường của các token AI được CoinGecko theo dõi. Xu hướng này phản ánh hiệu suất của các cổ phiếu liên quan đến AI lớn, với NVIDIA trải qua sự giảm hơn 30% từ đỉnh điểm năm 2024 và AMD giảm 47% so với mức cao của năm nay. Tác động của thông báo từ Microsoft, bao gồm việc ngừng hoặc trì hoãn phát triển trung tâm dữ liệu ở nhiều quốc gia, dấy lên lo ngại về tốc độ tăng trưởng trong lĩnh vực AI. Tin tức này đặc biệt nổi bật khi xem xét vai trò quan trọng của Microsoft trong việc thương mại hóa AI thông qua sự hợp tác với OpenAI, nhà sáng tạo của ChatGPT. Các nhà phân tích từ TD Cowen đã bày tỏ lo ngại về khả năng cung cấp quá mức các trung tâm dữ liệu, cho rằng nhu cầu có thể không theo kịp với sự mở rộng nhanh chóng mà trước đây đã được dự đoán. Cơn sốt AI đã thu hút nhiều nhà phát triển trong không gian tiền điện tử, với các dự án như Bittensor cung cấp các thị trường phi tập trung cho các mô hình học AI, nơi các thợ mỏ kiếm được token TAO bằng cách đóng góp tài nguyên tính toán. Render hoạt động trên Solana, cung cấp nền tảng cho người dùng thuê sức mạnh GPU, trong khi Grass khuyến khích người dùng kiếm token thông qua việc cài đặt ứng dụng. Thêm vào đó, sự suy giảm trong các đồng meme AI, đặc biệt trong hệ sinh thái Virtuals Protocol, làm nổi bật sự điều chỉnh rộng hơn của thị trường, với các token như GAME chứng kiến giá trị của chúng giảm từ 350 triệu đô la xuống chỉ còn 13 triệu đô la kể từ tháng 1.
Phoenix Dẫn Đầu Sự Tăng Trưởng và Đổi Mới của Ngành DePIN-AI cover
9 ngày trước
Phoenix Dẫn Đầu Sự Tăng Trưởng và Đổi Mới của Ngành DePIN-AI
Ngành Mạng Cơ Sở Hạ Tầng Vật Lý Phi Tập Trung (DePIN) đang phát triển nhanh chóng, cho thấy tiềm năng đáng kể trong nhiều lĩnh vực công nghệ khác nhau. Theo một báo cáo gần đây của Messari, DePIN hiện đang ở giai đoạn tăng trưởng sơ khai, nắm giữ chưa đến 0,1% thị phần nhưng có vốn hóa thị trường lên tới 50 tỷ USD, được hỗ trợ bởi hơn 13 triệu thiết bị đóng góp hàng ngày. Bằng cách loại bỏ các trung gian tập trung, DePIN tạo điều kiện cho việc chia sẻ tài sản vật lý hiệu quả và bao trùm hơn, điều này rất quan trọng cho sự phát triển và vận hành của các cơ sở hạ tầng quan trọng trong lĩnh vực điện toán, AI, công nghệ không dây và dịch vụ năng lượng. Kể từ khi ra đời, DePIN đã thu hút sự chú ý từ các công ty công nghệ lớn, đặc biệt là vào năm 2023, khi các nhà sản xuất toàn cầu bắt đầu tích hợp blockchain vào các cơ sở hạ tầng thực tế. Ngành này có thể được phân loại thành Mạng Tài Nguyên Vật Lý, tập trung vào các thiết bị, và Mạng Tài Nguyên Kỹ Thuật Số, nhấn mạnh vào các tài nguyên điện toán như CDN và AI. Sự phân đôi này cho phép các chủ sở hữu thiết bị cá nhân chia sẻ dữ liệu và kiếm phần thưởng trong khi cung cấp các tài nguyên điện toán dễ tiếp cận. Các ứng dụng của DePIN mở rộng đến viễn thông, quản lý dữ liệu và lưu trữ đám mây, cung cấp các giải pháp thay thế có thể mở rộng cho các hệ thống tập trung truyền thống và nâng cao chức năng của AI. Đứng đầu trong sự đổi mới này là Phoenix, một mạng điện toán AI phi tập trung tận dụng cơ sở hạ tầng DePIN để cung cấp các giải pháp có thể mở rộng cho các ứng dụng AI. Nền tảng SkyNet của Phoenix sử dụng một mạng lưới GPU hiệu suất cao phân phối toàn cầu, bao gồm cả các mô hình NVIDIA và các mô hình thay thế, để tối ưu hóa các hoạt động AI. Các hợp tác của họ với các công ty như TandemAI và Origin Quantum nhằm mục đích dân chủ hóa quyền truy cập vào các tài nguyên điện toán tiên tiến, cho phép các tổ chức nghiên cứu thực hiện các phân tích phức tạp với chi phí tối thiểu. Khi ngành DePIN-AI dự kiến đạt quy mô thị trường 3,5 nghìn tỷ USD vào năm 2028, Phoenix đang sẵn sàng dẫn đầu làn sóng chuyển đổi này bằng cách kết hợp cơ sở hạ tầng phi tập trung với các công nghệ AI tiên tiến.
Giao thức SFT hợp tác với SOLPEN để thúc đẩy cơ sở hạ tầng phi tập trung dựa trên AI cover
10 ngày trước
Giao thức SFT hợp tác với SOLPEN để thúc đẩy cơ sở hạ tầng phi tập trung dựa trên AI
Giao thức SFT, một người chơi nổi bật trong lĩnh vực Web3, đã công bố một quan hệ đối tác chiến lược với SOLPEN, một hệ sinh thái DePIN dựa trên AI dựa trên blockchain Solana. Sự hợp tác này nhằm định nghĩa lại sự tương tác giữa các mạng AI phi tập trung và Internet of Things (IoT), từ đó củng cố kết nối giữa công nghệ Web3 và cơ sở hạ tầng vật lý. Sáng kiến này đã được tiết lộ thông qua các kênh truyền thông xã hội chính thức của Giao thức SFT, nhấn mạnh tầm quan trọng của sự hợp nhất này trong việc nâng cao khả năng của cả hai nền tảng. Quan hệ đối tác này dự kiến sẽ kết hợp các giải pháp mạnh mẽ của Giao thức SFT cho cơ sở hạ tầng DePIN với công nghệ đeo được tiên tiến dựa trên AI của SOLPEN. Sự tích hợp này được kỳ vọng sẽ tạo ra một hệ sinh thái phi tập trung hoạt động với độ trễ thấp và hiệu suất cao. Bằng cách tận dụng xử lý dữ liệu phi tập trung và phân tích AI, sự hợp tác hứa hẹn sẽ nâng cao đáng kể các ứng dụng trong thế giới thực. Giao thức SFT đã khẳng định vị thế của mình như một người chơi chính trong hệ sinh thái DePIN, tập trung vào cơ sở hạ tầng dựa trên blockchain hỗ trợ các ứng dụng thực tế liền mạch, từ đó thúc đẩy việc áp dụng rộng rãi công nghệ Web3. Hơn nữa, sự hợp tác này được hưởng lợi từ blockchain hiệu suất cao của Solana, điều này tạo điều kiện cho sự tích hợp vô song trên nhiều nền tảng Web3 khác nhau. Bằng cách thiết lập các tiêu chuẩn mới cho cơ sở hạ tầng phi tập trung, cả Giao thức SFT và SOLPEN đang nâng cao tính thực tiễn và khả năng tiếp cận của các sản phẩm của họ. Khi họ tiếp tục phát triển, quan hệ đối tác này có khả năng dẫn đến một mạng lưới Web3 thông minh hơn, tích hợp AI, mở đường cho các giải pháp đổi mới trong lĩnh vực phi tập trung.
New Jersey Devils Ra Mắt Chatbot AI 'Bott Stevens' Để Tăng Cường Tương Tác Với Người Hâm Mộ cover
17 ngày trước
New Jersey Devils Ra Mắt Chatbot AI 'Bott Stevens' Để Tăng Cường Tương Tác Với Người Hâm Mộ
New Jersey Devils đã giới thiệu một chatbot AI tiên phong mang tên "Bott Stevens," nhằm nâng cao sự tương tác kỹ thuật số với người hâm mộ. Chatbot sáng tạo này được đặt theo tên của cầu thủ huyền thoại của Devils, Scott Stevens, và được hỗ trợ bởi cơ sở hạ tầng AI phi tập trung của Theta EdgeCloud. Dự kiến ra mắt trong mùa giải NHL 2024-25, Bott Stevens sẽ có sẵn trên trang web chính thức của đội, cung cấp cho người hâm mộ thông tin theo thời gian thực về lịch thi đấu, doanh số vé, thống kê và hàng hóa. Sử dụng công nghệ Tăng cường Tìm kiếm của Theta, chatbot sẽ đảm bảo độ chính xác của dữ liệu bằng cách lấy thông tin từ các kênh chính thức của NHL, từ đó giảm thiểu rủi ro thông tin sai lệch từ các nguồn không được xác minh. Bott Stevens sở hữu khả năng tính toán ấn tượng, tận dụng mạng lưới hơn 30.000 nút biên và GPU phân tán của Theta EdgeCloud, cung cấp tổng cộng hơn 80 PetaFLOPS sức mạnh xử lý. Cơ sở hạ tầng mạnh mẽ này được thiết kế để xử lý nhu cầu cao, đặc biệt trong các sự kiện quan trọng như vòng playoffs hoặc thông báo quan trọng của đội. Ngoài việc trả lời các câu hỏi của người hâm mộ, chatbot sẽ cung cấp các điểm nổi bật lịch sử, tóm tắt trận đấu, thông tin về địa điểm và cập nhật về các sự kiện của đội. Các cải tiến trong tương lai có thể bao gồm phân tích dự đoán cho thể thao giả tưởng và các công cụ tương tác để thu hút thêm người hâm mộ. Để quảng bá Bott Stevens, Devils dự định tích hợp các khả năng của nó trên nhiều nền tảng, khuyến khích sự tương tác và nhận thức của người hâm mộ. Chatbot sẽ không chỉ cung cấp thống kê và lịch thi đấu mà còn cả nội dung được chọn lọc làm phong phú thêm trải nghiệm của người hâm mộ, chẳng hạn như các điểm nổi bật lịch sử và thông tin về các sự kiện sắp tới. Các chỉ số thành công sẽ bao gồm tỷ lệ tương tác của người dùng, độ chính xác của thông tin và phản hồi từ người hâm mộ, đảm bảo rằng Bott Stevens vẫn là một nguồn tài nguyên quý giá cho cộng đồng của Devils. Bằng cách tập trung vào việc học hỏi liên tục và tương tác cá nhân hóa, đội ngũ mong muốn tạo ra sự khác biệt cho Bott Stevens so với các đại lý AI khác, tạo ra một trải nghiệm độc đáo và hấp dẫn cho người hâm mộ.
Cách mạng hóa AI Bảo mật với Intel TDX và iExec cover
18 ngày trước
Cách mạng hóa AI Bảo mật với Intel TDX và iExec
Cảnh quan của AI Bảo mật đang trải qua một sự chuyển biến đáng kể, chủ yếu được thúc đẩy bởi sự ra mắt của Intel® Trust Domain Extensions (Intel® TDX). Trong nhiều năm, các nhà phát triển đã gặp khó khăn khi cố gắng bảo mật các khối lượng công việc AI bằng cách sử dụng Intel SGX, điều này thường yêu cầu sửa đổi lớn đối với các ứng dụng và dẫn đến các vấn đề tương thích. Quy trình rườm rà này không chỉ lãng phí thời gian mà còn cản trở việc áp dụng thực tế các giải pháp AI Bảo mật. Tuy nhiên, với Intel TDX, các nhà phát triển giờ đây có thể chạy các khối lượng công việc AI trong các máy ảo an toàn mà không cần phải viết lại mã của họ, do đó đơn giản hóa quy trình phát triển và nâng cao hiệu suất. Intel TDX được thiết kế để tạo ra một môi trường thực thi đáng tin cậy (TEE) được cách ly phần cứng, nâng cao tính bảo mật và toàn vẹn dữ liệu trong các môi trường ảo hóa. Được tích hợp vào các bộ xử lý Intel Xeon® Scalable thế hệ thứ 4, TDX giới thiệu các Miền Tin cậy cách ly các máy ảo khỏi hypervisor và thậm chí cả các nhà cung cấp dịch vụ đám mây. Sự cách ly này rất quan trọng đối với các ứng dụng AI xử lý các tập dữ liệu nhạy cảm và các mô hình độc quyền, vì nó giảm đáng kể bề mặt tấn công trong khi vẫn duy trì hiệu suất cao. Thêm vào đó, TDX được tối ưu hóa cho các khối lượng công việc AI, tận dụng các khả năng CPU tiên tiến để tăng tốc các mô hình học sâu và học máy, khiến nó trở thành một lựa chọn mạnh mẽ cho các nhà phát triển. Sự hợp tác giữa Intel TDX và iExec đang mở đường cho một kỷ nguyên mới của AI Bảo mật. Là một Thành viên Vàng của Intel Partner Alliance, iExec đang dẫn đầu trong phong trào này, cung cấp các giải pháp cho phép thực thi an toàn, phi tập trung và có thể mở rộng các khối lượng công việc AI. Quan hệ đối tác này không chỉ nâng cao tính bảo mật của các phép toán AI mà còn đảm bảo tuân thủ các quy định về bảo vệ dữ liệu. Với các ứng dụng thực tiễn trong các lĩnh vực như chăm sóc sức khỏe và tài chính, iExec trao quyền cho các nhà phát triển xây dựng các ứng dụng AI bảo vệ quyền riêng tư mà ưu tiên quyền sở hữu dữ liệu và tính toán an toàn, cuối cùng dẫn đến một hệ sinh thái AI đáng tin cậy hơn.
Các loại tiền điện tử AI Bittensor và IntelMarkets cho thấy tiềm năng tăng trưởng hứa hẹn cover
19 ngày trước
Các loại tiền điện tử AI Bittensor và IntelMarkets cho thấy tiềm năng tăng trưởng hứa hẹn
Các loại tiền điện tử được điều khiển bởi AI như Bittensor và IntelMarkets đang trải qua một sự gia tăng đáng kể, với mức tăng ấn tượng 40% trong tháng trước đã thu hút sự chú ý từ các nhà phân tích. Sự chấp nhận ngày càng tăng của trí tuệ nhân tạo và trí tuệ phi tập trung đã định vị cả hai token TAO và INTL cho tiềm năng tăng trưởng đáng kể. Các nhà đầu tư đang tự hỏi liệu đây chỉ là sự khởi đầu của một phong trào lớn hơn trong không gian tiền điện tử, đặc biệt khi những phát triển gần đây của Bittensor gợi ý về một tương lai hứa hẹn. Token TAO của Bittensor gần đây đã thu hút được sự chú ý trong lĩnh vực DeFi AI, mặc dù vẫn nằm trong một kênh giá giảm. Một mô hình bao trùm tăng giá nhỏ đã xuất hiện, gợi ý về một sự bứt phá có thể xảy ra. Các yếu tố góp phần vào sự lạc quan này bao gồm kế hoạch đầu tư lớn của Tổng thống Trump cho AI, mặc dù tập trung vào các giải pháp tập trung, có thể nâng cao các cuộc thảo luận xung quanh AI phi tập trung, nơi Bittensor đang có những bước tiến. Thêm vào đó, một sự hợp tác giữa Zuvu AI và Vana nhằm nâng cao AI phi tập trung trong Bittensor, có thể mở đường cho TAO đạt đến mức mục tiêu đầy tham vọng 1.000 USD trong điều kiện thị trường thuận lợi. Mặt khác, IntelMarkets đang dân chủ hóa quyền truy cập vào các công cụ AI cho các nhà giao dịch hàng ngày, trước đây chỉ có sẵn cho các quỹ đầu cơ. Bằng cách cung cấp các bot giao dịch tiên tiến và cảnh báo theo thời gian thực, IntelMarkets trao quyền cho các nhà giao dịch nhỏ để đưa ra quyết định thông minh. Nền tảng cũng nhấn mạnh giáo dục, cung cấp tài nguyên để đơn giản hóa các chiến lược đầu tư phức tạp. Với hệ thống bảo mật mạnh mẽ, Codeum, IntelMarkets đảm bảo tài sản của người dùng luôn được bảo vệ. Hiện tại đang ở Giai đoạn 10 của đợt bán trước, token INTL có giá hấp dẫn là 0,092 USD, với dự đoán cho thấy nó có thể cạnh tranh với vốn hóa thị trường của Bittensor, mang lại cho các nhà đầu tư sớm tiềm năng lợi nhuận 20.000%.
Đăng ký để nhận tin tức và cập nhật mới nhất từ DePIN