使用 Q-LoRA 微調 Llama 3.2 11B 以進行提取式問題回答
星期二, 十一月 26, 2024 12:00 凌晨
129
大型語言模型(LLMs)已成為自然語言處理中的重要工具,能夠處理各種任務。然而,由於其廣泛的訓練,它們在特定應用中可能無法表現出色,除非進一步調整。微調技術,如 Q-LoRA,允許研究人員針對特定任務(例如提取式問題回答)調整像 Llama 3.2 11B 這樣的預訓練模型。本文概述了使用 Q-LoRA 在 SQuAD v2 數據集上微調 Llama 3.2 11B 的過程,展示了通過此方法所實現的性能提升。
LoRA,或低秩適應,是一種技術,通過向現有模型引入新權重而不改變原始參數。通過添加調整某些層輸出的適配器權重,LoRA 使模型能夠保留其預訓練知識,同時獲得針對特定任務的新能力。在這次實驗中,重點是微調 Llama 3.2 11B 以進行提取式問題回答,旨在提取精確的文本片段,直接回答用戶查詢,而不是總結或重新表述內容。該實驗在使用 A100 GPU 的 Google Colab 平台上進行,Hugging Face Transformers 庫促進了實施。
微調過程的結果令人鼓舞,顯示出模型在驗證集上的性能顯著提升。BERT 分數從 0.6469 提升至 0.7505,而精確匹配分數從 0.116 上升至 0.418。這些提升表明 Q-LoRA 技術有效地將 Llama 3.2 11B 模型調整為提取式問題回答任務。本文作為希望將類似方法應用於其他模型和任務的研究人員的指南,突顯了微調在自然語言處理領域的潛力。
Related News
3 天前
DeepLink 與 SoonChain 聯手革新 Web3 遊戲DeepLink 與 SoonChain 簽署了戰略合作協議,SoonChain 是一個 AI Layer-2 區塊鏈遊戲平台,旨在改變 Web3 的格局。這一合作夥伴關係整合了 SoonChain 的尖端 AI 生成遊戲 (AIGG) 解決方案,幫助遊戲開發者設計引人入勝的區塊鏈遊戲。
AIGG 技術的使用消除了傳統編程的優雅,將 Web3 遊戲帶入大眾市場。這套工具旨在創造更高效的機會來製作引人入勝的遊戲,同時為視頻遊戲市場內的更多創意打開大門。在這一整合中,兩家公司旨在分享平等的機會和對遊戲產業的早期訪問,因為中介很少。
為開發者和玩家提供的可及性倡議
SoonChain 是一個單一平台,將人工智能、去中心化物理基礎設施網絡 (DePIN) 和大規模 GPU 計算與 AAA 遊戲標準相連接。與 DeepLink 的整合將允許開發者創建遊戲,該平台的設計不需要深厚的技術技能來創建遊戲,從而使整個行業對每個人都可用,特別是獨立團隊。
此外,它鼓勵遊戲機會的去中心化,作為增加可用性的一部分策略。這一方法與 Web3 的世界觀一致,旨在盡可能少地處理中介,並為用戶提供對其遊戲的控制和擁有權。
DeepLink 和 SoonChain 提供創新的去中心化框架
DeepLink 和 SoonChain 提供了一個開放和去中心化空間的願景,旨在吸引開發者和玩家進行合作,創造新的機會而不受典型限制。基於 DeepBrainChain 架構開發的合作,整合了基於去中心化的 AI 雲遊戲協議,這對於遊戲的增長和優化是有益的。
這一合作關係涉及將 AI 力量與區塊鏈整合,強調了在遊戲開發中開創新領域的關注。它象徵著在使用人工智能和去中心化應用程序方面的量子飛躍,以為全球客戶提供獨特的遊戲解決方案。
* [https://blockchainreporter.net/deeplink-and-soonchain-join-forces-to-revolutionize-web3-gaming/ ](https://blockchainreporter.net/deeplink-and-soonchain-join-forces-to-revolutionize-web3-gaming/)
3 天前
密歇根州立大學加入Theta EdgeCloud進行AI研究密歇根州立大學(MSU)正式採用EdgeCloud平台進行AI研究,成為美國第二所加入此倡議的學術機構,僅次於俄勒岡大學。由副教授閻啟本領導的SEIT實驗室將利用Theta的去中心化GPU基礎設施來促進AI、網絡安全和分佈式系統的進步。作為一所著名的Tier 1研究機構,MSU的合作為Theta在美國的學術夥伴關係增添了重要價值。此外,EdgeCloud計劃在加利福尼亞州、德克薩斯州和中西部等多個地點增強其基於雲的GPU基礎設施,並計劃於2025年6月推出其混合雲邊緣計算平台的測試版。
閻啟本教授是物聯網安全、AI隱私、區塊鏈韌性和網絡安全方面的傑出專家。他的SEIT實驗室在保護連接設備和網絡免受複雜網絡威脅的研究中處於前沿。閻教授的工作在各大知名會議上獲得了認可,並獲得了國家科學基金會(NSF)的顯著資助。他對與Theta的合作表示興奮,強調EdgeCloud平台將促進需要高性能計算的AI項目的擴展,同時推動去中心化技術在物聯網和AI應用中的安全和智能系統的邊界。
SEIT實驗室致力於創建安全、智能的系統,專注於分佈式系統、聯邦學習和區塊鏈技術。最近的項目包括NSF資助的針對語音識別的對抗性強健AI研究和安全智能合約的創新框架。通過採用Theta EdgeCloud,SEIT實驗室將受益於一個去中心化的雲平台,顯著加速AI模型的訓練和部署,與傳統提供商相比,GPU資源的設置時間可減少多達五倍。這一合作不僅加強了Theta的學術網絡,還突顯了其在解決媒體、醫療保健、生物信息學和金融等多個領域複雜挑戰方面的承諾。
6 天前
Network3 AI 將在 IoTeX 平台上推出 N3在 2025 年 1 月 22 日,Network3 AI 將在 IoTeX 平台上推出其新產品 N3。這一創新產品結合了去中心化的 AI 訪問和先進技術,標誌著去中心化物理基礎設施網絡(DePIN)與人工智慧(AI)整合的重要一步。這次推出預計將吸引科技愛好者進入 IOTX 生態系統,若社區反應良好,可能會推動採用率上升並對代幣價格產生正面影響。
N3 的推出不僅僅是技術上的進步;它代表著向民主化 AI 訪問的轉變。通過利用邊緣計算和 GPU 能力,Network3 AI 旨在為用戶提供增強的工具,幫助他們在各種應用中發揮作用。與任何新技術一樣,圍繞 N3 的期待可能會在市場上產生投機和興奮,這可能導致對 IOTX 的投資增加,因為利益相關者希望利用潛在的增長。
隨著推出倒計時的持續,社區被鼓勵在日曆上標記這一關鍵事件。Network3 AI 與 IoTeX 之間的合作預示著去中心化技術及其在 AI 中應用的美好未來。隨著推出日的臨近,所有目光都將集中在 N3 的表現及其對更廣泛區塊鏈生態系統的影響上。
6 天前
以去中心化基礎設施革新雲端遊戲!DeepLink 正在通過結合 AI、區塊鏈和去中心化 GPU 集群,打破遊戲世界的界限,提供超低延遲的雲端遊戲體驗。DeepLink 的設計旨在使遊戲變得可及且可擴展,使用戶能夠在任何設備上享受高性能的遊戲體驗,從 AAA 遊戲到沉浸式 VR/AR 環境。
* DeepLink 的主要特點
* ✅ 去中心化 GPU 集群:高性能的 GPU 集群確保無需昂貴的硬體升級即可實現無縫的遊戲體驗。
* ✅ AI 優化:利用 AI 提供流暢的遊戲體驗,減少延遲,提升全球玩家的視覺質量。
* ✅ 可及的遊戲:將低端設備轉變為遊戲強者,讓所有人都能享受高端遊戲體驗。
* ✅ 區塊鏈整合:實現透明、安全的交易,並為值得信賴的遊戲生態系統提供去中心化支持。
* ✅ 可擴展且具成本效益:從獨立開發者到 AAA 發行商,DeepLink 為遊戲和娛樂提供靈活且經濟實惠的基礎設施。
8 天前
Auki Labs 透過新創新提升零售機器人技術全球的零售商店正面臨著嚴重的人力資源短缺,這一趨勢在發達國家的人口結構變化下愈加明顯。為了解決這一挑戰,Auki Labs 正在加強對機器人和人工智慧的關注,認為這些技術可以提高運營效率並改善客戶體驗。該公司最近宣布了兩項關於其機器人計劃的關鍵更新,包括其專有機器人的進步以及確保與其他製造商的機器人兼容性的努力,首批將與 Unitree 的模型進行合作。這一倡議旨在創建一個可互操作的機器感知網絡,使各種機器人和設備能夠在商業空間中無縫協作。
第一項更新強調了對 Auki 的商店機器人的增強,該機器人現在擁有更高的互動性和更智能的功能。一個新的前置攝像頭為重建伺服器提供實時數據,使機器人能夠保持其環境的更新數位表示。這一改進不僅增強了機器人的空間感知能力,還自動化了地圖繪製過程。此外,該機器人配備了觸控螢幕介面,允許客戶搜索產品並獲得指導協助,從而簡化了零售中最常見的客戶服務互動之一。考慮到零售商面臨的持續人力資源挑戰,這一能力尤為重要。
第二項更新介紹了 Unitree Go2-W,一種設計用於巡邏零售環境的機器人護衛犬。這款機器人配備了傳感器和搜索燈,可以監控商店狀況並提醒員工潛在問題,例如被遺棄的包裹。Auki Labs 致力於通過其 Auki 網絡推進各種機器人技術的整合,提升其能力並創造更高效的零售體驗。隨著 Auki Labs 在機器人和空間計算領域的不斷創新,零售的未來似乎正準備迎來變革,承諾在持續的人力資源短缺面前改善服務和運營效率。
9 天前
io.net 與 Injective 合作提升 AI 的去中心化計算在去中心化金融 (DeFi) 和人工智慧 (AI) 領域的一項重要舉措中,io.net 與 Injective 宣布建立合作夥伴關係,旨在增強 Injective 網絡上的去中心化計算能力。這項合作於 2025 年 1 月 14 日在一篇部落格文章中揭示,io.net 將擴展其去中心化 GPU 計算網絡,以支持 Injective 平台上的 DeFAI 開發者。該整合現已上線,標誌著去中心化物理基礎設施網絡演變的重要一步,該市場目前的估值約為 320 億美元。
io.net 在去中心化基礎設施領域中脫穎而出,截至 2025 年 1 月 14 日,其市值為 3.93 億美元。該領域的其他知名參與者包括 Render、Filecoin、Theta Network 和 The Graph。與此同時,AI 代理和 AI 的市值分別報導為 130 億美元和 440 億美元。Injective 本身由 Binance 孵化,並受到 Jump Crypto 和 Pantera Capital 等知名風險投資公司的支持,市值為 20.3 億美元,將其定位為 DeFi、實體資產和 AI 的區塊鏈領域中的關鍵參與者。
io.net 與 Injective 之間的合作夥伴關係將通過 Injective 的 iAgent 框架和 io.net 的去中心化 GPU 網絡為開發者提供先進工具的訪問權。這一倡議是在 2024 年 12 月 Injective 與 Aethir 之間的先前合作之後,該合作引入了代幣化的 GPU 計算資源分配。通過將 GPU 資源轉換為可在 Injective 平台上交易的代幣,開發者、研究人員和企業現在可以更靈活和具成本效益地訪問計算資源,從而促進 AI 生態系統和更廣泛的 web3 空間的創新。
註冊以獲取最新的DePIN新聞和更新