1. GPT創造者:第二次改變AI浪潮的方向
那么,從推動這一系列變革的科學家角度,他究竟如何看待當先ChatGPT、GPT-4模型的發展?他對AI的思考和堅定信念從何而來?OpenAI下一步研究方向是什么?他又如何看待AI對社會的影響?
(資料圖片)
鏈接:
https://mp.weixin.qq.com/s/rZBEDlxFVsVXoL5YUVU3XQ
2. 科普:人類反饋的強化學習(RLHF)
ChatGPT中的RLHF究竟是如何運作的?它為什么有效?
鏈接:
https://huyenchip.com/2023/05/02/rlhf.html
3. ChatGPT作者John Schulman:通往TruthGPT之路
大型語言模型(LLM)有一個眾所周知的“硬傷”——它們經常會一本正經編造貌似真實的內容。作為ChatGPT項目的主要負責人以及OpenAI強化學習團隊的領導者,John Schulman在最近的Berkeley EECS會議上系統性地分享了OpenAI在人類反饋的強化學習(RLHF)方面所做的工作,以及語言模型的幻覺等亟待解決的問題,同時也介紹了解決這些挑戰的潛在思路。
鏈接:
https://mp.weixin.qq.com/s/snS2ty4x7gJ9QoMxWU0_Lw
4. 為什么ChatGPT用強化學習而非監督學習?
隨著ChatGPT等大型語言模型的發布,人們對“RLHF訓練(即基于人類反饋的強化學習訓練)”的重要性進行了諸多討論。在訓練語言模型方面,我一度困惑于為什么強化學習比從演示中學習(也稱為監督學習)更好,難道從演示中學習(或根據語言模型術語中的“指令微調”,學習模仿人類寫的回答)還不夠?
鏈接:
https://mp.weixin.qq.com/s/4USDakdomupWuwwhex6fMg
5. 谷歌研究科學家:ChatGPT秘密武器的演進與局限
此前,ChatGPT負責人John Schulman介紹了RLHF想法的起源,關鍵在于他們在語言模型中應用強化學習,使用人類反饋去定義獎勵函數。此外,OpenAI的RLHF所使用的諸多技術也是基于前人研究基礎上組合而成的成果,其中就包括Natasha Jaques的工作。
鏈接:
https://mp.weixin.qq.com/s/HsJmaL3acV2yZJGd2npcLg
6. Constitution AI:訓練大型語言模型的最佳方法?
語言模型如何決定它會處理哪些問題以及它認為不合適的問題?為什么它會鼓勵某些行為而阻止其他行為?語言模型可能具有哪些“價值觀(values)”?
這些都是人們努力解決的問題。Anthropic最近發表的關于“Constitution AI”的研究認為,這種方法為語言模型提供了顯式的價值觀,而不是通過大規模人類反饋隱式確定的價值觀。這不是一個完美的方法,但它確實使人工智能系統的價值更容易理解,也更容易根據需要進行調整。Claude模型就使用Constitution AI進行訓練,從而讓其更安全。Anthropic認為,這種方法優于用于訓練ChatGPT等系統的其他方法。
鏈接:
1. https://www.anthropic.com/index/claudes-constitution;
2. https://arxiv.org/abs/2212.08073
7. 向量嵌入:AutoGPT的幻覺解法?
此前,OpenAI首席科學家Ilya Sutskever談到,他希望通過改進強化學習反饋步驟來阻止神經網絡產生“幻覺”。不過,向量嵌入(vector embeddings)看上去是解決這一挑戰的更為簡單有效的方法,它可以為LLM創建一個長期記憶的數據庫。通過將權威、可信的信息轉換為向量,并將它們加載到向量數據庫中,數據庫能為LLM提供可靠的信息源,從而減少模型產生幻覺的可能性。
鏈接:
https://mp.weixin.qq.com/s/Hx52fL9hN5eLA13qJv-VCQ
8. 大語言模型(LLM)微調技術筆記?
在預訓練后,大模型可以獲得解決各種任務的通用能力。然而,越來越多的研究表明,大語言模型的能力可以根據特定目標進一步調整。這就是微調技術,目前主要有兩種微調大模型的方法指令微調、對齊微調,OpenAI發布的ChatGPT主要應用了微調技術,從而獲得了驚艷全世界的效果。
鏈接:
https://github.com/ninehills/ninehills.github.io/issues/92
9. 大型語言模型綜述
在這篇綜述中,研究者們介紹了大型語言模型的背景、主要研究方向、主流技術以及最新進展。他們特別關注LLM的四個主要方面,即預訓練、適應性精調、應用和能力評估。此外,他們還總結了LLM的現有資源,并討論了未來發展方向等問題。
鏈接:
https://arxiv.org/abs/2303.18223
10. 那些開源的LLM和數據集、研究洞見
開源的力量正在源源不斷地影響著整個 AI 社區,無論是 LLM 還是數據集。本文作者 Sebastian Raschka 對相關資源進行了匯總,并分享了自己的洞見。
鏈接:
https://mp.weixin.qq.com/s/VleZkQT6Vga7vqZP8pvgQQ
11. Open LLMs:可供商業使用的開源大型語言模型列表
本文列出的?LLM 均已獲得商業用途許可(基于 Apache 2.0、MIT、OpenRAIL-M)。
鏈接:
https://github.com/eugeneyan/open-llms
12. 羊駝系列大模型和ChatGPT差多少?詳細測評后,我沉默了
總的來說,該測試得出的結論是:MPT 還沒有準備好在現實世界中使用,而 Vicuna 對于許多任務來說是 ChatGPT (3.5) 的可行替代品。
鏈接:
https://mp.weixin.qq.com/s/Gg-zbhzJcqmU0guSSvWpXg
13. 大型語言模型的推理演算
本文詳細闡述了大型語言模型推理性能的幾個基本原理,不含任何實驗數據或復雜的數學公式,旨在加深讀者對相關原理的理解。此外,作者還提出了一種極其簡單的推理時延模型,該模型與實證結果擬合度高,可更好地預測和解釋Transformer模型的推理過程。
鏈接:
https://mp.weixin.qq.com/s/2wfUQNsH4IRuJEF39mebUQ
14. Transformer模型的基礎演算
Transformer語言模型的許多基本重要信息可以通過簡單計算得出。不幸的是,這些計算公式在自然語言處理(NLP)社區中并不廣為人知。AI非營利研究組織EleutherAI收集整理這些公式,并介紹這些公式的來源和重要性。
鏈接:
https://mp.weixin.qq.com/s/0Er0UOk6Wdky-0gzeQxK0g
15. 機器學習系統的九種設計模式
設計模式是針對軟件工程中常見問題的可重復使用、經過時間考驗的解決方案。他們將最佳實踐和過去的知識進行提煉,成為從業者的實用建議,并提供共享詞匯表,以便有效協作。本文作者分享了在機器學習系統中的主要設計模式。
鏈接:
https://eugeneyan.com/writing/more-patterns/
16. 編譯器大佬Chris Lattner全新編程語言「Mojo」:兼容Python核心功能
Mojo結合了Python的可用性與C的性能,釋放了AI硬件無與倫比的可編程性和AI模型的可擴展性」—— 它與Python一樣易于使用,但具有C++和Rust的性能。此外,Mojo提供了利用整個Python庫生態系統的能力。
鏈接:
https://mp.weixin.qq.com/s/EguqTuzJwehfWm7UqMtbdw
17. 領域編譯器發展的前世今生
近年來,隨著GPU和DSA架構在不同領域的廣泛應用,特別是AI系統相關技術的飛速發展,對于編譯器的需求越來越強烈。編譯器已經從一個相對小眾的研究領域,變為學界和業界都高度關注并大量投入的方向。與此同時,編譯器的開發人員也從芯片研發團隊開始延伸到更上層的軟件層面。在很多領域的軟件系統中,都開始引入編譯技術來實現提升開發效率或運行效率等目標。本文從領域編譯器的角色著眼,來討論領域編譯器發展的前世今生。
鏈接:
1. https://mp.weixin.qq.com/s/eiQ6dRgDxAR7zkuWCBPfqg;
2.?https://mp.weixin.qq.com/s/Z6qiwPDevG6mF29TWjOb4g
18. OneFlow源碼解析:Eager模式下的設備管理與并發執行
通過這篇筆記,希望能初步了解 OneFlow 在 Eager 模式下對設備的管理方式、設備執行計算的過程以及如何充分利用設備計算能力。這里的設備主要指類似 CUDA 這樣的并行計算加速設備。
鏈接:
https://mp.weixin.qq.com/s/RMF38IlkRcxza6A8W6fG-w
其他人都在看
大型語言模型的推理演算
向量嵌入:AutoGPT的幻覺解法?
John Schulman:通往TruthGPT之路
《分布式人工智能系統》講習班開始報名
為什么ChatGPT用強化學習而非監督學習
OneEmbedding:單卡訓練TB級推薦模型不是夢
GLM訓練加速:性能最高提升3倍,顯存節省1/3
歡迎Star、試用OneFlow:github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/
關鍵詞: