揭秘RLHF；可商用開源LLM列表；領域編譯器的前世今生

來源：CSDN博客 | 2023-05-30 10:05:07 |

1. GPT創造者：第二次改變AI浪潮的方向

那么，從推動這一系列變革的科學家角度，他究竟如何看待當先ChatGPT、GPT-4模型的發展？他對AI的思考和堅定信念從何而來？OpenAI下一步研究方向是什么？他又如何看待AI對社會的影響？

(資料圖片)

鏈接：

https://mp.weixin.qq.com/s/rZBEDlxFVsVXoL5YUVU3XQ

2. 科普：人類反饋的強化學習（RLHF）

ChatGPT中的RLHF究竟是如何運作的？它為什么有效？

鏈接：

https://huyenchip.com/2023/05/02/rlhf.html

3. ChatGPT作者John Schulman：通往TruthGPT之路

大型語言模型（LLM）有一個眾所周知的“硬傷”——它們經常會一本正經編造貌似真實的內容。作為ChatGPT項目的主要負責人以及OpenAI強化學習團隊的領導者，John Schulman在最近的Berkeley EECS會議上系統性地分享了OpenAI在人類反饋的強化學習（RLHF）方面所做的工作，以及語言模型的幻覺等亟待解決的問題，同時也介紹了解決這些挑戰的潛在思路。

鏈接：

https://mp.weixin.qq.com/s/snS2ty4x7gJ9QoMxWU0_Lw

4. 為什么ChatGPT用強化學習而非監督學習？

隨著ChatGPT等大型語言模型的發布，人們對“RLHF訓練（即基于人類反饋的強化學習訓練）”的重要性進行了諸多討論。在訓練語言模型方面，我一度困惑于為什么強化學習比從演示中學習（也稱為監督學習）更好，難道從演示中學習（或根據語言模型術語中的“指令微調”，學習模仿人類寫的回答）還不夠？

鏈接：

https://mp.weixin.qq.com/s/4USDakdomupWuwwhex6fMg

5. 谷歌研究科學家：ChatGPT秘密武器的演進與局限

此前，ChatGPT負責人John Schulman介紹了RLHF想法的起源，關鍵在于他們在語言模型中應用強化學習，使用人類反饋去定義獎勵函數。此外，OpenAI的RLHF所使用的諸多技術也是基于前人研究基礎上組合而成的成果，其中就包括Natasha Jaques的工作。

鏈接：

https://mp.weixin.qq.com/s/HsJmaL3acV2yZJGd2npcLg

6. Constitution AI：訓練大型語言模型的最佳方法？

語言模型如何決定它會處理哪些問題以及它認為不合適的問題？為什么它會鼓勵某些行為而阻止其他行為？語言模型可能具有哪些“價值觀（values）”？

這些都是人們努力解決的問題。Anthropic最近發表的關于“Constitution AI”的研究認為，這種方法為語言模型提供了顯式的價值觀，而不是通過大規模人類反饋隱式確定的價值觀。這不是一個完美的方法，但它確實使人工智能系統的價值更容易理解，也更容易根據需要進行調整。Claude模型就使用Constitution AI進行訓練，從而讓其更安全。Anthropic認為，這種方法優于用于訓練ChatGPT等系統的其他方法。

鏈接：

1. https://www.anthropic.com/index/claudes-constitution；

2. https://arxiv.org/abs/2212.08073

7. 向量嵌入：AutoGPT的幻覺解法？

此前，OpenAI首席科學家Ilya Sutskever談到，他希望通過改進強化學習反饋步驟來阻止神經網絡產生“幻覺”。不過，向量嵌入（vector embeddings）看上去是解決這一挑戰的更為簡單有效的方法，它可以為LLM創建一個長期記憶的數據庫。通過將權威、可信的信息轉換為向量，并將它們加載到向量數據庫中，數據庫能為LLM提供可靠的信息源，從而減少模型產生幻覺的可能性。

鏈接：

https://mp.weixin.qq.com/s/Hx52fL9hN5eLA13qJv-VCQ

8. 大語言模型（LLM）微調技術筆記?

在預訓練后，大模型可以獲得解決各種任務的通用能力。然而，越來越多的研究表明，大語言模型的能力可以根據特定目標進一步調整。這就是微調技術，目前主要有兩種微調大模型的方法指令微調、對齊微調，OpenAI發布的ChatGPT主要應用了微調技術，從而獲得了驚艷全世界的效果。

鏈接：

https://github.com/ninehills/ninehills.github.io/issues/92

9. 大型語言模型綜述

在這篇綜述中，研究者們介紹了大型語言模型的背景、主要研究方向、主流技術以及最新進展。他們特別關注LLM的四個主要方面，即預訓練、適應性精調、應用和能力評估。此外，他們還總結了LLM的現有資源，并討論了未來發展方向等問題。

鏈接：

https://arxiv.org/abs/2303.18223

10. 那些開源的LLM和數據集、研究洞見

開源的力量正在源源不斷地影響著整個 AI 社區，無論是 LLM 還是數據集。本文作者 Sebastian Raschka 對相關資源進行了匯總，并分享了自己的洞見。

鏈接：

https://mp.weixin.qq.com/s/VleZkQT6Vga7vqZP8pvgQQ

11. Open LLMs：可供商業使用的開源大型語言模型列表

本文列出的?LLM 均已獲得商業用途許可（基于 Apache 2.0、MIT、OpenRAIL-M）。

鏈接：

https://github.com/eugeneyan/open-llms

12. 羊駝系列大模型和ChatGPT差多少？詳細測評后，我沉默了

總的來說，該測試得出的結論是：MPT 還沒有準備好在現實世界中使用，而 Vicuna 對于許多任務來說是 ChatGPT (3.5) 的可行替代品。

鏈接：

https://mp.weixin.qq.com/s/Gg-zbhzJcqmU0guSSvWpXg

13. 大型語言模型的推理演算

本文詳細闡述了大型語言模型推理性能的幾個基本原理，不含任何實驗數據或復雜的數學公式，旨在加深讀者對相關原理的理解。此外，作者還提出了一種極其簡單的推理時延模型，該模型與實證結果擬合度高，可更好地預測和解釋Transformer模型的推理過程。

鏈接：

https://mp.weixin.qq.com/s/2wfUQNsH4IRuJEF39mebUQ

14. Transformer模型的基礎演算

Transformer語言模型的許多基本重要信息可以通過簡單計算得出。不幸的是，這些計算公式在自然語言處理（NLP）社區中并不廣為人知。AI非營利研究組織EleutherAI收集整理這些公式，并介紹這些公式的來源和重要性。

鏈接：

https://mp.weixin.qq.com/s/0Er0UOk6Wdky-0gzeQxK0g

15. 機器學習系統的九種設計模式

設計模式是針對軟件工程中常見問題的可重復使用、經過時間考驗的解決方案。他們將最佳實踐和過去的知識進行提煉，成為從業者的實用建議，并提供共享詞匯表，以便有效協作。本文作者分享了在機器學習系統中的主要設計模式。

鏈接：

https://eugeneyan.com/writing/more-patterns/

16. 編譯器大佬Chris Lattner全新編程語言「Mojo」：兼容Python核心功能

Mojo結合了Python的可用性與C的性能，釋放了AI硬件無與倫比的可編程性和AI模型的可擴展性」—— 它與Python一樣易于使用，但具有C++和Rust的性能。此外，Mojo提供了利用整個Python庫生態系統的能力。

鏈接：

https://mp.weixin.qq.com/s/EguqTuzJwehfWm7UqMtbdw

17. 領域編譯器發展的前世今生

近年來，隨著GPU和DSA架構在不同領域的廣泛應用，特別是AI系統相關技術的飛速發展，對于編譯器的需求越來越強烈。編譯器已經從一個相對小眾的研究領域，變為學界和業界都高度關注并大量投入的方向。與此同時，編譯器的開發人員也從芯片研發團隊開始延伸到更上層的軟件層面。在很多領域的軟件系統中，都開始引入編譯技術來實現提升開發效率或運行效率等目標。本文從領域編譯器的角色著眼，來討論領域編譯器發展的前世今生。

鏈接：

1. https://mp.weixin.qq.com/s/eiQ6dRgDxAR7zkuWCBPfqg；

2.?https://mp.weixin.qq.com/s/Z6qiwPDevG6mF29TWjOb4g

18. OneFlow源碼解析：Eager模式下的設備管理與并發執行

通過這篇筆記，希望能初步了解 OneFlow 在 Eager 模式下對設備的管理方式、設備執行計算的過程以及如何充分利用設備計算能力。這里的設備主要指類似 CUDA 這樣的并行計算加速設備。

鏈接：

https://mp.weixin.qq.com/s/RMF38IlkRcxza6A8W6fG-w

其他人都在看

大型語言模型的推理演算

向量嵌入：AutoGPT的幻覺解法？

John Schulman：通往TruthGPT之路

《分布式人工智能系統》講習班開始報名

為什么ChatGPT用強化學習而非監督學習

OneEmbedding:單卡訓練TB級推薦模型不是夢

GLM訓練加速：性能最高提升3倍，顯存節省1/3

歡迎Star、試用OneFlow:github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

關鍵詞：

揭秘RLHF；可商用開源LLM列表；領域編譯器的前世今生

本周資訊推薦

Windows11的Android模擬器沒有響應是哪里的問題？Win11安卓模擬器沒有響應修復方法

Windows11系統里面運行Android應用程序的要求有哪些？Win11運行安卓的配置要求

cmd里面使用wmic命令無效是什么情況？使用wmic查找產品密鑰時未找到怎么辦？

Windows11沙盒沒有互聯網連接修復方法 windows沙盒連接網絡失敗怎么辦？

Windows11無法識別NVMe固態硬盤是什么問題？NVMeSSD硬盤無法識別解決方法

熱點資訊

移動家庭計劃（移動家庭計劃套餐介紹） -世界球精選

今日快訊：巫醫技能搭配（暗黑破壞神3巫醫技能搭配）

神燈搜索（神燈shendeng加速器）下文為你講解_今熱點

世界資訊：揭秘姐弟倆土豆粉配方生產方法介紹

海航易生卡（海航易生卡登錄）什么是HNA易卡？|天天精選

揭秘RLHF；可商用開源LLM列表；領域編譯器的前世今生

圖片推薦

要聞

本周資訊推薦

熱點資訊