1.?2022年最佳AI論文32篇:DALL·E 2、Stable Diffusion、ChatGPT等入選
大模型和文生圖、跨模態是今年毫無疑問的熱點,此外也有多篇GAN等視覺領域的文章。GitHub上還有這些論文的短視頻和文字解讀、代碼鏈接等。
從論文的主要貢獻機構來看(有些機構雖然有貢獻但排名較后有掛名嫌疑的,都被忽略不計了),似乎可以反映出各公司在AI領域的江湖地位:第一檔:Google 8篇,Meta 6篇雄踞前二名,OpenAI 3篇但有兩篇影響力巨大的(DALL·E 2和ChatGPT),如果按代表作評價,可能不會輸給兩巨頭。第二檔:NVIDIA有2.5篇。第三檔:國內騰訊、百度、微軟(出自亞研院)各1篇。國外有三星、迪士尼各1篇。Snap、Adobe都是0.5篇。
(資料圖片僅供參考)
高校總共5.5篇,不如兩巨頭一家,相比之下要遜色很多。其中:特拉維夫有1.5篇位居第一,但慕尼黑的Stable Diffusion影響巨大,應該視為第一檔;CMU、南洋理工各1篇,第二檔;南加大和伯克利各0.5篇,第三檔。
鏈接:
https://github.com/louisfb01/best_AI_papers_2022
https://hub.baai.ac.cn/view/22798
2.?吳恩達的2022年終盤點:生成式AI、ViT、大模型
在過去的一年,生成式AI迎來爆發式增長,由人工智能生成的圖片在社交平臺瘋狂傳播,引發大量爭議的同時也推動了投資;視覺 Transformer(ViT) 的工作也出現爆炸性增長,在過去一年中,研究人員共計發表超過 17,000 篇 ViT 論文;AlphaCode、Codex 等的推出便利了開發者,大受歡迎;與此同時,研究人員也在不斷拓寬語言模型的邊界,在解決可信度、偏見和實時性等問題方面做出持續不斷的努力。?
鏈接:
https://mp.weixin.qq.com/s/nagtjtYD98OlJlyddt78Aw
3.?2022出圈的ML研究:爆火的Stable Diffusion、通才智能體Gato,LeCun轉推
今日,ML & NLP 研究者、Meta AI 技術產品營銷經理、DAIR.AI 創始人 Elvis S. 對 2022 年熱度很高的 12 篇機器學習論文進行了匯總。帖子很火,還得到了圖靈獎得主 Yann LeCun 的轉推。
鏈接:
https://mp.weixin.qq.com/s/zdc2pixGvLNwCZsaWkM7JA
4.?ChatGPT進化的秘密
ChatGPT 是怎么變得這么強的?它的各種強大的能力到底從何而來?在這篇文章中,作者試圖剖析 ChatGPT 的突現能力(Emergent Ability),追溯這些能力的來源,希望能夠給出一個全面的技術路線圖,來說明 GPT-3.5 模型系列以及相關的大型語言模型是如何一步步進化成目前的強大形態。作者希望這篇文章能夠促進大型語言模型的透明度,成為開源社區共同努力復現 GPT-3.5 的路線圖。
鏈接:
https://mp.weixin.qq.com/s/dPpO18g3V4xqHUsEBKrXJQ
5.?狂攬兩千星,速度百倍提升,高性能Python編譯器Codon開源
作為高性能 Python 編譯器,Codon 可將 Python 代碼編譯為本機機器代碼,而無需任何運行時開銷。在單線程上,Python 的典型加速大約為 10-100 倍或更多。Codon 的性能通常與 C/C++ 的性能相當。與 Python 不同,Codon 支持本機多線程,這可以使速度提高很多倍。Codon 可通過插件基礎結構進行擴展,它允許用戶合并新的庫、編譯器優化甚至關鍵字。
Codon 框架是完全模塊化和可擴展的,允許無縫集成新模塊、編譯器優化、領域特定語言等,并積極為生物信息學和量化金融等多個領域開發新的 Codon 擴展。
鏈接:
https://mp.weixin.qq.com/s/p29go0yNMaWJfSxXRLGe9g
6.?xNN:支付寶端側深度學習框架
2017 年是支付寶第一次引入 AR 實景掃福,通過掃描任意“福”字幫助大家去集收集福卡。當時的福字識別模型選擇服務端服務部署的技術方案,為了在活動期間識別福字,需要調用大量的服務端部署資源來部署識別模型;另一方面,DL 在云端則意味著數據必須上傳。即使不考慮計算壓力,從網絡延時、流量、隱私保護等角度,也給用戶體驗帶來種種限制。因此,對相當多的應用來說,DL 模型前移到移動端部署可以看作是一種剛需。
鏈接:
https://mp.weixin.qq.com/s/ca4NvwJ9XSI2UCLvuONgWQ
7.?OneFlow源碼解析:自動微分機制
深度學習框架一般通過自動微分(autograd)機制計算梯度并反向傳播。本文嘗試通過一個簡單的例子,粗淺地觀察一下OneFlow的autograd的實現機制。
鏈接:
https://mp.weixin.qq.com/s/EmDuuCXHe6-kXRk0MTaDJA
8.?CUDA筆記(一):解析OneFlow Element-Wise算子實現
Elemet-Wise算子指的是針對輸入Tensor進行逐元素操作,比如ReLU就是針對輸入Tensor的每個值進行判斷是否大于0,大于0的話輸出就是輸入否則就是0。
鏈接:
https://mp.weixin.qq.com/s/_pj-fa-SJ7cFdFaB9tYSWg
9.?Meta千億參數大模型OPT-IML「升級版」來了,完整模型和代碼公布
今年五月,MetaAI官宣發布了基于1750億參數的超大模型OPT-175B,還對所有社區免費開放。12月22日,該模型的更新版本OPT-IML(Open Pre-trained Transformer)正式上線,Meta稱其「對2000個語言任務進行了微調,包含1750 億個參數」,還將為非商業研究用途免費開放。
鏈接:
https://mp.weixin.qq.com/s/LEcXYLjMxjN4MVDs8JP4xg
10.?一塊RTX 3090加速訓練YOLOv5s,時間減少11個小時,速度提升20%
憑借對YOLOv5的性能分析以及幾個簡單的優化,OneFlow團隊將單RTX 3090 FP32 YOLOv5s的訓練速度提升了近20%。對于需要迭代300個Epoch的COCO數據集來說,One-YOLOv5相比Ultralytics/YOLOv5縮短了11.35個小時的訓練時間。本文將分享所有優化技術,如果你是一名PyTorch和OneFlow的使用者,尤其日常和檢測模型打交道但資源相對受限,那么本文的優化方法將對你有所幫助。
鏈接:
https://mp.weixin.qq.com/s/LjbYGkjXgb5FkEn_cHXnpQ
11.?YOLOv5全面解析教程①:網絡結構逐行代碼解讀
本教程也同樣適用于 Ultralytics/YOLOv5,因為 One-YOLOv5 僅僅是換了一個運行時后端而已,計算邏輯和代碼相比 Ultralytics/YOLOv5 沒有做任何改變,歡迎 star 。
鏈接:
https://mp.weixin.qq.com/s/qfZIKgBdHNwPDp5ng0Y_Qw
12.?Stable Diffusion 2.0 相比 1.5 是倒退嗎?Prompt 實驗給你真相
SD 2.0 在 Reddit 上招來群嘲,人們抱怨,SD 舊版本的 prompt,在 2.0 下不僅不再管用,甚至效果明顯有倒退,生物體結構扭曲錯亂,質感奇怪。拿來跟討巧又低門檻的 Midjourney v4 一比較,簡直是場噩夢。
作者對 SD2 的第一印象也跟社區差不多,不小的挫敗和失望。過去珍藏的prompt 跑完能看的不多。但拋棄舊思路,經過幾組的 prompt 實驗后,他又信心大振,發現了 Stable Diffusion 2.0 的很多亮點和優勢。
鏈接:
https://mp.weixin.qq.com/s/oCzq8zwDnMNi-XdjJ5uZJA
13.?OneFormer:一個Transformer統治通用圖像分割
論文提出了OneFormer,這是第一個基于transformer的多任務通用圖像分割框架,該框架只需要使用單個通用架構、單個模型和單個數據集進行一次訓練,就可以在語義、實例和全景分割任務上勝過現有框架,盡管后者需要使用多次資源在每個任務上單獨訓練。
鏈接:
https://mp.weixin.qq.com/s/X1LwOipmq86C82F4m3la-Q
14.?Vision Transformer這兩年
在NLP領域取得巨大成功后,Transformer架構在計算機視覺方面的作用日漸凸顯,成為越來越普遍的CV工具。自2020年10月Vision Transformer模型推出以來,人們開始高度關注Transformer模型在計算機視覺上的應用。
恰逢Vision Transformer推出兩周年之際,借此機會我們對其稍作介紹,并討論這兩年來發展出的多種Vision Transformer模型變體以及Transformer在計算機視覺應用方面面臨的各種挑戰。
鏈接:
https://mp.weixin.qq.com/s/GW3bbdVMY3MwFm8W-xpYdw
其他人都在看
ChatGPT進化的秘密
李白:你的模型權重很不錯,可惜被我沒收了
單RTX 3090訓練YOLOv5s,時間減少11小時
OpenAI掌門Sam Altman:AI下一個發展階段
對比四大深度學習框架,我發現都關注兩大問題
比快更快,開源Stable Diffusion刷新作圖速度
OneEmbedding:單卡訓練TB級推薦模型不是夢
關鍵詞: 前世今生