GPT: Generative Pre-trained Transformer
AI Model & API Providers Analysis | Artificial Analysis
https://x.com/karpathy/status/1929597620969951434
優先考慮新對話窗口;LLM council;Thinking models 用來解決複雜問題;Internet search 用來獲取即時訊息;Deep research = Thinking + Internet search;與 LLM 一起研究論文、讀書;Tool use;主導者得有相匹配到知識檢驗、決策 LLM 輸出的結果;artifacts 不限純文本的內容表達輸出;Modalities;Memory bank;Custom instructions;Custom GPTs(下一步階段,就是 Interprator,或者中文部分所謂「智能體」)
推薦語:如果你像我一樣之前中斷過 AI 的學習、或者尚未系統了解過 2022 年之後的 AI,那麼非常推薦 Andrej Karpathy 的此影片《How I use LLMs》,簡單易懂解釋了目前 AI 產品生態、LLMs 工作流程、核心術語定義,並透過實例學習如何使用以及最佳使用 LLMs,更重要的是為自己構建基礎知識,讓我們不再被眼花撩亂的新產品、新詞語左右。同時也推薦其网誌文章《‣》看他如何發現現實痛點需求、如何迅速 Vibe coding 氛圍編程開發上線一箇 AI native 垂直 SaaS app。(當然,其商業價值待考)
Deep Dive into LLMs like ChatGPT
數據;二元化數據;找對稱壓縮數據 tokenization;Post-training(Human conversation labeler);Hallucinations、Tool use、Knowledge/working memory;Models need tokens to think;Use search、Use code;Model can’t count;Reinforcement learning(自我思考自我推理自我試錯);Models are stochastic systems;discriminator vs generator;訓練好的模型是無狀態的輸入輸出函數,無法自我演化
But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning