
2025 年 10 月 21 日,人工智慧測量峰會將在舊金山與 PyTorch 大會 2025 同時舉行,屆時將彙集人工智慧評估領域的專家,共同探討一個關鍵問題:我們如何有效地衡量基礎模型和代理系統中的智慧?
隨著人工智慧系統變得越來越強大並得到越來越廣泛的部署,評估方法也必須同樣迅速地發展。這個為期半天的峰會將涵蓋評估推理模型、超智慧和人工智慧基準的演變等關鍵主題。與會者將深入瞭解最先進的評估方法,探索評估人工智慧能力的挑戰,並參與由該領域專家主導的討論,這些討論將塑造人工智慧評估的未來。
參加峰會的 3 大理由
- 與人工智慧評估領域的領軍人物互動 – 直接聽取 OpenAI、斯坦福、Meta 等研究人員的分享,瞭解他們關於評估高階人工智慧系統中推理、智慧和代理行為的最新方法。
- 參與塑造基準的未來 – 從關於基準是否真正捕捉智慧的辯論到關於實用、真實世界評估的討論,您將坐在前排觀看這些對話,這些對話將指導我們社群如何衡量人工智慧的進展。
- 與推動創新的領導者建立聯絡 – 峰會提供了一個獨特的機會,可以結識在研究和應用交叉領域工作的其他人,建立超越會議並擴充套件到更廣泛人工智慧生態系統的網路。
專案亮點
主旨演講
- 構建機器智慧前沿 – Joe Spisak,Meta
- 討論推理、規劃和推理時間擴充套件領域的最新技術,以及我們如何在這個新體系中衡量智慧的新方法 – Noam Brown,OpenAI 與 Joe Spisak,Meta 對談
專題會議
- Weaver:用弱驗證器縮小生成-驗證差距 – Jon Saad-Falcon,斯坦福大學
- 語言模型的整體評估 (HELM) – Yifan Mai,斯坦福大學
- 從預訓練到強化學習的代理智慧擴充套件 – Aakanksha Chowdery,Reflection AI & 斯坦福大學
- LMArena:人工智慧的可靠性標準 – Anastasios Angelopolous,LMArena
專題討論
我們正在衡量智慧還是僅僅是基準?
- Sara Hooker
- Vivienne Zhang,NVIDIA
- Baber Abbasi,Eleuther AI
- Nathan Habib,HuggingFace
- Carlos Jimenez,普林斯頓大學 / SWE Bench
超越排行榜:野外實用智慧
- Shishir Patil,Meta
- Haifeng Xu,ProphetArena / 芝加哥大學
- Tatiana Shavrina,Meta
- Lisa Dunlap,UCB / LMSys
- Rebecca Qian,Patronus AI
透過將人工智慧測量峰會新增到您的PyTorch 大會註冊來註冊。