公告部落格

PyTorch 大會智慧測量峰會

作者： PyTorch 基金會2025 年 10 月 1 日暫無評論

Measuring Intelligence Summit

2025 年 10 月 21 日，人工智慧測量峰會將在舊金山與 PyTorch 大會 2025 同時舉行，屆時將彙集人工智慧評估領域的專家，共同探討一個關鍵問題：我們如何有效地衡量基礎模型和代理系統中的智慧？

隨著人工智慧系統變得越來越強大並得到越來越廣泛的部署，評估方法也必須同樣迅速地發展。這個為期半天的峰會將涵蓋評估推理模型、超智慧和人工智慧基準的演變等關鍵主題。與會者將深入瞭解最先進的評估方法，探索評估人工智慧能力的挑戰，並參與由該領域專家主導的討論，這些討論將塑造人工智慧評估的未來。

參加峰會的 3 大理由

與人工智慧評估領域的領軍人物互動 – 直接聽取 OpenAI、斯坦福、Meta 等研究人員的分享，瞭解他們關於評估高階人工智慧系統中推理、智慧和代理行為的最新方法。
參與塑造基準的未來 – 從關於基準是否真正捕捉智慧的辯論到關於實用、真實世界評估的討論，您將坐在前排觀看這些對話，這些對話將指導我們社群如何衡量人工智慧的進展。
與推動創新的領導者建立聯絡 – 峰會提供了一個獨特的機會，可以結識在研究和應用交叉領域工作的其他人，建立超越會議並擴充套件到更廣泛人工智慧生態系統的網路。

專案亮點

主旨演講

構建機器智慧前沿 – Joe Spisak，Meta
討論推理、規劃和推理時間擴充套件領域的最新技術，以及我們如何在這個新體系中衡量智慧的新方法 – Noam Brown，OpenAI 與 Joe Spisak，Meta 對談

專題會議

Weaver：用弱驗證器縮小生成-驗證差距 – Jon Saad-Falcon，斯坦福大學
語言模型的整體評估 (HELM) – Yifan Mai，斯坦福大學
從預訓練到強化學習的代理智慧擴充套件 – Aakanksha Chowdery，Reflection AI & 斯坦福大學
LMArena：人工智慧的可靠性標準 – Anastasios Angelopolous，LMArena

專題討論

我們正在衡量智慧還是僅僅是基準？

Sara Hooker
Vivienne Zhang，NVIDIA
Baber Abbasi，Eleuther AI
Nathan Habib，HuggingFace
Carlos Jimenez，普林斯頓大學 / SWE Bench

超越排行榜：野外實用智慧

Shishir Patil，Meta
Haifeng Xu，ProphetArena / 芝加哥大學
Tatiana Shavrina，Meta
Lisa Dunlap，UCB / LMSys
Rebecca Qian，Patronus AI

透過將人工智慧測量峰會新增到您的PyTorch 大會註冊來註冊。