跳轉到主要內容
公告部落格

PyTorch 大會智慧測量峰會

作者: 2025 年 10 月 1 日暫無評論

Measuring Intelligence Summit

2025 年 10 月 21 日,人工智慧測量峰會將在舊金山與 PyTorch 大會 2025 同時舉行,屆時將彙集人工智慧評估領域的專家,共同探討一個關鍵問題:我們如何有效地衡量基礎模型和代理系統中的智慧? 

隨著人工智慧系統變得越來越強大並得到越來越廣泛的部署,評估方法也必須同樣迅速地發展。這個為期半天的峰會將涵蓋評估推理模型、超智慧和人工智慧基準的演變等關鍵主題。與會者將深入瞭解最先進的評估方法,探索評估人工智慧能力的挑戰,並參與由該領域專家主導的討論,這些討論將塑造人工智慧評估的未來。

參加峰會的 3 大理由

  1. 與人工智慧評估領域的領軍人物互動 – 直接聽取 OpenAI、斯坦福、Meta 等研究人員的分享,瞭解他們關於評估高階人工智慧系統中推理、智慧和代理行為的最新方法。
  2. 參與塑造基準的未來 – 從關於基準是否真正捕捉智慧的辯論到關於實用、真實世界評估的討論,您將坐在前排觀看這些對話,這些對話將指導我們社群如何衡量人工智慧的進展。
  3. 與推動創新的領導者建立聯絡 – 峰會提供了一個獨特的機會,可以結識在研究和應用交叉領域工作的其他人,建立超越會議並擴充套件到更廣泛人工智慧生態系統的網路。

專案亮點

主旨演講

  • 構建機器智慧前沿 – Joe Spisak,Meta
  • 討論推理、規劃和推理時間擴充套件領域的最新技術,以及我們如何在這個新體系中衡量智慧的新方法 – Noam Brown,OpenAI 與 Joe Spisak,Meta 對談

專題會議

  • Weaver:用弱驗證器縮小生成-驗證差距 – Jon Saad-Falcon,斯坦福大學
  • 語言模型的整體評估 (HELM) – Yifan Mai,斯坦福大學
  • 從預訓練到強化學習的代理智慧擴充套件 – Aakanksha Chowdery,Reflection AI & 斯坦福大學
  • LMArena:人工智慧的可靠性標準 – Anastasios Angelopolous,LMArena

專題討論

我們正在衡量智慧還是僅僅是基準?

  • Sara Hooker
  • Vivienne Zhang,NVIDIA
  • Baber Abbasi,Eleuther AI
  • Nathan Habib,HuggingFace
  • Carlos Jimenez,普林斯頓大學 / SWE Bench

超越排行榜:野外實用智慧

  • Shishir Patil,Meta
  • Haifeng Xu,ProphetArena / 芝加哥大學
  • Tatiana Shavrina,Meta
  • Lisa Dunlap,UCB / LMSys
  • Rebecca Qian,Patronus AI

透過將人工智慧測量峰會新增到您的PyTorch 大會註冊來註冊。