半岛体育英伟达 Jim Fan:复刻NLP的得胜途用通用模子开启具身智能的GPT-3光阴

2024-10-16 05:25:28
浏览次数:
返回列表

  Sonya Huang:我传说你是 OpenAI 的首位熟练生。能否分享一下你的始末,告诉咱们你是何如走到现正在的?

  Jim Fan:当然可能。2016 年炎天,有好友告诉我城里有个新的创业公司,倡议我去看看。当时我刚被登科为博士生,阿谁炎天对比空闲,于是我决断去那家公司一探底细。结果那家公司即是 OpenAI。正在我参加 OpenAI 时,咱们曾经正在筹议通用人为智能(AGI)了。

  当时,我的导师是 Andrej Karpathy 和 Ilya Sutskever。咱们沿途协作了一个项目,叫做 World of Bits。这个项目标念法至极浅易:咱们念构修一个 AI 智能体,让它可能读取算计机屏幕上的像素,然后操纵键盘和鼠标。你可能设念,这种界面至极通用——无论是回答邮件半岛体育、玩游戏仍旧浏览网页,都可能通过这种像素到键盘鼠标的照射来告竣。

  这是我正在 OpenAI 的第一次 AGI 试验,也是我正在 AI 智能体研讨的起始。

  Stephanie Zhan:当时你们正在运用智能体时遭遇了哪些离间?你感到有哪些打破?

  固然加强研习正在特定工作上展现不错,但它的泛化才干有限。咱们无法让智能体按照任性叙话指令实践百般工作,例如运用键盘和鼠标。

  因而,固然智能体正在咱们计划的工作中可能寻常劳动,但它不行真正泛化到其他工作上。

  我去了斯坦福大学瑜伽球,正在李飞飞传授的领导下攻读博士学位,起先用心于算计机视觉和具身智能。从 2016 年到 2021 年,正在斯坦福的光阴,我见证了算计机视觉实践室的研讨从静态视觉(如图像和视频识别)转向具身视觉,也即是让智能体正在交互处境中研习感知并选取手脚。这种处境可能是虚拟的(正在模仿中),也可能是实际全国中的物理处境。

  博士卒业后,我参加了英伟达,接续从事具身智能的研讨。我把博士光阴的研讨带到了英伟达,并不绝正在这个范围劳动至今。

  Sonya Huang:你诱导了英伟达的 具身智能 铺排。能否浅易先容一下这个项目标事理,以及你们指望杀青的主意?

  Jim Fan:我目前协同诱导的团队叫做 GEAR,全称是 通东西身智能体研讨 。咱们的中心劳动可能用一个词总结—— 天表行脚 。

  咱们勉力于构修具身智能体,这些智能体可能正在分歧处境中实践行动。整体来说,假设这些行动爆发正在虚拟全国中,咱们的劳动就涉及游戏 AI 和模仿;而假设爆发正在实际全国中,那即是呆板人本事。

  本年三月的 GTC 大会上,Jensen 宣布了名为 Project GR00T 的项目,这是英伟达正在打造人形呆板人底子模子方面的 登月铺排 ,也是 GEAR 团队方今的要点。

  咱们的主意是为人形呆板人,以至更多范围的智能呆板人,构修强健的 AI 大脑。

  最初,英伟达的一大上风是算计资源。全豹这些底子模子的扩展都须要壮大的算计才干,而咱们笃信 Scaling Law 的要紧性。固然咱们曾经对相像 L 模子的 Scaling Law 实行了研讨,但具身智能和呆板人范围的 Scaling Law 还是须要深切研商,咱们正正在主动实行这方面的劳动。

  英伟达的第二个强项是模仿。行为一家一经用心于图形的公司,英伟达正在物理模仿、烘托以及 GPU 及时加快方面堆集了丰盛的专业常识。这些本事正在构修呆板人时施展了要紧效力,咱们正在这方面的堆集极大地饱励了咱们的研讨半岛体育。

  Stephanie Zhan:对我来说,英伟达设立 GR00T 的一个趣味之处正在于,你之条件到的,英伟达具有芯片和模子自己。你以为英伟达可能怎么正在自有芯片上优化 GR00T?

  Jim Fan:正在三月的 GTC 大会上,Jensen 还宣布了下一代周围算计芯片,名为 Jesson Sword,这一宣布与项目 GR00T 的宣布同步实行。

  咱们的铺排是将这些芯片(席卷 J 和 Thor 系列)与底子模子项目 GR00T、以及咱们正在经过中开垦的模仿和适用器材连合起来,造成一个联合的办理计划,打造一个一体化的算计平台,专为人形呆板人和智能呆板人计划。

  我稀奇嗜好 Jensen 的一句话,他曾说: 全豹能转移的东西最终都市变得自帮。 我也至极认同这一主张。

  固然现正在还没有完整告竣,但咱们笃信,来日十年或更长时分后,智能呆板人将会像 iPhone 雷同普及。因而,咱们现正在就须要起先为这个来日做好计算。

  Stephanie Zhan:为什么你以为很多行业还是至极着重确凿全国的数据呢?

  Jim Fan:现实上,咱们确实须要各品种型的数据,由于单靠模仿数据或确凿全国数据都远远不足。因而,正在 GEAR 团队中,咱们将数据战略分为三大类:

  我笃信,得胜的呆板人策略须要有用整合这三类数据,以供给全数且联合的办理计划。这种归纳的数据战略可能更好地扶帮呆板人正在百般处境中的展现和适当性。

  Sonya Huang:咱们之前筹议过正在构修呆板人底子模子时数据的瓶颈题目。你何如对待这个题目?整体来说,办理这个题目须要什么样的高质料数据?

  最初,互联网数据品种繁多,包括丰盛的常识音讯,可能帮帮咱们领会人类怎么与物体互动,但不包括呆板人的行动操纵信号,因而不行直接得到呆板人的行动数据。

  其次,模仿数据可能供给具体的行动数据并考查其效率,数据险些是无尽的且搜罗效劳高。但模仿和实际之间仍存正在差异,例如物理效率和视觉效率不完整相同,场景也不如实际全国多样。

  终末,确凿的呆板人数据来自确凿全国,没有模仿与实际的差异,但搜罗本钱高,须要人为操作于是搜罗速率受限。

  Sonya Huang:假设你能瞻望一下来日五年或十年,你指望你们的团队可能告竣哪些梦念和结果?

  Jim Fan:固然这只是我的预测,但我指望正在接下来的两到三年内,咱们可能看到呆板人底子模子的打破。这将相像于呆板人范围的 GPT-3 工夫。

  然而,呆板人进入人们闲居生计不光仅是本事题目,还涉及经济性、大领域坐蓐才干、硬件安宁性、隐私和法例等多个方面。

  这些身分可以会延缓呆板人的普及,因而时分表会对比难以预测。但我确实指望正在来日两到三年内看到研讨得到骨子性进步。

  Jim Fan:我将呆板人视为两个个别:体例一和体例二。这一观念泉源于《斟酌,速与慢》。

  体例一涉及低方针的、无认识的行动操纵,例如握杯子时的手指运动。而体例二则是蓄谋已久的推理和策划。

  GPT-3 工夫指的是呆板人正在体例一方面的打破。例如, 掀开 这个词正在不怜悯境下有分歧寄义,人类天然剖判这些寄义,但目前的呆板人模子还未能正在这些低方针行动操纵进步行有用泛化。

  Sonya Huang:那么,闭于体例二的斟酌呢?你以为咱们怎么智力告竣这一点?大型叙话模子(LLM)范围的极少推理奋发是否会对呆板人范围有所发动?

  目前的模子正在体例二的推理和策划方面已有进步。但将体例二与体例一连合是个离间。咱们须要决断是用一个联合的模子,仍旧分隔运用体例一和体例二半岛体育,并让它们彼此疏通。

  团体模子的保护很浅易,但整体的操纵对比纷乱,分层要领可以更有用。怎么正在这两种体例间实行有用疏通仍不精确,这将是来日的研讨要点。

  Sonya Huang:你以为咱们能正在体例一思想方面得到打破吗?是通过领域和 Transformer 的提拔,仍旧更多依赖于运气?

  Jim Fan:我指望咱们的数据战略能帮帮告竣打破。Transformer 的潜力尚未完整施展。

  咱们须要整合互联网数据、模仿数据和确凿呆板人数据,一朝正在数据管道中放大领域,并将高质料的行动数据符号化后转达给 Transformer,可以会看到新特点。

  Jim Fan:有几个现实的由来。最初,类人呆板人锻练起来相对容易,由于网上有豪爽以人类为中央的数据和视频,这些数据记载了咱们闲居的运动。因为类人呆板人的样子亲热人类,它们可能更好地欺骗这些数据,特别是五指操作的场景。支配了类人呆板人本过后,咱们可能将这些本事迁徙到其他类型的呆板人,从而告竣更通俗的通用性。

  Stephanie Zhan:于是你们现正在只用心于锻练类人呆板人,而不是呆板人手臂或呆板人狗?

  Jim Fan:是的,目前咱们的要点确实是类人呆板人。只是,咱们开垦的管道,席卷模仿和确凿呆板人器材,具备了足够的通用性,来日可能适当其他呆板人平台。

  咱们的主意是构修一个通俗实用的器材,以便正在来日可能操纵于多种呆板人样子。

  Sonya Huang:你提到了良多次 通用 这个词,你为什么拔取了通用的要领?其余,你以为 Richard Sutton 的 更惨的教训 是否正在呆板人范围也实用?

  Jim Fan:我以为通用模子确实是值得寻觅的。我先讲讲天然叙话处分(NLP)的得胜故事。

  正在 ChatGPT 和 GPT-3 展示之前,NLP 范围有良多专用的模子和流程,用于翻译、编码、数学运算和创意写作等。这些模子和流程都是为特定工作量身定做的专用模子。

  但 ChatGPT 的展示将这些性能联合到一个通用模子中。GPT-3 和 ChatGPT 行为通用模子,可能被提示、微协和提炼,以适当百般专用工作。

  通用模子一般比专用模子更强健,更易于保护,由于它们只须要一个 API 来处分输入和输出。

  目前大大批呆板人操纵仍处于专用阶段,运用特定的硬件、数据和流程。GR00T 的主意是作战一个通用底子模子,最初正在类人呆板人上操纵,之后可能扩展到其他呆板人样子。

  一朝咱们有了如许的通用模子,咱们就可能对其实行微协和提炼,以应对特定的呆板人为作。

  虽然短期内用心于特定工作会更容易,但英伟达让咱们笃信半岛体育,来日属于通用模子。固然开垦周期较长且面对更多纷乱的研讨题目,但这是咱们寻觅的苛重主意。

  Sonya Huang:你们的研讨中有没有稀奇值得夸大的劳绩?有没有什么让你对你们的要领感触笑观或充满决心的地方?

  Jim Fan:确实有一个值得稀奇提到的劳绩,那即是咱们的 Urea 项目。咱们闪现了一个五指呆板人手可能得胜转笔的工作。

  这个工作对我来说特别拥有片面事理,由于我幼时间试验转笔老是做得欠好。假设我本身去做现场演示,我可以会搞砸半岛体育英伟达 Jim Fan:复刻NLP的得胜途用通用模子开启具身智能的GPT-3光阴,但咱们的呆板人手却能轻松达成。

  这项研讨的闭头正在于,咱们运用了 L 模子来编写代码,这些代码用于英伟达开垦的 IS6 Sim API 模仿器。

  L 模子天生的代码界说了赏赐函数,这个函数用于楷模咱们愿望的理念手脚。呆板人依照赏赐函数的领导实行操作,精确实践工作会得到赏赐,差池则会受到处分。

  一般,赏赐函数的计划是由专家实行的,这须要豪爽的专业常识和手动操作。而 Urea 项目通过主动化计划赏赐函数,使呆板人可能达成纷乱的工作,如转笔。

  这个通用本事不光限于转笔,咱们铺排将其操纵于更多工作,并正在英伟达的模仿 API 中天生新的工作。这为咱们供给了壮大的兴盛空间。

  Sonya Huang:你以为这回呆板人范围的兴盛由来是什么?五年前,研讨职员试验用呆板人手办理魔方等题目时,曾有过一段破灭期。现正在这个范围又从头活动起来,你以为有什么分歧?

  最初是硬件的前进。近年来,新型呆板人硬件的展示速率至极速。比如,特斯拉正正在研发 Optimus,波士顿动力等公司也延续推出新本事,另有良多首创公司进入这一范围。这些新硬件更进步,比如更乖巧的死板手和更高的牢靠性,这是一个要紧身分。

  其次是代价的低浸,类人呆板人的代价明显消浸。2001 年,NASA 开垦的人形呆板人 Robonaut 代价进步 150 万美元。而比来极少公司能将人形呆板人的代价降到约 3 万美元,这相当于一辆汽车的代价。

  另表,成熟产物的代价往往亲热原资料本钱。人形呆板人一般只需汽车原资料的 4%,于是来日几年咱们可以会看到代价接续低浸,以至展示指数级的降幅,使这些进步硬件变得愈加实惠。

  第三个身分是底子模子的进步。咱们现正在看到的前沿模子如 GPT、Claude 和 Llamas 等正在推理和策划方面得到了明显进步。这些叙话模子不光可能扩展到新场景,还能编写代码。咱们正在 Urea 项目中即是欺骗这些叙话模子的编码才干来开垦新的呆板人办理计划。

  另表,跨模态模子的兴盛也改正了算计机视觉和感知才干。这些得胜案例激发咱们接续寻觅呆板人底子模子,欺骗前沿模子的泛化才干,再连合行动天生本事,饱励类人呆板人的兴盛。

  Sonya Huang:你最初的研讨苛重聚集正在虚拟全国。能叙叙你为什么对 Minecraft 感有趣,以及它与呆板人本事的干系吗?虚拟全国对你来说有什么稀奇的吸引力?

  Jim Fan:我的主意是办理具身智能的题目,席卷游戏和仿真,这也是我对虚拟全国稀奇感有趣的由来。我嗜好玩游戏,于是对 Minecraft 稀奇感有趣。我不是稀奇擅长 Minecraft,这也是我指望 AI 能填补我的本事亏损的由来。

  我做过两个联系的游戏项目。第一个是 Mine Dojo,咱们开垦了一个平台来正在 Minecraft 中锻练通用智能体。Minecraft 是一个怒放的 3D 全国,你可能自正在搜索和创作。咱们从互联网上收罗了豪爽数据,如游戏视频和联系筹议,用这些数据锻练模子玩 Minecraft。

  第二个项目是 Voyager。正在 GPT-4 展示后,咱们试验将编程视为一种手脚,开垦了 Voyager Agent。它通过编写代码与 Minecraft 互动。

  咱们用 API 将 Minecraft 的全国转换为文本,然后让 Agent 编写代码。Agent 正在遭遇差池时会获得反应并修改次第,逐渐堆集才力。全豹的才力被保管到一个库中,来日可能反复运用。

  另表,Voyager 另有 主动课程 (Automatic Curriculum)机造,可能自我决断支配了什么,提出相宜的工作,帮帮它延续前进。

  Sonya Huang:为什么虚拟全国的研讨如斯丰盛?虚拟全国中的题目办理与物理全国的题目办理有什么干系?

  Jim Fan:虽然游戏和呆板人看起来分歧,但它们本来有良多彷佛之处。两者都涉及到具身智能体,输入席卷视频流和传感器数据,输出是手脚。

  正在游戏中,这些手脚是键盘和鼠标操作;正在呆板人中,则是电机操纵。无论是虚拟仍旧物理智能体,都须要正在处境中搜索并收罗数据,这即是加强研习和自我搜索的基础法则。

  只是,呆板人面对的一个离间是怎么办理模仿与实际之间的差异。模仿中的物理和烘托不完善,将模仿中的研习迁徙到实际全国很贫乏。

  昨年,我提出了一个观念,称为 底子智能体 。我笃信来日会有一个模子可能同时实用于虚拟和物理智能体。

  我指望来日能有一个简单模子,可能正在分歧的呆板人样子和智能体样子上达成百般才力,并正在多种虚拟或实际全国中泛化。这是咱们团队寻觅的最终愿景。

  Stephanie Zhan:你闭于游戏全国中的智能体有哪些片面梦念?你指望看到 AI 智能体正在游戏全国中有哪些革新?

  Jim Fan:我稀奇盼望两个方面。最初是 活 NPC 的展示。假设 NPC 可能与玩家互动、记住对话并影响游戏情节,如许每片面的游戏体验都市分歧,填补了游戏的重玩价格。

  其次是游戏全国的及时天生。将天生 3D 模子、视频和故事宜节的本事连合起来,让游戏全国正在玩家互动中及时天生,这将创作一个真正怒放的体验,至极令人兴奋。

  Stephanie Zhan:闭于智能体的才干需求,你以为须要 GPT-4 级另表才干,仍旧像 Llama 8B 如许的模子就足够了?

  Jim Fan:智能体须要具备以下才干:趣味的对话、安稳的特性、长远回忆,并能活着界中手脚。固然 Llama 模子曾经做得不错,但仍亏损以发作至极多样化和吸引人的手脚。

  其余,推理本钱也是一个题目。假设智能体要供给给玩家运用,那么它们要么须要正在云端低本钱托管,要么须要正在设置上当地运转,不然正在本钱方面将难以扩展。

  Sonya Huang:你以为虚拟全国的劳动是否苛重是为了告竣实际全国中的主意?仍旧虚拟全国的劳动自己即是值得寻觅的?物理全国和虚拟全国的优先级怎么?

  比如,范围随机化本事通过正在成千上万种分歧的模仿处境中锻练呆板人来告竣这一点。

  每种模仿处境都有分歧的物理参数,例如重力和摩擦力。假设咱们有一个智能体可能支配这些多样化的模仿处境,它将能更好地泛化到实际全国。

  咱们指望通过这种要领将模仿中的研习直接移动到实际全国。这证据虚拟全国的锻练和实际全国的操纵是彼此干系的,虚拟全国的才力可能帮帮咱们正在实际中得到结果。

  Sonya Huang:正在虚拟全国范围,那些优良的模子多人基于 Transformer 架构。你以为咱们是否曾经计算好大领域操纵 Transformer,仍旧说正在模子方面还是须要极少底子性的打破?

  Jim Fan:我以为,咱们还没有将 Transformer 架构的潜力施展到极致。

  虽然 Transformer 正在良多方面展现优秀半岛体育,但目前的数据题目还是是一个瓶颈。咱们无法从互联网直接下载这些行动数据,由于它们一般不附带模子操纵数据。

  因而,咱们必需正在模仿处境或确凿呆板人上收罗这些数据。一朝咱们作战了成熟的数据管道,咱们可能直接用 Transformer 处分数据,就像 Transformer 预测上的下一个词雷同。

  固然咱们正正在测试这些假设,但 Transformer 的潜力尚未被完整开采。

  另表,另有良多闭于 Transformer 替换架构的研讨。例如 Mamba 以及比来的时分锻练等替换计划,这些都是很有远景的念法。

  固然这些替换计划正在目前的前沿模子本能上还未明显超越 Transformer,但我对它们充满盼望,并指望看到它们正在来日的兴盛。

  Jim Fan:我稀奇闭心 Mamba 和测试时分锻练。这些模子正在推理经过中闪现了更高的效劳。

  与 Transformer 处分全豹的令牌分歧,这些模子具备更高效的机造。我以为它们潜力很大。

  然而,咱们还须要将它们扩展到前沿模子的领域,真正对比它们与 Transformer 的效率半岛体育。这将帮帮咱们更好地剖判它们正在现实操纵中的展现。雷峰网

搜索