与人工智能对话的两条哲学路线
起源:36氪
编者按:比来苹果和OpenAI均推出了与AI进行语音对话的功效。本文是对两家公司产物使用的第一印象,作者以为,这两家公司的做法体现出两种 AI 哲学的不同——属于助理(Copilots)与智能体(Agents)之争、小模子与年夜模子之争、专家与通才之争。文章来自编译。
前两天,我在手机上跟两小我工智能(AI)睁开对话。固然两者都很愿意与我攀谈(并且也进行了攀谈),但各自却体现出对人工智能将来判然不同的见地,有着纷歧样的理想和潜在影响。我想明白一点,两者都是早期模子,还远未成型,但我以为分享我迄今为止的履历可能会有所赞助。

我们要说的是 ChatGPT 新推出的高档语音模式以及得到了AI新引擎的 Siri。二者不仅仅是与 AI 对话的分歧办法。从许多方面看,它们还代表了两种 AI 哲学的不同——助理(Copilots)与智能体(Agents)之争、小模子与年夜模子之争、专家与通才之争。
作为助理的Siri
至少今朝,跟 Siri AI 对话的感觉仍旧像跟旧版 Siri 的对话一样。你不会被惊讶到理屈词穷,仍旧会由于 Siri 的不靠谱而觉得沮丧。
短缺“惊艳”是有缘故原由的,苹果打造 Siri AI 的要务是掩护隐私、平安和保障。有跨越 10 亿人使用他们的体系,苹果不愿望人们面对年夜语言模子(LLM)的各类风险与怪异之处,他们想要的是能用且极其私密的器械。
如许做必要衡量弃取,于是苹果把小型 AI 直接植入得手机上,不依附于互联网衔接。由于 AI 模子有多种范围,以是要实现这一点照样有可能的。比喻说,Meta 的 Llama 3.1 模子参数到达了 4050 亿(相称于 GPT-4),还有个中等范围(700 亿参数)的模子(年夜概相称于ChatGPT-3.5),还有一个小型(80 亿参数)模子。参数目体现了AI 模子的繁杂性——数字越年夜通常表现体系功效越壮大,但资本密集水平越高。我的电脑就可以跑最小的模子,但跑 4050亿 参数模子必要专门的硬件。小模子远没有那么壮大,但可以在其他方面补充这方面缺陷。
小模子价钱低廉、速率快,可以在机能较弱的硬件(如手机)上运行,而且可以专门用于执行特定义务。与 ChatGPT 等通用模子分歧,小模子会创立专注于某一特定义务的人工智能,并且通常可以做得相称好。Siri AI 背后便是一个小模子,参数只有30 亿,但它采纳了一种巧妙的办法,容许其装备上的人工智能切换“专家”,比喻说有总结文本的,有编纂图像的。因为所有事情都是在手机上完成的,以是是加密的而且异常私密。
不外,鉴于这是个小模子,以是没那么智能。事实上,给人感觉就像在使用旧版的 Siri,只是略有改良。假如我问它“我今晚想去用饭和看片子,确保我能在 6 点之前达到,10 点之前抵家。我想吃点辛辣的拉丁美食,看一部动作片”,AI会显得很弱智。不外,这对 LLM 来说并不是一个难题。一个稍年夜一点的模子 Llama 8B 就能做得更好(只管确切会犯一些细节差错,由于没有收集拜访权限)。
不外,这只是 Apple AI 的开端,由于将来的进级会让手机上的 Siri 在无法办理问题时能向云端更壮大的 Apple AI 追求赞助,乃至将真正艰苦的问题交给 ChatGPT。它将可以或许与利用交互,触发操作并从多个起源获守信息。这项技术确定会获得改良。
然则,苹果的做法不仅仅是技术上的,照样一个哲学上的决议。人工智能有风险,弗成猜测,会发生幻觉,有可能被滥用,并不老是私密的。以是,苹果决议低落滥用或失误的危险。他们把 Siri 酿成了助理。你会看到这些助理呈现在很多产物之中——是功效异常狭小的人工智能体系,旨在赞助完成特定义务。如斯一来,他们暗藏了年夜语言模子更奇异、更危险、更壮大的一壁。助理可能会有所赞助,但不太可能带来临盆力的飞跃,也不会转变我们的事情方式,由于受到限定。刁悍与平安如鱼与熊掌。
作为智能体的ChatGPT Voice
假如说 Siri 是为了让人工智能变得不那么怪异、更可猜测,那 ChatGPT Voice 则恰恰相反。它未必用小型的定制模子,而是提供对通用 GPT-4o 全体功效的拜访。固然几个月前 ChatGPT 就推出过语音模式,但这种模式异常分歧。它进行的是天然对话,会有停留,也会连珠箭。
比喻说,我这里用了 ChatGPT 来赞助我撰写这篇文章的开首段落。不仅要注意其顿挫抑扬,还要注意玄妙的音调变化(对我和我的事情表示出的热心、听起来很天然的音调等)。
用语音方式与 ChatGPT 互动其实怪异,由于它的节拍、语调乃至装出来的呼吸都让人感觉很像人类。它可以或许模拟各类情绪,由于这不仅仅是触发灌音播放罢了,在输出和输入方面显然完满是多模态,它接管和天生声音的方式与老一代 LLM 接管和天生文本的方式一样。今朝,彷佛这些功效许多都被锁定在护栏背后——正如你在下面的剪辑结尾地方看到那样,今朝不容许人工智能天生音效,也不容许年夜幅转变其声音,这可能是为了避免被滥用——但这些才能它都具备。
经由过程语音使用 ChatGPT 就像与人攀谈一样。只管底层模子与通常的 GPT-4o 没什么分歧,但加上语音有许多影响。比喻说,语音指点的事情方式与经由过程打字交流的指点异常分歧。它还可以说很多其他语言,为跨文化交流提供了新手腕。我一点都狐疑年夜家对 ChatGPT 助手会发生情绪反响,效果难以猜测。
但就像苹果没有使能体系的全体功效一样,OpenAI 也留了几手。他们的人工智能是完全多模态的,这意味着具备图像和视频辨认才能,而且相对与比以前的模子大概能天生更好的图像。假如他们的愿景实现,我们很快就会有助手可以旁观、凝听天下,并与这个天下互动。一旦实现这一目的,下一步将是智能体,也便是你的人工智能不仅应该可以或许与你攀谈,还应该替你指定方案,采取行为。与助理分歧的是,智能系统统及其前身(如 GPT-4 语音)以壮大但可能会有风险的方式去拥抱凌乱。固然设置了护栏,但 OpenAI 的语音模式受到的限定要比 Apple AI少得多,是以会以意想不到的方式与天下互动。
钝刀照样芒刃。
对语音的分歧处置方式向我们展现了人工智能的将来,这个将来涉及到在低风险、功效较弱的体系与让用户拥有更多节制和选择的体系之间找到均衡。我以为许多公司都愿望鱼与熊掌兼得,但我不肯定有没有可能性。他们必要决议给用户提供一把钝刀照样芒刃,前者固然不太有用但也不怎么危险,后者可用于现实事情但存在受感冒险。钝刀不会造成危害,但利益也少得多。我以为我们必要细心斟酌何时何地选择低风险的计划(如助理),以及我们乐意在何处容忍滥用风险以换取潜在的伟大好处(如智能体)。
这统统都还处于早期阶段,并且是基于我的第一印象,但我以为像 GPT-4o 如许的语音功效会转变年夜多半人与人工智能体系的交互方式。语音及视觉交互比文本交互更天然,对更普遍的受众更有吸引力。将来确定有与人工智能对话的一席之地。
译者:boxi。