与人工智能对话的两条哲学路线

2024-09-21 次浏览

起源：36氪

编者按：比来苹果和OpenAI均推出了与AI进行语音对话的功效。本文是对两家公司产物使用的第一印象，作者以为，这两家公司的做法体现出两种 AI 哲学的不同——属于助理（Copilots）与智能体（Agents）之争、小模子与年夜模子之争、专家与通才之争。文章来自编译。

前两天，我在手机上跟两小我工智能（AI）睁开对话。固然两者都很愿意与我攀谈（并且也进行了攀谈），但各自却体现出对人工智能将来判然不同的见地，有着纷歧样的理想和潜在影响。我想明白一点，两者都是早期模子，还远未成型，但我以为分享我迄今为止的履历可能会有所赞助。

（图片来源网络，侵删）

我们要说的是 ChatGPT 新推出的高档语音模式以及得到了AI新引擎的 Siri。二者不仅仅是与 AI 对话的分歧办法。从许多方面看，它们还代表了两种 AI 哲学的不同——助理（Copilots）与智能体（Agents）之争、小模子与年夜模子之争、专家与通才之争。

作为助理的Siri

至少今朝，跟 Siri AI 对话的感觉仍旧像跟旧版 Siri 的对话一样。你不会被惊讶到理屈词穷，仍旧会由于 Siri 的不靠谱而觉得沮丧。

短缺“惊艳”是有缘故原由的，苹果打造 Siri AI 的要务是掩护隐私、平安和保障。有跨越 10 亿人使用他们的体系，苹果不愿望人们面对年夜语言模子（LLM）的各类风险与怪异之处，他们想要的是能用且极其私密的器械。

如许做必要衡量弃取，于是苹果把小型 AI 直接植入得手机上，不依附于互联网衔接。由于 AI 模子有多种范围，以是要实现这一点照样有可能的。比喻说，Meta 的 Llama 3.1 模子参数到达了 4050 亿（相称于 GPT-4），还有个中等范围（700 亿参数）的模子（年夜概相称于ChatGPT-3.5），还有一个小型（80 亿参数）模子。参数目体现了AI 模子的繁杂性——数字越年夜通常表现体系功效越壮大，但资本密集水平越高。我的电脑就可以跑最小的模子，但跑 4050亿参数模子必要专门的硬件。小模子远没有那么壮大，但可以在其他方面补充这方面缺陷。

小模子价钱低廉、速率快，可以在机能较弱的硬件（如手机）上运行，而且可以专门用于执行特定义务。与 ChatGPT 等通用模子分歧，小模子会创立专注于某一特定义务的人工智能，并且通常可以做得相称好。Siri AI 背后便是一个小模子，参数只有30 亿，但它采纳了一种巧妙的办法，容许其装备上的人工智能切换“专家”，比喻说有总结文本的，有编纂图像的。因为所有事情都是在手机上完成的，以是是加密的而且异常私密。

不外，鉴于这是个小模子，以是没那么智能。事实上，给人感觉就像在使用旧版的 Siri，只是略有改良。假如我问它“我今晚想去用饭和看片子，确保我能在 6 点之前达到，10 点之前抵家。我想吃点辛辣的拉丁美食，看一部动作片”，AI会显得很弱智。不外，这对 LLM 来说并不是一个难题。一个稍年夜一点的模子 Llama 8B 就能做得更好（只管确切会犯一些细节差错，由于没有收集拜访权限）。

不外，这只是 Apple AI 的开端，由于将来的进级会让手机上的 Siri 在无法办理问题时能向云端更壮大的 Apple AI 追求赞助，乃至将真正艰苦的问题交给 ChatGPT。它将可以或许与利用交互，触发操作并从多个起源获守信息。这项技术确定会获得改良。

然则，苹果的做法不仅仅是技术上的，照样一个哲学上的决议。人工智能有风险，弗成猜测，会发生幻觉，有可能被滥用，并不老是私密的。以是，苹果决议低落滥用或失误的危险。他们把 Siri 酿成了助理。你会看到这些助理呈现在很多产物之中——是功效异常狭小的人工智能体系，旨在赞助完成特定义务。如斯一来，他们暗藏了年夜语言模子更奇异、更危险、更壮大的一壁。助理可能会有所赞助，但不太可能带来临盆力的飞跃，也不会转变我们的事情方式，由于受到限定。刁悍与平安如鱼与熊掌。

作为智能体的ChatGPT Voice

假如说 Siri 是为了让人工智能变得不那么怪异、更可猜测，那 ChatGPT Voice 则恰恰相反。它未必用小型的定制模子，而是提供对通用 GPT-4o 全体功效的拜访。固然几个月前 ChatGPT 就推出过语音模式，但这种模式异常分歧。它进行的是天然对话，会有停留，也会连珠箭。

比喻说，我这里用了 ChatGPT 来赞助我撰写这篇文章的开首段落。不仅要注意其顿挫抑扬，还要注意玄妙的音调变化（对我和我的事情表示出的热心、听起来很天然的音调等）。

用语音方式与 ChatGPT 互动其实怪异，由于它的节拍、语调乃至装出来的呼吸都让人感觉很像人类。它可以或许模拟各类情绪，由于这不仅仅是触发灌音播放罢了，在输出和输入方面显然完满是多模态，它接管和天生声音的方式与老一代 LLM 接管和天生文本的方式一样。今朝，彷佛这些功效许多都被锁定在护栏背后——正如你在下面的剪辑结尾地方看到那样，今朝不容许人工智能天生音效，也不容许年夜幅转变其声音，这可能是为了避免被滥用——但这些才能它都具备。

经由过程语音使用 ChatGPT 就像与人攀谈一样。只管底层模子与通常的 GPT-4o 没什么分歧，但加上语音有许多影响。比喻说，语音指点的事情方式与经由过程打字交流的指点异常分歧。它还可以说很多其他语言，为跨文化交流提供了新手腕。我一点都狐疑年夜家对 ChatGPT 助手会发生情绪反响，效果难以猜测。

但就像苹果没有使能体系的全体功效一样，OpenAI 也留了几手。他们的人工智能是完全多模态的，这意味着具备图像和视频辨认才能，而且相对与比以前的模子大概能天生更好的图像。假如他们的愿景实现，我们很快就会有助手可以旁观、凝听天下，并与这个天下互动。一旦实现这一目的，下一步将是智能体，也便是你的人工智能不仅应该可以或许与你攀谈，还应该替你指定方案，采取行为。与助理分歧的是，智能系统统及其前身（如 GPT-4 语音）以壮大但可能会有风险的方式去拥抱凌乱。固然设置了护栏，但 OpenAI 的语音模式受到的限定要比 Apple AI少得多，是以会以意想不到的方式与天下互动。

钝刀照样芒刃。

对语音的分歧处置方式向我们展现了人工智能的将来，这个将来涉及到在低风险、功效较弱的体系与让用户拥有更多节制和选择的体系之间找到均衡。我以为许多公司都愿望鱼与熊掌兼得，但我不肯定有没有可能性。他们必要决议给用户提供一把钝刀照样芒刃，前者固然不太有用但也不怎么危险，后者可用于现实事情但存在受感冒险。钝刀不会造成危害，但利益也少得多。我以为我们必要细心斟酌何时何地选择低风险的计划（如助理），以及我们乐意在何处容忍滥用风险以换取潜在的伟大好处（如智能体）。

这统统都还处于早期阶段，并且是基于我的第一印象，但我以为像 GPT-4o 如许的语音功效会转变年夜多半人与人工智能体系的交互方式。语音及视觉交互比文本交互更天然，对更普遍的受众更有吸引力。将来确定有与人工智能对话的一席之地。

译者：boxi。

模子人工智能年夜

喝奶茶发的朋友圈搞笑文案，餐饮最吸引人的幽默句子东航失事飞机主撞击点深20米，不涉拨叉维修，图解关键信息