苹果 AI 版 iOS 首日火爆：聊天秒变高情商，大模型成最强嘴替，Siri 华丽变身

AI新闻2年前 (2024)发布 SUYEONE

11K 0 0

它来了它来了，苹果的 Apple Intelligence 终于与果粉见面了！

随着 iOS 18.1 Beta 版的上线，注册开发者从即日起就能体验到苹果 AI 的部分功能。最明显的一处就是 Siri 的全面换新，变身成了 Apple Intelligence & Siri。

另一项重磅更新就是写作功能了，它可以帮忙润色推特评论，三下五除二就能把高级表达方式安排起来。

甚至 dirty words 也能分分钟变得儒雅随和：

开启 Apple Intelligence 后，苹果自研的端侧大模型就会被下载到设备当中。

根据手快的网友体验反馈，不像其他家的 AI 那样动不动就是拒绝服务。

与此同时，苹果自家大模型的报告也已出炉，披露了大量技术细节。报告显示，在指令遵循、文本总结等任务上，苹果云端大模型取得了超过 GPT-4 的成绩。

苹果基础大模型团队负责人庞若鸣（Ruoming Pang）也表示，其模型与一些同类最佳模型相比具有竞争力。

庞若鸣是普林斯顿计算机博士，本硕分别毕业于上海交大和南加州大学，于 2021 年加入苹果，此前在谷歌担任了 15 年的工程师。

Apple Intelligence 的主要对话功能，正是由他率领的团队研发的模型提供支持。

这次他还强调，这些基础模型“并不是聊天机器人”，而是支持广泛的功能，包括摘要、写作帮助、工具使用和代码。

另外，苹果也研发了许多自研算法，为提高模型表现提供了加持，具体信息也在报告中被披露。

还有细心的网友从中发现了华点 —— 苹果大模型的训练用的是谷歌 TPU 集群，英伟达含量竟然为零。

Siri 升级，但 ChatGPT 暂未接入

要想体验到苹果的 Apple Intelligence，需要满足的条件有不少。

首先，搭载它的 iOS 18.1 Beta 版目前是 99 美金一年的注册开发者限定，所以普通用户还得等等。

还有就是之前说过的，只支持 M 系和 A17 Pro 芯片，也就是说 iPhone 中只有部分地区的 15 Pro 和 15 Pro Max 能用。

除了硬件和身份要求，系统设置也需要修改，要将地区设置为美国，且设备和 Siri 的语言都要改成英语。

满足了所有这些要求之后，就可以…… 加入等待队列了。

此次上线的 Apple Intelligence 是部分功能，主要围绕文本生成、Siri 和相册这几个模块。

先说文本生成，作为苹果 AI 的重要组成部分，该功能的视适用范围不局限于苹果官方应用。

只要使用标准输入文本系统，在第三方应用程序当中也能利用该功能进行文本总结、校对和重写。

另外结合 iOS 18 Beta 的语音备忘录中已经上线的音频转录功能，文本生成系统还可以为录音生成摘要。

第二个比较重要的更新就是 Siri 了。界面上，新版 Siri 不再是一个圆形图标，在运行时会有环绕屏幕的彩色光不断闪动。而且还给不想语音对话的用户提供了文本对话方式，双击屏幕底部即可调出键盘，与 Siri 打字交流。

内容方面，新版 Siri 将能够解答与苹果产品相关的问题，帮助用户进行故障排除。

另外，新的 Siri 还可以够理解从一个查询到下一个查询的上下文，例如要求 Siri 创建日历事件，然后请求创建提醒，而无需重述正在谈论的内容。

不过，之前介绍的屏幕感知功能，并未包含在此次 Siri 的更新当中。

相册的更新则让用户可以用自然语言搜索特定照片，甚至是视频当中的具体时刻。

以上就是本次开发者测试版本中有关 AI 的大致内容，需要指出的是，这只是之前发布会上所展示的功能中的一部分，还有很多没有上线。

特别地，之前提到过的 ChatGPT 集成，此次更新也暂未接入。

解密苹果大模型

苹果已经说过，ChatGPT 在苹果 AI 中不是必选项，主要功能是由自家的大模型驱动。而关于这个模型，苹果也在上线的同时发布了全面的技术报告。

模型的名字简单粗暴，就叫苹果基础模型（Apple Foundation Model，简称 AFM），有端侧（on-device）和云侧（server）两个版本。端侧模型的参数量在 3B 左右，云侧则未具体透露，只说是比端侧更大，二者都有 32k 的上下文窗口。

训练过程英伟达含量为 0

模型的训练通过自家基于 JAX 的 AXLearn 框架进行，并采用了张量并行、流水并行等策略。

硬件则采用的是谷歌 TPU，其中云侧用了 8192 颗 TPUv4 芯片，端侧用了 2048 颗 TPUv5p 芯片，总之英伟达含量为 0。

数据则主要来源于通过 Applebot 爬取的网页，以及有公共许可的代码和数学数据集。

值得一提的是，苹果选用的数据集中无一使用 GPL，都是 MIT、Apache、CC0 这些开放程度更高的开源协议。

流程上，AFM 的预训练过程共分三个阶段 —— 核心训练、继续训练和上下文延长。

在核心训练阶段中，云侧版本的数据量有 6.3T tokens，窗口长度为 4096，端侧版本则是在此基础之上蒸馏得到。

继续训练时，低质量数据的权重会被降低，并使用数学、代码以及获得授权的高质量数据，对模型能力进行提升。

该过程使用了 1T tokens 的数据，窗口长度也从 4096 变成了 8192。

到了下一阶段，窗口长度被进一步扩充到 32k，涉及长序列文本和合成数据，总量为 100B tokens。

独创强化学习新算法

AFM 的后训练则包括指导监督微调（SFT）、人类反馈强化学习（RLHF）等工作。其中 SFT 阶段使用了合成数据与人类标注数据，合成数据主要关于数学、工具使用和代码。而在 RLHF 阶段，苹果自创了 iTeC 和 MDLOO 两种强化学习算法。

iTeC 全称 Iterative Teaching Committee，可译作“迭代教学委员会”，是一种用于强化学习后训练的算法，旨在通过多轮迭代优化模型的性能。

其核心思想是结合不同的偏好优化算法，包括拒绝采样、直接偏好优化（DPO），使得模型能够从多种优化策略中受益，从而提高其对特定任务的适应性和性能。

在每次迭代中，iTeC 会从最新的模型中选择一组表现最好的模型，形成一个“模型委员会”。这些模型是经过 SFT、RS、DPO / IPO 和 RL 等不同训练方法得到的。

通过收集人类对模型响应的偏好反馈，iTeC 不断更新其奖励模型，并用于训练新的模型集合。每收集一批人类偏好数据后，iTeC 会刷新其奖励模型，并训练新的模型集合，以此循环进行多轮迭代，逐步提升模型性能。

MDLOO 则是一种在线强化学习算法，特别设计用于优化模型的响应质量。作为在线算法，它能在模型训练过程中实时解码响应，并应用 RL 算法来最大化奖励。也就是说，这种方法使得模型能够在训练过程中不断学习和调整其策略，以生成更符合人类偏好的响应。

具体实现上，它结合了留一法（Leave-One-Out，LOO）优势估计器和镜像下降策略优化（MDPO），以实现更稳定和有效的策略更新。

端侧混合精度量化

为了让端侧模型更高效运行，同时避免占用过多内存资源，苹果对 AFM 的端侧版本进行了量化操作。具体来说，苹果采用了混合精度的量化方式，针对不同环节采用了不同的量化精度。

苹果采用的方式被称为“调色板”策略，在调色板量化中，权重不是每个单独量化，而是将它们分组，并让组内的权重共享相同的量化常数。

对于投影权重，每 16 列 / 行共享相同的量化常数，并且使用 K-means 算法进行 4 位量化。

针对嵌入层，由于是输入和输出共享的，采用了 8 位整数进行每通道量化，另外还有某些重要性相对较低的层被进一步压缩到 2 位量化。

为了恢复量化后损失的性能，以保持模型的输出质量和准确性，苹果还引入了准确性恢复适配器（Accuracy-Recovery Adapters）。

该适配器是小型的神经网络模块，可以插入到预训练模型的特定层中，在量化模型的基础上进行训练，通过微调来学习如何补偿量化带来的影响。

部分任务超越 GPT-4

应用了一系列优化技术之后，也到了验收模型表现的时候了。在这过程中，苹果采用了人类评估与自动化评估相结合的策略。

先说人工评估，评估人员设计了涵盖分析推理、头脑风暴、聊天机器人等方面的多类问题，并让模型生成相应。同时，问题也会被提给用于对比的其他模型，然后由评估人员评判哪个模型的输出更好。

结果，无论是云侧还是端侧模型，都有至少 60% 的概率不输给 Llama 3、GPT-4 等对比模型。

其余的测试主要利用数据集实现。

在指令遵循能力上，苹果进行了 IFEval 测试，结果在指令和 prompt 两个层次上，云侧 AFM 都超过了 GPT-4，成为了新的 SOTA。

端侧模型的表现，也超过了 Llama 3-8B、Mistral-7B 等近似规模的模型。在 AlpacaEval 当中，端侧和云侧 AFM 也都取得了第二名的成绩。

再看具体任务上的表现，AFM 在写作类 Benchmark 当中的总结任务上取得了 SOTA，撰写任务上也与第一名接近。

数学上，苹果用 GSM8K 和 MATH 两个数据集进行了评估。

结果端侧模型在 GSM8K 上不敌 Llama 3-8B 和微软的 Phi 3 mini，云侧被 GPT-4 和 Llama 3-70B 超越，但优于 GPT-3.5。

MATH 上的成绩相对高些，端侧版领先了同规模模型，云侧版也超越了 Llama 3-70B。

性能之外，安全性也十分重要，苹果通过人工方式对 AFM 抵御对抗性攻击的能力进行了评估。结果显示，AFM 在面对对抗性提示时，实现的违反率显著低于其他开源和商业模型。

以上就是苹果大模型技术报告中一些值得关注的内容，更多详情可参阅报告原文。

One More Thing

虽然 Apple Intelligence 已经提供给开发者进行测试，但彭博社爆料说，正式版可能会延迟上线。

的确，按照苹果此前的版本发布规律，18.1 的版本号也意味着，这些功能不会随着 9 月的新机发布一同上线。

对此分析师 Gene Munster 建议，苹果应该考虑推迟 iPhone 16 的发布日期，以与 Apple Intelligence 保持一致。

至于库克会不会考虑这个建议，就拭目以待了。

报告地址：

https://machinelearning.apple.com/research/apple-intelligence-foundation-language-models

参考链接：

[1]https://x.com/reach_vb/status/1818014366555586611
[2]https://www.cnbc.com/2024/07/29/apple-releases-apple-intelligence-its-long-awaited-ai-features.html
[3]https://www.tomsguide.com/phones/iphones/ios-181-developer-beta-is-live-with-apple-intelligence-heres-all-the-new-iphone-ai-features
[4]https://www.businessinsider.com/apple-intelligence-delay-wont-hurt-new-iphone-sales-analysts-2024-7