AI奇想空间 | 发现优质AI工具与开源项目 | 如何在手机上免费运行小型语言模型

经过三个月的试验与错误，Georgi Gerganov 和 Ghorbani Asghar 为我们找到了既简单又优雅的解决方案。只需五分钟，就可以让一个口袋大小的大语言模型在你的安卓或苹果手机上运行。

手机上的 AI - 作者提供的图片

我终于做到了！不过说实话，我几乎没做什么。我只是时刻保持警觉，捕捉到这个消息的第一个信号。

在这篇文章中，我将向您展示如何在没有网络连接的情况下，在您的安卓（或iPhone）手机上本地运行一个小型语言模型（例如 Gemma2–2B 或 Qwen2.5–1.5B）。

几个月前，我开始寻找一个方法，让大语言模型在我的安卓手机上本地运行。结果遇到了很多失败...

当时，唯一活跃的项目是（至今仍是）mlc-llm 及其平行项目 web-llm：但部署过程简直是一场噩梦！

不过，后来我的超级英雄 Gerogi Gerganov 发布了一则令人惊叹的消息：

来自 TwitterX 的截图

我称他为超级英雄，因为在我看来，Gerganov 是过去两年里真正的生成式 AI 创新者。通过 Llama.cpp 项目，他让不可能成为可能。

任何有 CPU 的人（甚至是 Raspberry Pi）都可以本地运行生成式 AI！

我没有浪费时间，立刻进行了尝试。现在我将在这里教你如何自己动手实现。

注意：我使用的是非常旧的安卓手机，所以它也应该能在你的手机上运行。我的测试手机都是安卓手机，如下图所示。相信我，如果我能在这上面运行 AI，那么你也可以做到！

我用于测试的两部安卓手机

在您的手机上运行小型语言模型所需的一切

事实上 Asghar Ghorbani 的 GitHub 仓库就是你需要的一切，就是这么简单。他开发了两个应用程序，一个是安卓版，一个是iOS版，你可以直接在各自的应用商店下载。

所以可以说，PocketPal 就是你所需要的

PocketPal 的应用商店...

他在所有细节上都做得很好，包括你开箱即用的两个惊人功能：

你可以直接从应用中下载 LLM（小型模型）
你可以添加你自己格式为 GGUF 的小型语言模型

首先，从你的应用商店下载并安装这个应用（在我的案例中是 Google Play 商店）。之后，打开它，开始获取和配置模型。

PocketPal AI 预配置了一些流行的小型语言模型：

Danube 2 和 3
Phi
Gemma 2
Qwen

模型需在使用前下载。你可以直接从应用下载并使用这些模型，还可以加载任何其他 GGUF 格式的模型！稍后我将解释如何操作。对于 iOS 用户，我不确定如何做到这一点。请按照以下步骤操作：

入门页面的图片

下载一个模型

点击汉堡菜单
导航到“模型”页面
选择你想要的模型并点击下载

加载一个模型

下载后，点击加载将模型加载到内存中。现在你可以开始聊天了！

如何聊天和定制本地模型

从应用直接下载的模型已经配置好所有正确的设置。没错……在这里你也需要进行一些调整。

没什么好惊讶的，PocketPal 是基于 llama.cpp 构建的！所以每当你想使用另一个模型时，你需要检查使用 llama.cpp 库时需要的一些相同参数。

首先，我从官方 Qwen Hugging Face 仓库下载了 qwen2–0.5b-instruct-q8_0.gguf，并上传到我的手机下载目录（你也可以直接下载到那里）。我选择了 q8 格式，因为对于小参数模型，准确性不能降低。对于参数高达 2B 的模型，你也可以使用 q5_m 量化，对于 3B 模型，甚至 q4 也是可以的。

现在你可以点击 + Local Model 并浏览下载的文件。你可能尝试加载并立即开始聊天，但有些不需要的 token 会打印在聊天框中。

与我们在 llama-cpp-python 中配置模型超参数的方式类似，在这里我们必须设置一些基本参数：

必须设置 EOS token 以及聊天模板