AI奇想空间 | 发现优质AI工具与开源项目 | 从 ChatGPT 转向谷歌的 Gemini：科技世界的新趋势

Gemini：具有照片生成、视频摘要和实时互联网访问功能的先进 ChatGPT 替代品

不久前，ChatGPT 引起了很大的轰动，有预测称它有可能超越谷歌搜索，因为它对每个查询结果更具对话性和自然个性化。它似乎擅长理解上下文并提供直接结果，消除了用户需要像在谷歌搜索中那样筛选网页的必要性。

然而，谷歌推出了 Bard 作为对抗。虽然 Bard 最初在准确性上落后，但谷歌迅速增强了其生成式 AI 能力。Bard 现在已经发展成为 Gemini，谷歌最新、最先进的 AI 助手。

过去我专门使用 ChatGPT 3.5 进行人工智能辅助，但现在我因以下原因转向谷歌的 Gemini 用于日常任务。

1. 结构化内容更多，聊天内容更少

使用 ChatGPT 一段时间后，我最初犹豫是否探索其他生成式 AI 聊天工具，认为它们可能提供类似的体验。然而，最近当我需要对医学活检结果进行多方面评估以确保准确性时，我的观点发生了变化。这促使我比较了 ChatGPT 3.5、谷歌的 Gemini 和 Meta 的 Llama 3 的回答。

我发现收到三个独特但相对一致的答案很有趣，尽管在情感上略有不同。

然而，一个明显的观察是，ChatGPT 的回答往往更具对话性，使得提取主要观点有些具有挑战性。也许优化提示可能会产生更好的结果，但如果工具能够自主地为清晰性构建回答将是理想的。

ChatGPT 的回答更冗长和对话性

然而，谷歌的 Gemini 提供了一个更易于理解的结构，如下所示。

Gemini 的回答采用富文本格式，结构更好

此外，有时它还会提供检索信息的来源。这个功能非常有益，因为它增强了验证所提供结果准确性的信心。

2. 访问互联网的能力

这对我来说很重要。ChatGPT 3.5 的主要缺点之一是，其模型仅训练到 2022 年 1 月（撰写时）。因此，2022 年 1 月之后在互联网上发布的任何新信息都无法立即在 ChatGPT 3.5 上获取。

获取 2022 年 1 月后的信息

例如，当询问关于 2022 年票房最高的电影时，ChatGPT 遗憾地无法提供答案。

ChatGPT 无法提供 2022 年 1 月后的数据

但 Gemini 会像谷歌搜索一样告诉您结果。

Gemini 提供 2022 年 1 月后的数据

总结网页文章

想象一下，当您时间紧迫时遇到一个长篇文章。您会怎么做？

使用 Gemini，只需提供 URL，它就可以迅速为您生成简洁的摘要！

使用 Gemini，我不再需要复制粘贴来进行文章摘要。只需提供链接即可！

总结 YouTube 内容

Gemini 不仅可以总结文本文章，还可以总结 YouTube 视频！

使用 Gemini，不再需要观看整个视频！

有了访问互联网的能力，必然会有许多方法来进一步扩展 Gemini 的效用和功能。

3. 超越文本：图像处理

虽然 ChatGPT 3.5 主要基于文本，但 Gemini 引入了处理图像的能力。

图像生成

对于 OpenAI，有 DALL-E，但 Gemini 提供了基本的图像生成能力。虽然它可能不像 Midjourney 那样复杂，但对于像我这样的用户来说已经足够了。

使用 Gemini 进行简单的图像生成

图像分析

Gemini 不仅生成图像，还可以根据您的查询对其进行分析。

即使面对具有挑战性的图像，它也会尽力而为。虽然不总是完全准确，但我仍然感到印象深刻。

虽然图像分析存在局限性，如下所述，但这标志着一个有希望的开始。

4. 电话集成以提高可访问性

对于谷歌来说，Gemini 的电话集成是一个显着优势，特别是考虑到其拥有 Android 生态系统。

“阅读”功能

即使没有手机，Gemini 在网页上提供了“阅读”功能，这对我这样的用户来说是一个重要优势。两个月前发生事故后，我的一只眼睛失去了阅读能力。

我在 6 小时内变瞎

因此，我努力减少屏幕时间，利用 Gemini 的“搜索”功能来听取结果而不是查看它们。

作为谷歌助手集成

虽然谷歌助手的“嘿谷歌”激活很方便，但它也有局限性，通常会显示搜索结果。

安装 Gemini 应用程序可以实现与谷歌助手的无缝集成。现在，说出“嘿谷歌”会触发 Gemini 聊天，提供智能回答。

尽管仍然稍显迟缓，但这标志着朝着通过 Android 手机与互联网对话而无需依赖屏幕的方向迈出了一大步。

然而，如下所述，还存在一些局限性。如果希望切换回谷歌助手，提供了切换回的说明 (切换到谷歌助手)。

Gemini 的缺点

1. 文本改进：

谷歌 Gemini 提供的结构化输出增强了可读性，但它偏离了我的原始文本结构，使得难以回溯并根据我喜欢的风格修改我的写作。

ChatGPT 更好地保留了原始风格，有助于更轻松地进行文本校正和调整。虽然 Gemini 将整个输入视为新文本和风格，但 ChatGPT 将其视为我现有文本的一部分，保持了一致性。

ChatGPT 改进优于 Gemini 改进的比较。

尽管 Gemini 在促进整体文本的重大变化方面表现出色，但我的主要目的是增量文本改进，在这方面 ChatGPT 更有效。

尽管如此，我相信更好的提示命令可以增强这两个平台，

此外，ChatGPT 还提供了独特的能力，可以在保留对先前提示的访问权的同时生成具有改变提示的新输出，从而实现无缝的实验和改进。

ChatGPT 可以在相同命令上执行不同提示的能力，我可以切换回先前的提示。

2. 数据不可用性：

尽管 Gemini 具有访问互联网的能力，但它并不总是提供最新信息。

例如，当询问英国现任君主时，ChatGPT 正确识别出伊丽莎白二世女王，但 Gemini 未能提供最新信息，甚至未指示其上次已知的数据。

ChatGPT 告知截至 2022 年 1 月的最新结果

Gemini 未能显示任何结果

3. 数据不准确性：

Gemini 在提供实时信息时可靠性不高。例如，在托马斯杯羽毛球比赛后，Gemini 在比赛进行之前就已经宣布了最终比赛结果（即在比赛前一天进行了查询）。

Gemini 在 5 月 4 日查询时，对赢家和亚军的结果进行了幻想，而比赛将在 5 月 5 日进行。

在比赛结束后的第二天，Gemini 错误地报告了结果，包括错误地将胜利归功于马来西亚而不是中国台北。

Gemini 在比赛后一天提供了托马斯杯的最终结果。它用马来西亚替换了中国台北。马来西亚并没有输给印度尼西亚。

显然，尽管具有访问互联网的能力，Gemini 在最近可用结果方面并不可靠。

4. 自信地产生幻觉：虽然 Gemini 能够准确识别图像中的文本，但它经常会过于自信地提供虚构的解释。

在下面的猜谜场景中，它自信地提供了错误的答案，比如说“NINE”而不是“TEN”。

Gemini 自信地给出错误的猜谜答案。正确答案应该是 TEN 而不是 NINE。

在下面的猜谜场景中，它自信地提供了错误的答案“APRIL”而不是正确答案“WHAT”。

Gemini 自信地给出错误的猜谜答案。正确答案应该是 WHAT 而不是 APRIL。

再来看一个例子，其中解释和方程式不匹配。解释中右侧写着“eight”，但数字右侧显示的是 5。

Gemini 自信地给出错误的猜谜答案。文本和数字不匹配。

5. 不如 Google Assistant：

虽然 Gemini 在查询结果生成方面超越了 Google Assistant，但它缺乏某些功能，比如与手机功能的直接交互。

例如，我可以指示 Google Assistant 在 YouTube 应用上播放爵士音乐，但 Gemini 只能列出爵士音乐选项，需要手动访问。

6. 隐私和广告链接：

与 Google Search 类似，Gemini 可能与 Google 的广告生态系统集成。相比之下，ChatGPT 独立于广告运营，提供潜在更注重隐私的体验。

谷歌在人工智能竞赛中不断缩小差距

尽管存在局限性，Gemini 展现出了相当大的潜力，利用其数十亿常规 Android 用户的庞大用户群。最近它的收入和股价激增一点也不令人惊讶。

虽然 ChatGPT 最初可能凭借其人工智能能力和强大的基础引擎占据优势，但它缺乏谷歌拥有的庞大生态系统。

因此，ChatGPT 在未来将面临与谷歌的激烈竞争，特别是在两者人工智能产品的差异逐渐缩小，尤其是对于那些可能尚未需要最高人工智能能力的普通用户而言。

人工智能竞赛的持续进行令人兴奋，谷歌和其他人工智能开发者都在努力创新和进步。

下面的结果显示了 ChatGPT 与 Gemini 的有趣趋势（由 Gemini 报告 😜，希望这不是虚构的）

ChatGPT 搜索 vs Gemini 搜索趋势从 2022 年至今，由 Gemini 报告。