Gemini:具有照片生成、视频摘要和实时互联网访问功能的先进 ChatGPT 替代品
不久前,ChatGPT 引起了很大的轰动,有预测称它有可能超越谷歌搜索,因为它对每个查询结果更具对话性和自然个性化。它似乎擅长理解上下文并提供直接结果,消除了用户需要像在谷歌搜索中那样筛选网页的必要性。
然而,谷歌推出了 Bard 作为对抗。虽然 Bard 最初在准确性上落后,但谷歌迅速增强了其生成式 AI 能力。Bard 现在已经发展成为 Gemini,谷歌最新、最先进的 AI 助手。
过去我专门使用 ChatGPT 3.5 进行人工智能辅助,但现在我因以下原因转向谷歌的 Gemini 用于日常任务。
1. 结构化内容更多,聊天内容更少
使用 ChatGPT 一段时间后,我最初犹豫是否探索其他生成式 AI 聊天工具,认为它们可能提供类似的体验。然而,最近当我需要对医学活检结果进行多方面评估以确保准确性时,我的观点发生了变化。这促使我比较了 ChatGPT 3.5、谷歌的 Gemini 和 Meta 的 Llama 3 的回答。
我发现收到三个独特但相对一致的答案很有趣,尽管在情感上略有不同。
然而,一个明显的观察是,ChatGPT 的回答往往更具对话性,使得提取主要观点有些具有挑战性。也许优化提示可能会产生更好的结果,但如果工具能够自主地为清晰性构建回答将是理想的。
然而,谷歌的 Gemini 提供了一个更易于理解的结构,如下所示。
此外,有时它还会提供检索信息的来源。这个功能非常有益,因为它增强了验证所提供结果准确性的信心。
2. 访问互联网的能力
这对我来说很重要。ChatGPT 3.5 的主要缺点之一是,其模型仅训练到 2022 年 1 月(撰写时)。因此,2022 年 1 月之后在互联网上发布的任何新信息都无法立即在 ChatGPT 3.5 上获取。
获取 2022 年 1 月后的信息
例如,当询问关于 2022 年票房最高的电影时,ChatGPT 遗憾地无法提供答案。
但 Gemini 会像谷歌搜索一样告诉您结果。
总结网页文章
想象一下,当您时间紧迫时遇到一个长篇文章。您会怎么做?
使用 Gemini,只需提供 URL,它就可以迅速为您生成简洁的摘要!
总结 YouTube 内容
Gemini 不仅可以总结文本文章,还可以总结 YouTube 视频!
有了访问互联网的能力,必然会有许多方法来进一步扩展 Gemini 的效用和功能。
3. 超越文本:图像处理
虽然 ChatGPT 3.5 主要基于文本,但 Gemini 引入了处理图像的能力。
图像生成
对于 OpenAI,有 DALL-E,但 Gemini 提供了基本的图像生成能力。虽然它可能不像 Midjourney 那样复杂,但对于像我这样的用户来说已经足够了。
图像分析
Gemini 不仅生成图像,还可以根据您的查询对其进行分析。
即使面对具有挑战性的图像,它也会尽力而为。虽然不总是完全准确,但我仍然感到印象深刻。
虽然图像分析存在局限性,如下所述,但这标志着一个有希望的开始。
4. 电话集成以提高可访问性
对于谷歌来说,Gemini 的电话集成是一个显着优势,特别是考虑到其拥有 Android 生态系统。
“阅读”功能
即使没有手机,Gemini 在网页上提供了“阅读”功能,这对我这样的用户来说是一个重要优势。两个月前发生事故后,我的一只眼睛失去了阅读能力。
因此,我努力减少屏幕时间,利用 Gemini 的“搜索”功能来听取结果而不是查看它们。
作为谷歌助手集成
虽然谷歌助手的“嘿谷歌”激活很方便,但它也有局限性,通常会显示搜索结果。
安装 Gemini 应用程序可以实现与谷歌助手的无缝集成。现在,说出“嘿谷歌”会触发 Gemini 聊天,提供智能回答。
尽管仍然稍显迟缓,但这标志着朝着通过 Android 手机与互联网对话而无需依赖屏幕的方向迈出了一大步。
然而,如下所述,还存在一些局限性。如果希望切换回谷歌助手,提供了切换回的说明 (切换到谷歌助手)。
Gemini 的缺点
1. 文本改进:
谷歌 Gemini 提供的结构化输出增强了可读性,但它偏离了我的原始文本结构,使得难以回溯并根据我喜欢的风格修改我的写作。
ChatGPT 更好地保留了原始风格,有助于更轻松地进行文本校正和调整。虽然 Gemini 将整个输入视为新文本和风格,但 ChatGPT 将其视为我现有文本的一部分,保持了一致性。
尽管 Gemini 在促进整体文本的重大变化方面表现出色,但我的主要目的是增量文本改进,在这方面 ChatGPT 更有效。
尽管如此,我相信更好的提示命令可以增强这两个平台,
此外,ChatGPT 还提供了独特的能力,可以在保留对先前提示的访问权的同时生成具有改变提示的新输出,从而实现无缝的实验和改进。
2. 数据不可用性:
尽管 Gemini 具有访问互联网的能力,但它并不总是提供最新信息。
例如,当询问英国现任君主时,ChatGPT 正确识别出伊丽莎白二世女王,但 Gemini 未能提供最新信息,甚至未指示其上次已知的数据。
3. 数据不准确性:
Gemini 在提供实时信息时可靠性不高。例如,在托马斯杯羽毛球比赛后,Gemini 在比赛进行之前就已经宣布了最终比赛结果(即在比赛前一天进行了查询)。
在比赛结束后的第二天,Gemini 错误地报告了结果,包括错误地将胜利归功于马来西亚而不是中国台北。
显然,尽管具有访问互联网的能力,Gemini 在最近可用结果方面并不可靠。
4. 自信地产生幻觉:虽然 Gemini 能够准确识别图像中的文本,但它经常会过于自信地提供虚构的解释。
在下面的猜谜场景中,它自信地提供了错误的答案,比如说“NINE”而不是“TEN”。
在下面的猜谜场景中,它自信地提供了错误的答案“APRIL”而不是正确答案“WHAT”。
再来看一个例子,其中解释和方程式不匹配。解释中右侧写着“eight”,但数字右侧显示的是 5。
5. 不如 Google Assistant:
虽然 Gemini 在查询结果生成方面超越了 Google Assistant,但它缺乏某些功能,比如与手机功能的直接交互。
例如,我可以指示 Google Assistant 在 YouTube 应用上播放爵士音乐,但 Gemini 只能列出爵士音乐选项,需要手动访问。
6. 隐私和广告链接:
与 Google Search 类似,Gemini 可能与 Google 的广告生态系统集成。相比之下,ChatGPT 独立于广告运营,提供潜在更注重隐私的体验。
谷歌在人工智能竞赛中不断缩小差距
尽管存在局限性,Gemini 展现出了相当大的潜力,利用其数十亿常规 Android 用户的庞大用户群。最近它的收入和股价激增一点也不令人惊讶。
虽然 ChatGPT 最初可能凭借其人工智能能力和强大的基础引擎占据优势,但它缺乏谷歌拥有的庞大生态系统。
因此,ChatGPT 在未来将面临与谷歌的激烈竞争,特别是在两者人工智能产品的差异逐渐缩小,尤其是对于那些可能尚未需要最高人工智能能力的普通用户而言。
人工智能竞赛的持续进行令人兴奋,谷歌和其他人工智能开发者都在努力创新和进步。
下面的结果显示了 ChatGPT 与 Gemini 的有趣趋势(由 Gemini 报告 😜,希望这不是虚构的)