OpenAI推出GPT-4o模型 具有实时视觉推理 将免费向所有人提供

昨天夜里 OpenAI 举行了约半小时的春季更新发布会,此次发布会并不是推出搜索引擎,而是基于 GPT-4 推出 GPT-4o 模型,该模型具有文本、语音和视觉实时推理功能。

该模型提供 GPT-4 级别的能力但速度更快,可以使用文本输入、语音输入亦或者上传图片进行推理,不过 GPT-4o 还可以开启摄像头对画面内容进行实时分析,举个简单的例子:当你出国旅行时就可以拿着 GPT-4o 拍摄周围的画面然后让 ChatGPT 帮助你翻译路标或提供各种建议。

调用 GPT-4o 模型的 ChatGPT 可以实时流畅的进行对话,延迟甚至只有 232 毫秒,而 GPT-3.5 的延迟大约有 2.5 秒,也就是存在比较明显的 “卡顿”,GPT-4o 已经没有这种情况,加上 GPT-4o 极其出众的推理能力,诸如 Siri 等语音助理仿佛就像是玩具。

OpenAI推出GPT-4o模型 具有实时视觉推理 将免费向所有人提供

早前苹果与 OpenAI 达成协议,预计将在 iOS 18 中添加由 OpenAI 提供的聊天机器人,现在来看这款聊天机器人应该就是由 GPT-4o 驱动的,为用户提供更好的自然语言对话能力。

让人意想不到的是 GPT-4o 竟然会向所有人免费开放,目前已经有少数 ChatGPT 用户获得权限可以免费使用 GPT-4o,无需开通 ChatGPT Plus 订阅会员。

免费用户使用 GPT-4o 有配额限制,如果开通订阅会员则可以对话更多,晚些时候 OpenAI 也将向企业推出 GPT-4o 模型。

比灰度权限更快的是 API 权限,现在所有开发者都可以获得 GPT-4o 模型的访问权限,不过并不是免费的,但费率只有 GPT-4 系列的一半并且速度更快。

另外 OpenAI 还推出 ChatGPT for Mac 客户端,虽说是在测试但目前客户端安装文件已经在网上流传,应该已经有部分用户成功用上这个客户端。

最后,由于 GPT-4o 能力过于出众,一些实时翻译类、学习类、培训类应用或服务将面临巨大压力,例如语言学习应用多邻国 (Duolingo) 股价就出现了下跌,显然投资者们也考虑到多邻国可能会被这类人工智能应用替代。

有兴趣的用户可以访问 OpenAI 官网获取更多信息:https://openai.com/index/hello-gpt-4o/


这是一个从 https://www.landiannews.com/archives/103874.html 下的原始话题分离的讨论话题