GPT-4o：大模型风向标，OpenAI 重大更新

　事件：美国时间5月13日，OpenAI迎来重大更新。1）发布桌面版APP及更新UI后的ChatGPT，用户使用更加简单与自然；2）发布新的全能模型GPT-4o，实现跨模态即时响应，相比GPT-4Turbo，性价比显著提升的同时向用户免费开放。　　桌面版及新UI界面的ChatGPT，实现极致的用户交互体验。OpenAI推出了适用于macOS的新ChatGPT桌面应用程序，该应用程序旨在无缝集成到用户的计算机上执行的任何操作。通过简单的键盘快捷键（Option+Space），用户便可向ChatGPT提问，并支持直接在应用程序中截取屏幕截图进行讨论。与此同时，ChatGPT支持与计算机直接语音对话，并在未来将推出新音频和视频功能。发布后，OpenAI首先向Plus用户推出macOS应用程序，并将在未来几周内更广泛地提供该应用程序，同时计划在今年晚些时候推出Windows版本。此外，OpenAI还全面改版了UI界面，旨在提供更加友好和更具有对话性的用户交互体验。　　GPT-4o实现毫秒级先进视觉音频理解，价格方面更具优势。GPT-4o为OpenAI最新的旗舰型号，不仅提供与GPT-4同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力。此次发布会，GPT-4o具有如下亮点：1）毫秒级响应，实现即时语音对话。GPT-4o对音频输入的响应时间最短为232毫秒，平均为320毫秒，这与人类在对话中的响应时间相似；2）更先进的视觉与音频理解能力，智能感知语气与语态。GPT-4o在对话中可随时打断，并可根据场景生成多种语调，同时支持视频对话；3）API性价比显著提升。与GPT-4Turbo相比，GPT-4o速度提升2倍、成本却降低了50%，且速率限制提升5倍。4）免费提供给所有用户使用，付费用户则可以享受五倍的调用额度，团队和企业用户调用额度更高。　　GPT-4o为端到端多模态模型，刷新SOTA实现性能飞跃。传统语音AI通常经过三步法（语音识别或ASR、LLM计划下一步语言、语音合成或TTS）实现对话功能，在这过程中会丢失很多信息且不能判断情绪变化。GPT-4o为跨模态端到端训练新模型，意味着所有输入和输出都由同一神经网络处理，成为真正的多模态统一模型，带来性能的飞跃提升。具体来看：1）在传统基准测试中，GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能，同时在多语言、音频和视觉功能上达到了新的高水位线；2）在端到端多模态架构支持下，GPT-4o多模态能力范围显著拓展，除了文本、图像等常用功能，GPT-4o还支持3D物品合成、文本转字体等多样化功能。

成为VIP会员查看完整内容

相关内容

GPT-4o

关注 1

GPT-4o（“o”代表“omni”）朝着更自然的人机交互迈出了一步——它可以接受任何组合的文本、音频和图像作为输入，并生成任何组合的文本、音频和图像输出。它对音频输入的响应时间最短可达232毫秒，平均为320毫秒，这与人类在对话中的响应时间相似。在英语文本和代码处理上，它的性能与GPT-4 Turbo相当，但在非英语文本处理方面有显著改进，同时在API中速度更快且成本降低50%。与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色。

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

67+阅读 · 3月5日

Sora技术深度解析，21页pdf

专知会员服务

154+阅读 · 2月26日

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

专知会员服务

52+阅读 · 2月23日

文生视频模型Sora面世，AI生视频技术持续革新

专知会员服务

64+阅读 · 2月20日