ChatGPT-4o新功能介绍
- 无延迟语音实时对话
在GPT-4o发布之前,与ChatGPT对话,GPT-3.5和GPT-4平均延迟分别为2.8秒和5.4秒。那时,为了实现与ChatGPT以语音进行对话,设置了三个独立模型管线:
(图片来源网络,侵删)- 第一个模型将音频转录成文本
- 第二个模型就是GPT-3.5或GPT-4,接收文本并输出响应文本
- 第三个模型将文本转换成音频
这个过程走下来,不仅导致了延迟时间较长,而且造成ChatGPT不能观察说话者语气、说话者的背景噪音,无法表达情感。但现在,GPT-4o让一切都发生得很自然。GPT-4o 能在 232 毫秒内对音频输入做出反应,平均反应时间为 320 毫秒,这与人类在对话中的反应时间相近。
- 高情商,没有AI的机械和僵硬感
工程师向ChatGPT提出了一个睡前故事的请求,主题是关于恋爱中的机器人。然而,这位挑剔的工程师似乎对故事的要求非常高,他不断打断ChatGPT,要求它表现更多的情感和戏剧性。
(图片来源网络,侵删)不过,ChatGPT非常有耐心,尽管被打断了很多次,它仍然按照工程师的要求讲述故事,并尽力在声音和情感上做出改变。当工程师要求它唱歌时,ChatGPT甚至叹了口气,但仍然以平静的心态开始了优美的演唱。
整个过程中,ChatGPT的表现非常自然,完全没有机械或僵硬的感觉。这使得它在语音助手领域中脱颖而出,甚至可以与苹果的Siri相媲美。这也是为什么OpenAI能够在发布ChatGPT-4o之后,迅速获得苹果的合作机会的原因。
- 视觉推理
工程师向ChatGPT提出了一个请求,希望它能扮演在线导师的角色,帮助解决一个数学问题。这位工程师对待问题非常认真,他要求ChatGPT只能给出提示,不能直接给出答案。
工程师用手写了一个方程式:3x+1=4,并将其拍照发送给了ChatGPT。ChatGPT自然地回答说这是一个一元一次方程。
随后,工程师开始在摄像头前解题,而ChatGPT则在实时提供鼓励和引导。它反应迅速,给出了及时的评价和反馈。与之前的演示相比,ChatGPT的表现让人印象深刻,显示出了它在处理数学问题上的优异能力。
其他功能
- 体验GPT-4级别的智能
- 从联网后的模型得到响应
- 分析数据并创建图表
- 畅聊你拍的照片
- 上传文件以帮助总结、撰写或分析
- 发现和使用GPTs和GPT Store
- 用记忆构建更有用的体验
未来AI的发展
未来的人工智能将呈现出更加深入和个性化的发展趋势,这种发展将会推动AI走向更广泛的应用领域,包括对底层操作系统和硬件的更深度整合。
我认为,未来的AI可能会实现类似于贾维斯(Iron Man中的人工智能助手)的功能,具备更加智能化的个性化特征。它可以学习用户的习惯、喜好、甚至情感状态,以更好地适应用户的需求。例如,它可以根据用户的日常活动安排提醒、提供建议,甚至在用户需要时展现情感支持。这种个性化的AI助手将成为人们生活中不可或缺的一部分。
未来的AI将具备更高级的权限控制能力,不仅局限于控制手机软件(AI类型的操作系统),而是扩展到控制更多的硬件设备和系统。例如,未来的智能家居系统可以通过AI实现对家庭设备的智能控制,包括灯光、温度、安全系统等。此外,AI还可以与车载系统、智能穿戴设备等硬件进行交互,提供更加智能化的服务和管理。
未来的AI还将在安全和隐私保护方面有所突破。它将具备更加严格的权限管理和数据加密功能,以确保用户的个人信息和数据安全。同时,AI还将不断学习和优化自身的安全防护能力,以抵御各种网络攻击和威胁。
- 视觉推理