🤖谷歌急了,终极杀器硬刚GPT-4o!视频模型Veo硬刚Sora
- 大杀器Project Astra,视觉识别和语音交互效果,跟GPT-4o不相上下。
- Gemini1.5Pro超长上下文窗口,token数将达 200 万,且开放给个人使用
- 文生视频模型Veo硬刚Sora,生成视频不仅真实,而且在光线、构图等方面具有惊人的电影感
🔗Veo视频生成申请入口:https://aitestkitchen.withgoogle.com/tools/video-fx
🔗Gemini体验地址:https://aistudio.google.com/app/prompts/new_chat
🔗 Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了-CSDN博客
🌌传微软中国 AI 团队「打包」赴美 内部人士:部分员工确实收到调动
- 微软中国区 Azure 人工智能团队的几个组集体打包去美国和澳大利亚
- 收到邮件的人在 6 月 7 日之前要下决定,不走就裁员。
- 涉及大约数百人,微软美国还可帮助解决家属签证。截至发稿前,微软暂无回应。
🌐字节跳动豆包大模型首次全员亮相!
- 一口气祭出9个,分为两个尺寸:
-
大杯:豆包通用模型pro,窗口尺寸最大可达128K,全系列可精调。
-
小杯:豆包通用模型lite,有较快的响应速度。
- 没有榜单分数,没有参数规模!
- 比行业价格低95.8%,
🔗 字节跳动豆包大模型家族正式亮相,主力模型比行业价格低99.3%,引领大模型进入“厘”时代-CSDN博客
🔍ElevenLabs发布配音API
- 允许开发者利用其API在自己的产品中添加音频或视频翻译功能
- 利用该API可以将任意音频或视频翻译成29种语言,同时保留原始发言者声音的独特特征。
- ElevenLabs提供了Python教程和API参考,帮助开发者学习如何将API整合到主要编程语言中。
文档:Dub A Video Or An Audio File - ElevenLabs
示例:https://github.com/elevenlabs/elevenlabs-examples/tree/main/examples/dubbing/e2e-example
🚫Android即将推出基于AI的诈骗电话检测功能
- 利用Gemini Nano技术识别诈骗电话中的欺诈性语言和对话模式,提供实时警报。
- 用户将收到警报,提示结束可疑通话,避免泄露个人信息或被诈骗。
- Gemini Nano目前仅支持Google Pixel8Pro和Samsung S24系列手机,限制了功能的适用范围。
📚谷歌推出新的 AI 模型 LearnLM,专注于教育领域
- 谷歌基于 Gemini 开发的 AI 模型,旨在帮助学生解决作业问题和提高学习效果。
- 可以通过不同方式找到和展示专题例子,辅导学生习,并激发学习兴趣。
- 已与谷歌搜索、Android、YouTube 和 Gem 聊天机器人整合,简化课程计划,回答视频问题,提供个人专家等功能。
🔗 https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/