20240516 每日AI必读资讯-慈云数据

🤖谷歌急了，终极杀器硬刚GPT-4o！视频模型Veo硬刚Sora

- 大杀器Project Astra，视觉识别和语音交互效果，跟GPT-4o不相上下。

- Gemini1.5Pro超长上下文窗口，token数将达 200 万，且开放给个人使用

- 文生视频模型Veo硬刚Sora，生成视频不仅真实，而且在光线、构图等方面具有惊人的电影感

🔗Veo视频生成申请入口：https://aitestkitchen.withgoogle.com/tools/video-fx

🔗Gemini体验地址：https://aistudio.google.com/app/prompts/new_chat

🔗 Google“反击战”，一夜放出近10款模型！上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了-CSDN博客

🌌传微软中国 AI 团队「打包」赴美内部人士：部分员工确实收到调动

- 微软中国区 Azure 人工智能团队的几个组集体打包去美国和澳大利亚

- 收到邮件的人在 6 月 7 日之前要下决定，不走就裁员。

- 涉及大约数百人，微软美国还可帮助解决家属签证。截至发稿前，微软暂无回应。

🌐字节跳动豆包大模型首次全员亮相！

- 一口气祭出9个，分为两个尺寸：

大杯：豆包通用模型pro，窗口尺寸最大可达128K，全系列可精调。
小杯：豆包通用模型lite，有较快的响应速度。

- 没有榜单分数，没有参数规模！

- 比行业价格低95.8%，

🔗 字节跳动豆包大模型家族正式亮相，主力模型比行业价格低99.3%，引领大模型进入“厘”时代-CSDN博客

🔍ElevenLabs发布配音API

- 允许开发者利用其API在自己的产品中添加音频或视频翻译功能

- 利用该API可以将任意音频或视频翻译成29种语言，同时保留原始发言者声音的独特特征。

- ElevenLabs提供了Python教程和API参考，帮助开发者学习如何将API整合到主要编程语言中。

文档：Dub A Video Or An Audio File - ElevenLabs

示例：https://github.com/elevenlabs/elevenlabs-examples/tree/main/examples/dubbing/e2e-example

🚫Android即将推出基于AI的诈骗电话检测功能

- 利用Gemini Nano技术识别诈骗电话中的欺诈性语言和对话模式，提供实时警报。

- 用户将收到警报，提示结束可疑通话，避免泄露个人信息或被诈骗。

- Gemini Nano目前仅支持Google Pixel8Pro和Samsung S24系列手机，限制了功能的适用范围。

📚谷歌推出新的 AI 模型 LearnLM，专注于教育领域

- 谷歌基于 Gemini 开发的 AI 模型，旨在帮助学生解决作业问题和提高学习效果。

- 可以通过不同方式找到和展示专题例子，辅导学生习，并激发学习兴趣。

- 已与谷歌搜索、Android、YouTube 和 Gem 聊天机器人整合，简化课程计划，回答视频问题，提供个人专家等功能。

🔗 https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/