20240602 每日AI必读资讯-慈云数据

Sonic：基于状态空间模型的低延迟实时推理语音生成模型

- 由Cartesia AI开发，基于自研的状态空间模型

延迟仅为135毫秒，确保实时响应

超逼真语音：生成富有情感和表达力的真人语音

只需10秒的录音即可匹配语调、抑扬顿挫和声线特征。

可控参数：用户可以调整音高、语速、情感、发音和速度，实现个性化语音设计。

高吞吐量：使用首创的状态空间模型推理栈，支持高并发和低成本推理。

🔗官方介绍：https://cartesia.ai/blog/sonic

🔗 https://blink.csdn.net/details/1714961

Claude 3 全系已经支持函数调用工具Tool use

- 此功能使 Claude 能够与外部工具和API进行交互，从而执行任务、处理数据，并提供更动态和准确的响应。

1.从非结构化文本中提取结构化数据：例如从发票中提取姓名、日期和金额，减少手动数据录入。

2.将自然语言请求转换为结构化API调用：例如，通过简单的命令让团队自助执行常见操作（如”取消订阅”）。

3.通过搜索数据库或使用Web API回答问题：提供即时准确的客户查询应，支持聊天机器人等应用。

4.通过软件API自动化简单任务：节省时间，减少数据录入或文件管理中的错误。

5.协调多个快速Claude子代理执行细化任务：自动查找与会者的可用时间，确定最佳会议时间。

6.流媒体工具使用：减少等待时间，提供更顺畅、更自然的实时互动，如在客户支持聊天机器人中的应用。

7.强制工具使用：开发者可以指定Claude应使用的工具，或让Claude自行选择，帮助创建更有针对性和高效的应用。

8.图像处理：Claude可以在实时应用中处理图像输入，提高应用的多样性和实用性。

🔗 https://blink.csdn.net/details/1715175

接近生产级别的的3D生成模型：Rodin Gen-1 正式上发布

- 基于Diffusion Transformer架构的3D原生通用大模型，拥有超过20亿参数量。

- 可以在几十秒内通过文本生成高质量可直接使用的3D模型，这些模型使用四边形构造，并具有逼真的材质效果。

- 几乎达到了可以在实际项目和商业用途中直接应用的标准。

- 生成的3D模型质量非常高，细节丰富，足以满足生产级别的要求。

🔗 https://blink.csdn.net/details/1715154

Consistent Character：保持角色一致性的同时生成给定角色的不同姿势图像。

Consistent Character 模型，结合多种技术实现角色的一致性图像生成，可以生成给定角色的不同姿势的图像。

保证生成的图像在姿势变化的情况下保持角色的一致性。

🔗 https://blink.csdn.net/details/1715656

20240602 每日AI必读资讯