漫话开发者 - UWL.ME

2024-03-14 talkingdev

顶尖人工智能仍未通过智商测试

最近的测试显示，像ChatGPT-4和谷歌的“Gemini Advanced”这样的先进AI模型在视觉智商测试中表现不佳，得分低于可测量的智商阈值。虽然ChatGPT-4表现出较强的模式识别能力，但它会出现视觉误认和逻辑错误，表明与人类...

2024-03-14 talkingdev

与过去的技术革命相比，人工智能创业公司面临着独特的挑战：它们直接竞争着资金雄厚的老牌公司，这些公司已经拥有成熟的产品、现有的客户数据和顶尖的人才，这使得在人工智能市场上找到竞争优势的策略更加困难。传统...

2024-03-14 talkingdev

TripoSR是一种使用前向模型从2D图像重建3D模型的方法。它运行非常快，且接近于当前任务的最新技术水平。

2024-03-14 talkingdev

由于室外数据的复杂性和空白性，真实世界的室外环境一直是3D场景生成中被忽视的挑战。SemCity通过专注于真实世界的室外环境，彻底颠覆了3D场景生成，实现了真实的室外场景生成。SemCity通过3D扩散模型，将真实世界的...

2024-03-14 talkingdev

这项研究介绍了一种创新的视频生成方法，使用状态空间模型（SSMs）克服了传统的基于注意力扩散模型的内存限制，重点关注线性内存消耗。在UCF101和MineRL Navigate数据集的测试中，SSMs能够创建具有竞争力质量的更长...

2024-03-14 talkingdev

MoAI是一种新型的大型语言和视觉模型，它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布，旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法，可以...

2024-03-14 talkingdev

据报道，自动驾驶软件领导者Applied Intuition完成了2.5亿美元的D轮融资，其估值达到了60亿美元，比之前的估值增长了67%。该公司的生成式人工智能技术用于开发汽车、卡车和其他行业的软件，导致了三位数的盈利增长和...

2024-03-14 talkingdev

谷歌DeepMind的SIMA是一个通用的AI代理，可在各种电子游戏环境中遵循自然语言指令。它标志着将AI系统变得更加多才多艺、可指导的转变。此前，AI系统只能在特定的环境中工作，现在SIMA可以在多种环境下工作，这是一项...