漫话开发者 - UWL.ME

2023-09-26 talkingdev

2027年语言模型用户体验展望

本文探讨了在中期未来，由大型语言模型驱动的软件可能会是什么样子。语言模型将会显著改变我们与计算机的交互方式。当前的技术状态看似初级，但越来越明显的是，生成型人工智能无法完全替代过去几十年里出现的其他用...

2023-09-26 talkingdev

NeuralLabeling是一款使用3D技术进行详细场景注释的工具。这款工具可以帮助用户精确地标注出图像中的各个物体和场景，从而为计算机视觉应用如自动驾驶、虚拟现实等提供更丰富、更准确的数据。NeuralLabeling的优势在...

2023-09-26 talkingdev

LayoutLM是一个擅长阅读商业文件的模型，现在它变得更聪明了。该模型通过两种新的训练方式进行改进，一种是帮助它理解复杂的布局，另一种是获取正确的数值。LayoutLM的出现，让我们可以更有效地处理和理解商业文件，...

2023-09-26 talkingdev

科研人员近日开发出一种名为PVLFF的新模型，这种模型能够观察3D场景，并不仅能识别其中的内容，还可以利用文本描述区分同一物体的不同实例。在现实世界中，同一物体可能有许多不同的实例，而这种模型能够通过文本描...

2023-09-26 talkingdev

最近，GitHub Repo上的一个新项目Odin引起了业界的广泛关注。Odin的主要功能是利用GPT-4技术从用户的数据中生成知识图谱。知识图谱是一种以图形方式表示知识的方法，能够帮助用户更好地理解数据，并从中提取有价值的...

2023-09-26 talkingdev

DeepEval是一个提供Pythonic方式进行离线评估的工具，专为LLM（语言模型）流水线设计。使用DeepEval，开发者能够在部署到生产环境之前，对其LLM流水线进行深度和全面的评估。这大大降低了生产环境中出现错误的风险，...

2023-09-26 talkingdev

这项研究提出了一种在被动摄像头中模拟主动立体感的方法，而无需使用物理图案投影仪。研究人员通过利用外部传感器的深度数据虚拟叠加图案，克服了传统设置的局限性。这种方法在各种数据集上都增强了立体算法和深度学...

2023-09-26 talkingdev

近日，Spotify推出一项由AI驱动的语音翻译功能，该功能能够利用原播客者的声音在其他语言中复制播客节目。这项技术依赖于OpenAI的Whisper进行转录，很可能用于声音复制，使得翻译能够保持播客者独特的声音。这一创新...