Lightning Whisper MLX是一款针对苹果硅芯片优化的Whisper语音识别算法的高速实现版本。它采用批量解码技术以提高吞吐量,运用蒸馏模型以加快解码速度,并引入量化模型以加速内存传输。相较于传统的Whisper CPP,Lig...
Read More谷歌宣布,即将推出的Pixel 8手机将在开发者预览版中集成Gemini Nano技术。这一技术的应用旨在增强手机内置应用的功能,特别是录音器中的'Summarize'摘要功能和Gboard键盘的'Smart Reply'智能回复功能。Gemini Nano...
Read More微软即将于3月21日公开展示Surface Pro 10和Surface Laptop 6,这两款电脑将配备最新的神经处理单元,可提升人工智能能力。这些电脑将由英特尔的第11代酷睿处理器提供动力,其内置的AI引擎可提供更快的AI处理速度和...
Read MoreVisual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。
Read MoreReddit已经与一家未透露姓名的大型AI公司签订了一份价值约6000万美元的许可协议,授权该公司可以访问Reddit大量的用户生成内容。Reddit表示,这项协议将帮助AI公司培训其算法,从而提高其在自然语言处理和语音识别等...
Read More近日,一项名为ZeroSwot的新方法被提出,通过独特的技术,成功突破了语音和文本之间的差异以及数据缺乏等难题,实现了提高语音翻译准确度的目标。具体来说,ZeroSwot通过使用语音识别数据训练语音编码器,然后将其与...
Read MorePhidata是一个使用函数调用构建AI助手的工具包。它不仅可以帮助开发者更快地构建AI助手,还可以通过模块化设计轻松扩展其功能。Phidata基于Python语言,支持各种功能,包括自然语言处理、语音识别和图像识别。它还提...
Read MoreLaxta是一个新的自然语言处理公司,为巴斯克语提供了一套新的语言模型。该模型使用了大约40亿个单词的语料库,并经过了特别调整,以更好地支持巴斯克语言。这种语言模型的使用可以提高文本生成、机器翻译、对话系统...
Read More近日,一项研究探讨了如何通过采用参数更少的微型语言模型,使得强大的语言模型更适合移动设备。研究人员发现,相较于传统的大型语言模型,微型语言模型在保证语言表达能力的前提下,可以极大地减少模型参数,从而显...
Read More近日,研究人员开发出了一种名为PAM的工具,它使用音频语言模型对音频质量进行评估,无需参考曲目或专业培训。PAM通过深度学习算法,将音频数据转化为分布式表示形式,并将其与质量分数进行关联。据研究人员介绍,PA...
Read More