可解释性的相关内容 - 漫话开发者

2024-05-28 talkingdev

Anthropic发布新方法解读大型语言模型Claude Sonnet的内部运作

Anthropic的研究人员近日公布了一种解读其大型语言模型Claude Sonnet内部运作的新方法。他们通过绘制出数百万个与各种概念相对应的特征，成功解析了这个模型的内在机制。这一可解释性研究不仅有助于我们更好地理解AI...

2024-05-23 talkingdev

研究人员开发了一种名为Wav-KAN的神经网络框架，该框架采用小波函数来提升模型的可解释性和性能。与传统模型不同，Wav-KAN能够同时捕捉高频和低频数据成分，从而实现更快的训练速度和更高的稳健性。这一创新方法不仅...

2024-05-02 talkingdev

如今，多层感知器在人工智能领域得到了广泛的应用，包括在Transformer的关注层之间。然而，它们使用的是固定的激活函数。最新研究论文建议在边缘使用学习的激活函数，利用科尔莫戈洛夫-阿诺德表示法（函数可以由更简...

2024-03-13 talkingdev

OpenAI的超对齐团队开发了一款名为Transformer Debugger的工具，以支持对小型语言模型的特定行为进行调查。该工具将自动可解释性技术与稀疏自编码器相结合。

2024-03-13 talkingdev

Transformer Debugger是一种工具，它通过将自动可解释性技术与稀疏自动编码器相结合，支持对小型语言模型的特定行为进行调查。

2024-02-29 talkingdev

最近，研究人员开发了一种名为ShieldLM的安全检测器，可帮助大型语言模型遵守人类安全标准，并提供自定义检测和解释决策的功能。该工具可检测模型是否存在安全问题，例如对不同种族、性别或群体的人有偏见，或者可能...

2024-02-27 talkingdev

Anthropic的研究科学家一直在研究一种使用电路的理解深度神经网络的方法。这些电路旨在识别模型中用于特定任务的子部分。研究团队公布了他们尝试和结果的月度更新。通过使用电路，Anthropic的研究人员已经能够更好地...

2024-02-16 talkingdev

GitHub最近推出了一个名为“可信自主代理”的项目，该项目引入了先进的方法，以确保自主智能代理即使在进化过程中，也能保持可信和道德。该项目的目的是解决在生命相关应用程序中，这些代理对人类的安全和健康至关重要...