meta FAIR团队在最近的一篇论文中介绍了一种名为CRV的新方法,能够实时观察AI的思考过程。通过替换模型内部的MLP模块,研究者可以追踪每一步推理,并且这种现象是可量化的。这项技术让错误检测精度提升到92.47%,并首次让人们看到AI是如何出错的。

研究员Jackson Atkins在社交媒体上发布了一条推文,称meta的新技术可以让机器的思维“透明化”。这不仅意味着能看到模型在想什么,还能看到它在哪一步彻底“想错”。在论文中,CRV被比喻为一台“AI脑部X光机”,能追踪语言模型的每一次推理、记录每一条电流路径,甚至捕捉到思维崩溃的瞬间。当电路图从整洁的网状变成混乱的线团时,研究者第一次看到了AI思维崩溃的过程。

这项技术的核心在于将传统MLP模块替换为一种可解释的稀疏结构——Transcoder层。每个Transcoder都像一组带标签的神经元,能代表特定的语义特征,如加法、乘法等。这样,研究者就能在推理过程中看到哪些神经元被激活、何时点亮以及如何传递信息。这一过程被称为“X-Ray”,即为模型安装一层“透视皮肤”。

当模型执行推理时,系统会绘制一张归因图,节点代表被激活的特征,边表示它们之间的信息流动。这张图随推理动态变化,形成“思维轨迹”。当模型出错时,路径就会打结、分叉、环绕,像一条错乱的神经信号。研究者发现,这些图结构的特征可以用来预测模型是否即将犯错。例如,在算术推理实验中,关闭一个错误激活的乘法特征神经元后,模型立即修正了计算。



![人类马拉松首次跑进2小时 肯尼亚选手创造历史[热点]](http://www.wyjyhs.com/file/upload/202604/27/000023111.jpg)
![理想L9 Livis发布会功能展示“翻车” 新技术引发关注[热点]](http://www.wyjyhs.com/file/upload/202604/25/004543861.jpg)
![女子自称空姐机舱闹事致航班延误 乘客行程受阻损失惨重[热点]](http://www.wyjyhs.com/file/upload/202604/22/234216511.jpg)
![轿车撞飞2行人后掉头二次冲撞 肇事司机被控制[热点]](http://www.wyjyhs.com/file/upload/202604/22/234328731.jpg)