微博数据抓取，是场“鱿鱼游戏”？AI工具该如何应对？

2025-10-22 08:55:52 作者：Vali编辑部

最近微博智搜的「隐身」功能让不少用户感到焦虑。不少人在社交媒体上费尽心思隐藏内容，结果却被平台算法无情曝光。有用户发现，自己设置为「仅好友圈可见」或者「仅半年可见」的博文，居然出现在智搜的推荐结果里。这种「隐身」功能的失效，让不少用户直呼「被扫射」。

为了应对这个问题，用户开始尝试各种方法。有人翻出老办法，比如在微博里新建文件夹，或者使用「防搜词」。但这些传统手段在AI智搜面前显得力不从心。毕竟现在的内容推荐已经不是简单的关键词匹配，而是基于大模型的深度理解。

有用户尝试用法律声明来阻止内容被收录。他们发布声明，表示自己的微博内容不授权平台进行人工智能处理，包括机器学习、数据分析、自动生成摘要等。但这段声明的实际效果却让人失望。因为大语言模型在训练时，主要把网页和文本当作数据源，不会自动理解这段文字是命令。

不少用户发现，这段声明反而成了模型训练的语料。就像UCLA的研究指出的，大模型在处理句子主语时存在缺陷，对句子里的主语不敏感。所以即使声明里有法律术语和抗议措辞，模型也不会主动识别并跳过内容。这种「吃进所有语料」的特性，让声明变成了被模型「学到」的参考样本。

用户们开始意识到，AI时代的「被遗忘权」并不像想象中容易实现。虽然欧盟在2014年就通过了「被遗忘权」的司法判决，但实际操作中，平台往往不会主动识别用户的自主声明。再加上监管力度有限，很多用户只能在平台上「长点心」。

不过，事情并没有完全陷入僵局。经过一周的舆情发酵，微博终于回应称，技术会不断迭代，不会收录用户设置为不公开的内容。这让不少用户看到了希望。他们希望在互联网上，能有一块「被忘记」的净土。

「被遗忘权」并不是什么空想，而是有法律依据的。1995年欧盟首次提出个人数据保护框架，为隐私权打下基础。2014年西班牙公民马里奥·冈萨雷斯的案例，让「被遗忘权」成为法律条文。2018年GDPR正式提出这一概念，让个人有权要求删除不相关的个人信息。

国内虽然尚未正式提出「被遗忘权」，但《个人信息保护法》已经规定了个人对信息删除的请求权。这和「被遗忘权」理念相似，但执行力度还有待加强。现在用户发现，即使删除微博，用百度搜索仍能查到内容，这让不少用户感到无奈。

在AI时代，「被遗忘」成了一种奢望。大模型对数据的收集方式就像饥不择食，照单全收。就像用户发布声明，不仅不会阻止模型行动，反而会被反向纳入语料库，成为模型「学习」的参考样本。

这种数据同化现象在模型训练中很常见。大模型不语，只一味吃进所有语料。说来也讽刺，现在的技术可以做到很多事，却不能保证用户的内容能被真正删除。哪怕有，也是以一种玉石俱焚的方式。

在互联网上留痕，就像在木板上打进一颗钉子。就算哪天钉子拔除，还是会留下一个洞，昭示着钉子曾经的存在。这种痕迹在AI时代更加明显，因为模型能从各种数据中提取信息，构建出完整的用户画像。

用户们开始思考，是否应该在发布内容时更加谨慎。毕竟在AI算法的推荐下，一个简单的学号，可能成为定位用户的关键信息。从学校到工作，每一个阶段都会留下痕迹，这些痕迹像影子一样紧跟着用户。

AI技术的发展让「被遗忘」变得困难，但也让用户更加重视隐私保护。如何在享受便利的同时，守住个人隐私，成为每个用户需要思考的问题。这不仅是技术问题，更是社会对数据权利的认知问题。

未来，随着技术的不断进步，「被遗忘权」可能会有更完善的实现方式。但目前，用户只能通过各种手段，在AI算法的洪流中寻找一丝「被遗忘」的希望。这或许就是科技时代，留给用户的最后一道防线。