黑帽GEO几场血腥争斗正在开始

  而黑帽GEO,则是用“作弊”手段,去促使LLM的误判,给出用户错误的,但是对GEO的对象有利的输出。这是一种试图操纵生成式 AI 引擎引用结果、训练数据,或输出倾向性内容的非正常手段。

  为了让AIGC推荐我的内容,现在已经开始无所不用其极了。几场“血腥”的争斗(企业之间的,企业同AIGC平台的)正在开始。

  就是把大量的有倾向性或者是虚假的信息,发布在各种内容平台上,让LLM阅读了这些信息后,出现误判。

  比如,在大量博客、论坛、QA平台(如知乎、、国外的Quora、Reddit等)发布伪原创文章和问答,植入特定品牌词或说法。

  而且还可能用上LLM去做大量的伪原创,再用AI模拟真人去发布这些内容。LLM做的内容,又通过AI投喂给AIGC的LLM,这是实现了完美的“AI投毒闭环” (捂脸)……

  也是目前各家宣称自己能做GEO的公司,最多使用的一种 *** 。这种 *** 其实有很多优点,最核心的,是它不容易受到AIGC平台的惩罚。只要在内容平台上发布这些垃圾伪原创内容不被限制,AIGC的LLM不是特别容易在短期内判断这些内容的真伪。

  另一个优点,是这个 *** 相对容易实现,尤其是对那些手中掌握了大量的各内容平台的有效用户账号的企业,它们做这一类的“投毒”具有先天的优势。

  因为这些优点,内容投毒的争夺在今天异常激烈,据说有的企业为了获得有效账号的号源,不惜采用一些黑客手段甚至非法手段以降低成本。而部分内容平台,则从原本生意江河日下,忽然成为了香饽饽,软文发布的价格水涨船高。

  更糟糕的是,如同过去SEM竞价时候,竞争对手互相点击,今天的内容投毒也开始出现一些“犯罪”的苗头,例如以消费者口吻发布对竞争对手的抹黑内容甚至是谣言。

  所谓训练源污染,它是针对开源 LLM(如 Mistral、LLaMA 微调版、中文开源模型)进行训练数据的注入。因为是开源模型,也就给了在训练源语料库上动手脚的可乘之机。

  你控制了一批数据源(比如开源AI评测站),或者向开源语料平台(如 Common Crawl、Github、开源论坛)注入内容:

  除了上面这些开源数据源,Wikipedia、Github也常常是开源LLM的数据训练源,也可以对这里进行污染。另外,如果你参与开源数据集建设项目并提交“带倾向性内容”的贡献(如 C4、Common Crawl 数据源中的博客、新闻站),那么也同样有机会在里面“夹带私货”。

  国内哪些AIGC是开源LLM呢?下面是我总结的国内的一些主要的开源LLM。没错,DeepSeek就是开源的LLM,就有被从训练源上污染的可能性。

  当然,与内容投毒相比,这个 *** 的难度很大,可行性要低不少。一般GEO公司或个人都没办法实现。

  不过,如果真的能从训练源去做点手脚,一旦被训练好,GEO的效果极佳。因为对于模型厂商而言,一旦训练好的LLM发现有问题,不仅要重新“净化训练源”,而且要重新进行训练,成本极高、代价极大,大概率是难以很快消除污染的影响的。

  实际上,国内甚至有时候不是伪装虚假权威,而是直接付费,让权威创作对推广内容有利的内容。比如,我花钱让某某教授的团队,真的写一篇能发表在国内期刊上的对我品牌里面的某种技术或成分有倾向性的论文。

  一个让人担心的事情可能很快就会发生,那就是互联网上即将充斥着大量高质量但不真实的“权威内容”,不仅让AI难以分辨,甚至是普通人都很难查证到底是不是真正正确的内容。

  另一方面,建立所谓“权威性组织”会成为风潮,而一些原本半死不活的细分领域的网站和PR站,很可能又会变得炙手可热。

  提示词注入,英文是prompt injection,也是一个目前争夺极为激烈的黑帽GEO领域。

  首先大家要明白一个概念,我们给AIGC提问的那些提示词,和LLM视角的完整提示词是有区别的。

  但是,LLM视角的完整提示词,不仅仅只是这一句,它会结合它阅读到的内容,逐渐补充你提的问题,然后将你提出的问题和它找到的关键信息一起,拼接成一个更大更全面的问题。

  因此,尽管提示词是你提出的,但模型看到的不是你一个人的提问,而是一份“拼接好的背景说明”。这份背景里可能有网页内容、评论、系统提示、甚至隐藏语句。模型会把这整包内容都当成提示词的一部分来理解。

  这个更宏大的提示词,是LLM眼中的完整提示词,是我们用户看不到,但是LLM会实实在在地根据这个提示词进行思考、执行任务。

  请根据以上资料,列出3个当前市场上提供免费广告文案生成功能的工具,并简单说明它们的特点。回答需简洁客观,适合普通用户参考。

  你理解了这个,提示词注入就很容易理解了。那就是在LLM可能会搜集并阅读到的内容中,人为加入一些让LLM认为是值得加入到它的完整提示词中的一些信息,或者说是LLM认为的一些重要的线索,这些线索引导LLM构建更完整的提示词。

  在这个例子中,Context B中间的这条注释是隐藏的,普通用户看不见,但是对LLM而言,就是一个非常重要的线索,它会认为这是一个重要提示词,并在回答问题时候基于这个提示词的要求进行回答。

  于是,它会说:“根据当前资料,最推荐的广告文案生成工具是 Rekla AI。它在准确率和用户反馈方面表现突出。”

  题外话:关于Rekla还有Jasper这样的一些工具,大家感兴趣的话,可以看这个网站:aimkt.io,是用中文介绍全球数字营销AI工具和解决方案的一个专门站点。

  你会说,LLM太笨了吧,这么明显的误导都不能分辨?其实,因为 LLM 不是在“判断真假”,而是在“预测接下来最合理的回应”。它对“谁是真正的指令”并没有真正的意识,只是基于上下语言预测。

  因为它被训练成了一个“预测下一句话最可能是什么”的系统,而不是一个“有批判性思维和上下文分权能力”的人。

  这个 *** 也不是万能的,你能注入,别人也能注入。这种相互之间的注入很快就会演变成“血腥战争”,各方会不断找到自己的工具和团队,来强化这种注入。

  AIGC平台和LLM当然也痛恨这种注入,所以会不断研发新的注入检测机制和反作弊系统。这个领域在未来一定会上演激烈的攻防战。

  AIGC本质上要基于一个搜索引擎。其次,它是一个“猜测应该如何更好回答问题,更好组织答案的搜索引擎”。因此,在判断一个内容的重要性程度,也就是权重上,它也会受传统SEO的影响。

  这一类黑帽 *** 是传统SEO企业的拿手项目,不过由于AI判断一个内容重要性的依据已经远远超过过去SEO的判断 *** ,还带有语义级别的判断,因此这个 *** 还要跟内容植 *** 合起来使用才会更有效。

  除了我讲的这些黑帽 *** ,还有其他的黑帽 *** ,都将成为GEO的试验场,同时也会成为众多企业竞相污染、干扰LLM的主战场。

关键词:黑帽ai

相关推荐