大模型引用内容的逻辑和传统搜索引擎完全不一样,这是所有做内容的人必须先搞清楚的第一件事。
传统搜索引擎是关键词匹配加链接投票,谁的关键词密度高、外链多,谁就排前面。大模型是先检索再生成,它找的不是"最相关的网页",而是"最适合拿来组织答案的信息片段"。
很多人还在用老一套SEO的方法做GEO,堆关键词、发外链、养老域名,结果做了半年发现AI根本不引用自己的内容,就是因为底层逻辑搞错了。
内容新鲜度是目前影响引用率的第一变量,三个月内更新的内容被引用的概率是一年以上内容的2.8倍。
这个数据是基于2000多个被主流大模型引用的页面分析出来的,比域名权重的影响还要大。很多老站内容几年不更新,哪怕域名权重再高,现在也很难被AI引用了。反过来,一些新站只要内容更新及时、信息准确,反而能快速获得AI的青睐。
这里要注意,不是说域名权重不重要,它还是占25%左右的权重,但已经不是决定性因素了。现在的情况是,一个DR60的老站如果内容一年没更新,引用率可能还不如一个DR30的新站每周更新一次。
语义越集中的内容片段,被召回和引用的概率越高。
有个实验很能说明问题,把同一主题的内容拆成两个片段,一个只讲"RAG召回阶段的向量检索逻辑",另一个同时讲RAG、SEO和大模型训练,结果第一个的召回率是89.2%,第二个只有23.7%。而且就算第二个被召回了,在重排序阶段的权重也会被大幅压低。
很多人写文章喜欢大而全,一篇文章讲十几个点,结果每个点都讲不透,AI根本不知道该提取哪部分。正确的做法是,一个页面只讲一个核心主题,一个段落只解决一个具体问题。
比如不要写"CRM系统全攻略",要写"B2B SaaS企业如何选择适合自己的CRM系统";不要写"咖啡机器推荐",要写"办公室用的全自动咖啡机哪个牌子好"。
结构化内容的引用率比纯段落文字高2.4倍,其中对比表格和FAQ模块的效果最好。
大模型特别喜欢提取列表、表格、加粗的结论和问答形式的内容,因为这些内容不需要再做二次加工,可以直接拿来组织答案。
有个实操案例,一个做咖啡机评测的网站,原来的文章全是大段文字,AI几乎不引用。后来他们把文章改成了"快速答案+参数对比表+分点评测+常见问题"的结构,只用了两周时间,AI引用率就提升了62%。
这里要特别说一下快速答案,44%的AI引用来自文章的前三分之一内容。所以写文章的时候,不要用"在当今竞争激烈的市场环境中..."这种冗长的铺垫开头,第一句话就直接给出核心结论。比如"办公室用的全自动咖啡机,预算5000元以内最推荐德龙的ECAM22.110.B,性价比最高"。这句话大概率会被AI直接引用。
大模型偏好第三方客观内容,品牌自吹自擂的内容引用率只有19.1%。
很多企业写内容的时候,通篇都是"我们的产品最好"、"我们的技术领先行业",这种内容AI根本不会引用。AI更愿意引用第三方的评测、用户的真实口碑、行业机构的报告。
所以正确的做法是,多做客观的对比分析,多引用权威数据,多展示真实的用户案例。比如不要写"我们的CRM系统是最好用的",要写"根据2026年SaaS行业报告,我们的CRM系统在中小企业用户满意度中排名第一,客户续费率达到92%"。
还有一个很重要的点,命名实体密度越高的内容,可信度评分越高。大模型会通过内容中出现的具体品牌名、产品名、人名、机构名来判断内容的实质性。泛泛而谈、没有具体指称的内容,会被认为是低质量内容。
现在很多大模型都有自己的专属爬虫,比如OpenAI的GPTBot、谷歌的Google-Extended、百度的ErnieBot。如果网站的robots.txt禁止了这些AI爬虫,那内容永远不会被AI引用。
很多人不知道这一点,还在用传统的robots.txt设置,只允许谷歌和百度的普通爬虫,结果把AI爬虫都挡在了外面。
还有一个新东西叫llms.txt,虽然还没有标准化,但已经被很多大模型支持了。它可以明确告诉AI爬虫,网站上哪些内容是希望被引用的,哪些是不希望被引用的。比如可以把产品介绍、解决方案、行业报告这些内容标记为可引用,把隐私政策、服务条款这些内容标记为不可引用。
另外,结构化数据标记(Schema)可以提升2.4倍的引用率,特别是FAQPage和Article类型的标记。AI可以通过这些标记快速识别内容的结构和类型,提高提取效率。
不同的大模型有不同的引用偏好,这个很多人不知道。
ChatGPT最偏好维基百科,占所有引用的7.8%;Perplexity和谷歌AI Overviews最偏好Reddit,分别占6.6%和2.2%;YouTube是所有平台中引用率最高的,占23.3%。
所以如果想在某个特定平台获得更多引用,就要针对性地做内容。比如想在Perplexity上被引用,就多在Reddit上发布专业内容;想在所有平台都有好的表现,就多做视频内容,因为YouTube的整体引用率最高。
还有一个有意思的现象,社交媒体上的规范、连续、实证化内容,也会被大模型大量引用。比如LinkedIn上的行业分析、X上的实时数据、知乎上的专业回答,这些内容现在都是大模型重要的信息来源。
很多人以为只要内容被大模型训练过,就会被引用。其实不是这样的。大模型的静态训练数据更新频率很低,通常是几个月甚至半年一次。而现在大部分AI回答都是基于实时检索的RAG机制生成的,不是基于静态训练数据。
所以就算你的内容被大模型训练过,如果没有被实时检索到,也不会被引用。这就是为什么内容新鲜度这么重要的原因。
还有一个误区,很多人认为AI会优先引用字数多的长文。其实不是,AI偏好的是信息密度适中、语义聚焦的内容,不是越长越好。高引用页面的平均字数是2000字左右,太短了信息不够,太长了语义会分散。
另外,AI不会引用需要登录才能查看的内容。所以如果网站把核心内容都放在登录墙后面,那AI根本抓取不到,更别说引用了。建议采用渐进式访问策略,基础认知、方法论、案例分享这些内容全部公开,深度模板、工具、数据这些内容可以部分公开。
现在还没有特别完善的AI引用监测工具,大部分都是第三方开发的。不过可以用一些简单的方法来测试,比如直接去各个大模型平台提问和自己内容相关的问题,看有没有被引用。
GEO优化是一个长期的过程,不是一蹴而就的。通常需要坚持30天左右的持续内容输出,才能在AI那里建立初步的权威认知。
而且大模型的算法一直在更新,引用规则也在不断变化。所以需要持续关注行业动态,不断调整优化策略。
现在AI搜索的流量占比还只有1.08%,但每个月都在以1%的速度增长,而且转化率是传统渠道的2倍。未来两到三年,AI搜索会成为最重要的流量来源之一。现在提前布局GEO优化的人,未来会获得巨大的先发优势。