很多人觉得官网内容完整、关键词布局到位、收录正常,AI大模型就会自动抓取并引用核心信息。2025年上半年国内第三方机构的统计数据显示,建站超过5年、内容更新稳定、百度谷歌收录量过万、传统SEO排名前3的企业官网,在主流生成式搜索引擎的核心信息引用率不足3%。
制造业官网的核心信息引用率最低,不到0.5%。 有的企业花了60多万找顶级的建站公司做了响应式官网,内容团队从3个人扩充到8个人,每周更新10篇原创内容,半年时间传统SEO自然流量涨了42%,但AI搜索带来的精准咨询量一个月不到5个,还不如一条小红书笔记带来的多。
传统搜索引擎的爬虫是沿着链接一页一页爬,只要有链接就能抓到内容。大模型的爬虫不是这样的,它是先判断这个网站有没有值得抓取的信息,然后再决定要不要深入爬取内页。如果首页没有把最核心的信息完整、清晰地呈现出来,大模型爬完首页就走了,根本不会碰内页。
很多人会把产品的核心技术优势拆成好几篇文章分别发布,以为这样能增加收录量,提高排名。实际上大模型根本不会把分散在不同页面的信息整合到一起,它只会抓取单页内完整呈现的信息,如果核心信息被拆分到3个以上的页面,大模型会直接判定这条信息不完整,不会在回答里引用。
大模型的可信源优先级排序里,普通企业官网的排名甚至低于个人博客和论坛帖子。 这个是很多人不知道的,也是最让人无奈的地方。同样一条信息,只要在知乎、小红书上有超过3个账号发布过,哪怕内容是错的,大模型也会优先引用这些平台的内容,而不会去引用官网的正确信息。
有一家做工业机器人的企业,官网里有非常详细的产品负载参数、运动精度、安装调试流程,所有内容都是研发工程师亲自撰写的,没有任何错误。但用户在AI搜索里问某款机器人的最大负载是多少,大模型输出的是30公斤,而官网里明确标注的是50公斤。这个错误信息来自于2023年某自媒体的一篇测评文章,后来被几十家网站转载,大模型就把这个错误信息当成了标准答案。
很多人以为加了schema标记就能解决问题,把产品参数、价格、联系方式都加上了对应的结构化标记。实际上大部分大模型根本不识别传统的SEO schema标记,尤其是自定义的schema。就算识别了,也只是把它当成普通的文本内容处理,不会提高这条信息的引用优先级。
还有人把核心信息放在PDF说明书里,在官网提供下载链接。大模型现在对PDF内容的提取准确率虽然已经提高到了85%左右,但PDF内容的抓取优先级远低于纯文本内容。而且如果PDF里的内容没有做文本分层,或者有大量的图片和表格,大模型根本不会把它当成可信的核心信息来源,最多只会在回答的末尾提一句“详细信息可以参考官网说明书”。
很多人会去提交官网的sitemap给生成式搜索引擎,以为这样就能加快抓取速度。实际上大部分生成式搜索引擎的sitemap提交入口只是个摆设,提交了之后3到6个月都不会有动静。就算抓取了,也只是抓取首页和几个主要的栏目页,不会深入抓取产品详情页和技术文档页的核心信息。
还有人会去刷AI搜索的点击量,以为这样能提高官网在大模型里的权重。大模型的排序逻辑和传统搜索引擎完全不一样,点击量、停留时间这些传统的权重因子,对大模型的引用优先级几乎没有影响。 刷多了反而会被大模型判定为垃圾信息,直接屏蔽整个网站的内容。
大模型的训练数据更新周期很长,目前国内主流大模型的基础训练数据大部分截止到2024年底。2025年之后更新的官网内容,大部分都没有被纳入基础训练数据,只能通过实时抓取来获取。而实时抓取的内容,优先级远低于基础训练数据里的内容,就算被抓取到了,也很难在回答里被优先引用。
大模型会对抓取到的信息进行二次加工和整合,如果同一条信息有多个不同的版本,大模型会采用多数原则,也就是哪个版本被引用的次数最多,就输出哪个版本。 哪怕官网的版本是最准确、最权威的,只要传播的范围不够广,被引用的次数不够多,大模型就不会采用。
很多企业会去生成式搜索引擎里搜索自己的品牌名,发现能搜到自己的官网链接,就以为大模型已经抓取了所有内容。实际上这只是大模型抓取了首页的标题和简介,内页的核心产品、技术、服务信息,90%以上都没有被抓取,更不会被引用。
有的企业官网里有最新的产品注册证信息、资质认证信息,但大模型输出的还是三年前的旧信息。就是因为旧信息被很多第三方平台转载了,传播范围很广,而新信息只有官网有,大模型根本没抓取到,就算抓取到了,也会因为多数原则而选择旧信息。
大模型不会像传统搜索引擎那样给用户一个明确的链接跳转,它只会在回答里偶尔提到信息来源,很多时候甚至连来源都不提。这也是很多企业容易忽略的一点,AI搜索带来的流量几乎都是无来源的,无法通过传统的流量统计工具监测到。 很多时候大模型已经引用了官网的内容,但企业根本不知道,也无法追踪转化效果。
很多GEO从业者现在最头疼的就是这个问题,客户拿着传统SEO的报表说,我官网收录这么多,排名这么好,为什么AI搜索里找不到我的信息,为什么大模型说的都是错的。很多时候根本不是官网内容的问题,也不是运营的问题,就是大模型的抓取和引用逻辑和之前完全不一样了,之前积累了十几年的所有SEO经验,在AI搜索里几乎都没用。
大模型不会抓取官网里的动态内容,比如用JavaScript渲染的产品参数、价格、库存信息。就算这些内容在浏览器里能正常显示,大模型的爬虫也看不到。很多企业的官网用了最新的前端框架,所有内容都是动态渲染的,看起来非常美观,但在大模型眼里就是一个空白页面,什么内容都抓不到。
如果官网之前有过违规内容,或者被传统搜索引擎惩罚过,就算后来彻底整改了,大模型也会在很长一段时间里降低这个网站的引用优先级,甚至直接屏蔽整个网站的内容。这个惩罚期通常是1到2年,没有任何提前解除的办法。
很多人以为只要把官网内容写得足够详细、足够专业,大模型就会优先引用。实际上大模型更喜欢简短、直白、结构化的信息,太长的段落、太复杂的专业术语,都会降低大模型的提取准确率和引用意愿。有的官网把产品介绍写得像学术论文一样,非常专业,但大模型根本看不懂,也不会引用。
什么时候企业官网才能真正成为生成式搜索引擎的核心可信源,什么时候大模型才能真正做到优先引用最准确、最权威的信息,而不是引用传播最广的信息,这是整个行业现在都在思考的问题。