intoext

我还以为大模型的训练语料早就覆盖了 zlib 或安娜档案这类的资料库了呢

  •  
  •   intoext · May 30 · 1397 views

    原来不是。 小米自己的回答是这样:

    1. 训练数据的来源构成 主流大模型的语料主要是:

    Common Crawl (互联网网页)—— 占大头 新闻、维基百科、Reddit 等网络文本 代码( GitHub 等)

    书籍只占一小部分,而且受版权法律限制,不能随意大规模使用

    Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集,但远不是"把整个图书馆都吃进去了"。

    图书出版商正在起诉 AI 公司,所以各大厂商在书籍数据上其实越来越谨慎。

    1. 模型不等于数据库——"压缩"而非"存储" 大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中,而不是原文存储。这意味着:

    热门书籍(如《哈利波特》《三体》):讨论量大,模型反复见过相关内容,确实能对答如流 冷门书籍(如一本 2005 年出版的日本推理小说):可能只是"见过"甚至"没见过",复述会出错甚至胡编 具体细节:即使是热门书,模型也很容易在页码、引用原文、小配角名字等细节上出错

    1. 一个实验你就可以做 随便从安娜的档案里找一本中等偏冷门的书(比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书),然后问大模型:

    "这本书的第 3 章主要讲了什么?" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来,要么一本正经地胡说八道。

    3 replies    2026-05-30 16:29:16 +08:00
    409164
        1
    409164  
       May 30
    感觉应该都喂过了吧,这不都是公开资料么
    LandCruiser
        2
    LandCruiser  
       May 30
    很正常啊,大模型只是预测下一个字的概率,既不智能也没有智慧,更加不是万能的。
    june4
        3
    june4  
       May 30
    怎么可能全包含,模型大小才多少,比这个档案小数量级倍,更别说还有别的数据要安排
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1057 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 23:11 · PVG 07:11 · LAX 16:11 · JFK 19:11
    ♥ Do have faith in what you're doing.