• 请不要在回答技术问题时复制粘贴 AI 生成的内容
DongDongXie
V2EX  ›  程序员

怎么把一个大数据集切出一小部分来做实验

  •  
  •   DongDongXie · Jan 10, 2018 · 2483 views
    This topic created in 3070 days ago, the information mentioned may be changed or developed.

    RT。 Yelp 官网上面那个数据及太大了,信息比较全,要是全加载的话,机器会卡死,那么怎么样从里面取一小部分数据出来做实验啊,请问怎么做比较靠谱。

    4 replies    2018-01-10 18:46:20 +08:00
    PythonAnswer
        1
    PythonAnswer  
       Jan 10, 2018 via Android
    头 1000 条尾 1000 条
    wayne1027
        2
    wayne1027  
       Jan 10, 2018
    随机 100 万
    Morriaty
        3
    Morriaty  
       Jan 10, 2018
    如果是和数据分布无关的操作,就随机抽呗,比如 Python 就是 generator 每隔一万行 yield 一个。

    如果是和数据分布有关,比如 1T 文件的排序,那你要有采样的过程。
    likuku
        4
    likuku  
       Jan 10, 2018
    head -n XXXX src.data.txt >> test.data.txt
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   894 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 22:21 · PVG 06:21 · LAX 15:21 · JFK 18:21
    ♥ Do have faith in what you're doing.