• 请不要在回答技术问题时复制粘贴 AI 生成的内容
hotsun168
V2EX  ›  程序员

折腾 NAS 丢失大量珍贵数据后有感

  •  5
     
  •   hotsun168 · Aug 20, 2020 · 41960 views
    This topic created in 2118 days ago, the information mentioned may be changed or developed.

    背景

    1. 第一版 NAS 已用 5 年,为占美无风扇工控机、一块 WD60EFRX 、优越者 Y-3359R 进行 DIY,稳定时千兆可跑满。

    2. 为了顺便当做远程桌面,没有使用黑群晖或 Linux,使用了 Win7 系统。Samba 服务经常无故卡死,遇到网络无法连接、0x00000000XX 等类似错误或“服务器存储空间不足无法处理此命令”等错误无数次,每次基本都需要重启。花了无数时间来解决这些问题,无果。一直在忍受,后续甚至写了脚本做定时重启。

    3. 第二版(在用)为群晖 DS920+、一块 WD140EMFZ,以及上面的 6T,买之前提前了解了很久 RAID5 是否安全,后选择 SHR 。

    灾难

    1. 因计划把 6T 和 14T 硬盘都放入群晖,但硬盘插入群晖会被格式化,所以 14T 硬盘到货当天,用外接硬盘座接入 14T 硬盘,在 Win7 下进行 6T 到 14T 文件全量复制,期间报错无数,推测可能是 6T 磁盘长时间运行导致文件分配表错误。搜索相关资料提示 chkdsk 修复 NTFS 分区。

    2. [重点] chkdsk 完毕后,6T 硬盘中大量资料丢失(超过 80%),其中包括各种重要文件,尝试 DiskGenius 修复未果(不光是无法找回文件分配表,而且连 RAW 数据都无法找回)。

    3. 不幸中的万幸,其中少部分文件在各个网盘有备份,另一部分几年前有刻盘备份,但其中一些珍贵的资料再也无法找回(包括结婚视频、小孩照片、老光盘 ISO 等个人产生文件,与老游戏、各种收藏的视频等网络下载资源)。

    4. 花费几天时间在各种平台搜索网络下载资源,因年份久远,几乎全部失效,近似于无法找回。

    现状与未来

    1. 计划在过一段时间之后再买一块 14T,尽可能避开同批次,2 块盘开 SHR 。

    2. 每隔一段时间继续买 14T,加到 4 块,开 SHR2 。

    教训与体会

    1. 任何情况下大量数据复制尽可能先备份,或者使用专门的工具进行,谨慎进行 chkdsk 等硬盘修复措施。不要因为是程序员身份就各种放心大胆地操作,稍有不慎就会产生非常严重的后果。

    2. 脑子要清楚,选择方案要合理可行。其实可以选择先把 6T 使用 Ghost 备份一份到 14T 硬盘,再进行数据复制,反正空间足够。

    3. 重要资料放在 NAS 一定要开 RAID,硬盘少就用 RAID1,硬盘多可考虑 RAID5 、RAID6 或者群晖的 SHR 或 SHR2,其中尽可能选择允许 2 块盘故障时可恢复的方案。同时使用多份备份,网盘、冷备、刻盘等。

    4. 网络下载资料可考虑使用脚本生成 ed2k 链接,文件丢失后可以重新下载,或使用网盘快速离线。

    5. 从 2015 年第一版 NAS 到今年买群晖中间的 5 年里,硬盘柜里一直只有一块硬盘,最开始选择的 5 盘位硬盘柜产生了严重的浪费。感慨自己想得太多,有美好的愿望但却一直没有落实,又感叹运气太好,这 5 年中唯一的一块硬盘居然没坏。

    6. 第一版 NAS 使用的这 5 年中,是人生大事接连不断的几年,根本存不下钱,更别提这种大额投入了。所以钱真的可以解决绝大部分问题。如果有钱,最开始我就买群晖并放满硬盘,开各种灾备,就可以避免这种大量数据搬运,数据丢失的概率会大大降低。

    7. 只有栽跟头才能让人积累经验,只有疼痛才能让记忆更深。不舍得投入成本保护数据,还是因为数据对你不够重要。

    Supplement 1  ·  Aug 20, 2020
    8. 漏了一点,为避免突然断电损坏硬盘,尽可能上 UPS 。目前家中所有的有硬盘设备都接在 UPS 后面,包括群晖,而且 UPS 切换电池模式后会通知群晖转到安全模式,也算是进一步降低意外损坏的风险。
    Supplement 2  ·  Aug 21, 2020
    这贴居然超过 100 条回复,非常感谢大家!
    针对大家提出的方案,我会再进行详细的考虑与设计,感谢真诚提出见解或建议的每位同学。
    154 replies    2021-09-26 15:12:08 +08:00
    1  2  
    ftu
        101
    ftu  
       Aug 20, 2020 via iPhone   ❤️ 1
    多地备份也很重要,一觉醒来洪水淹了家,几块盘都没用
    acthtml
        102
    acthtml  
       Aug 20, 2020
    网盘不是能满足你要求吗?
    Dachunlv
        103
    Dachunlv  
       Aug 20, 2020 via iPhone
    相比自己折腾,我更相信 iCloud 、Dropbox 、Google Driver 这类大公司的云盘,尽管也不是 100%安全可靠,但是是目前已知的相对最安全可靠的了
    Myprincess
        104
    Myprincess  
       Aug 20, 2020
    没我惨吧。我是硬盘搞挂掉,所有资料没备份,淘宝花了 600 块没解决,再花 2300 块送到广州,把文件取了出来。但是损坏严重,至少有 3 分之 2 能找回来,但是,过了一段时间,那些视频与照片居然再次损坏。全部只能显示一半,而之前恢复后的照片与视频 我看了,还可以用。现在不能用,前几天又删除了好多 G 。
    whitegerry
        105
    whitegerry  
       Aug 21, 2020
    重要数据 nas 用了 4 块盘,一个主硬盘,其他三个硬盘分别按不同频率 rsync,另外还存一份到 b2 。
    nuk
        106
    nuk  
       Aug 21, 2020
    没有 NAS 之前我都存 google photo,反正无限容量,而且清晰度也够了,能看总比丢了好。
    有了 NAS 后我还放 google photo,反正不花钱。。。
    wclebb
        107
    wclebb  
       Aug 21, 2020
    看完你的之后,我决定 双十一 有优惠价直接购入 220+
    不等了。
    lslqtz
        108
    lslqtz  
       Aug 21, 2020
    我的看法是可以考虑备份到两块 raid1 的硬盘上,备份间隔设置长一点,不备份时不上电
    这样应该能大幅降低同时损坏几率
    yukinagato
        109
    yukinagato  
       Aug 21, 2020
    @manzhiyong 哭了,一块 2.5 一块 3.5,平放在桌面上,2.5 41 摄氏度,3.5 46℃
    kytcpip
        110
    kytcpip  
       Aug 21, 2020 via iPhone
    老司机搞久了都 raid 1 的,raid 5 恢复几天报错才叫一个惨。恢复途中另一块挂了数据全无的也有。

    有机会搞两个 NAS 冷热数据分离也好
    FarAhead
        111
    FarAhead  
       Aug 21, 2020
    raid0 一时爽,一直 raid 0 一直爽
    datocp
        112
    datocp  
       Aug 21, 2020 via Android
    硬件 raid 的功能还是不懂,以后还是考虑 windows 的存储池镜像功能。知道公司跑了 9 年只能断电的服务器是什么系统吗,freebsd 8.2 zfs 安装在一块希捷银河企业盘。扫盘表面看似全部好的,smart 倒是已经黄色警告。
    以后要是我,我还是尽量考虑重要数据备两份或者异地多备。至于 windows 存储池还是 zfs,哈哈我就是在不清楚 zfs create 的情况下清零了公司的一个业务系统,清空了这台进行了 9 年的服务器。当场心脏狂跳,幸好之前有所备份。最后用 Ubuntu 系统重建了这套系统。
    在不了解存储池,zfs 系统的情况,我宁愿用最简单的 c 盘备份到 d 盘。。。
    processzzp
        113
    processzzp  
       Aug 21, 2020 via iPhone
    @superszy 你这个操作很机智,要是重建大概率在重建过程中再坏一块,然后你的数据就和你说再见了。
    IssacTomatoTan
        114
    IssacTomatoTan  
       Aug 21, 2020 via Android   ❤️ 1
    有没有觉得这些历史都删除了 人也轻松了点
    ungrown
        115
    ungrown  
       Aug 21, 2020
    真正珍贵的数据永远只有一小部分,尽心尽力保住这一小部分,其他的几个 TB 都可以做一个深呼吸然后忘掉。
    数据按照珍惜程度、重获取的难度个两三级,最重要的一小部分按照上面的方式照顾,中间等级的定期选出一部分分卷压缩扔网盘上或者刻蓝光作为“凉备份”或者“半冷备份”,最不重要的可以看心情复制一份。这样分级管理不仅可以将灾难损失降得足够低,而且因材施措减少经理时间人力支出,此外这里面很多工作可以脚本化程序化实现全自动或者半自动。
    ungrown
        116
    ungrown  
       Aug 21, 2020
    @supereater 我也有网盘做冷备份,本地分卷打包再上传即可。
    至于如何区分哪些已经上传过哪些没有,我用的工具 dar 具备记录导出备份中所包含的文件并在后续备份中使用就备份中的记录作为增量参考的功能。
    sampeng
        117
    sampeng  
       Aug 21, 2020 via iPhone
    我是白群晖。关键数据 b2 一份,百度网盘加密一份,ondrive 一份,再组了个 nas 机箱 3 块硬盘不组 raid 。放在 100 公里以外的丈人家。早中晚各备份一次。不想刻盘…这种架构只能世界毁灭了才会丢吧。所以群晖里直接 raid5 跑起…
    7654
        118
    7654  
       Aug 21, 2020
    楼主对 NAS 中的软 raid 迷之自信啊
    我自己选择的方案是 4 盘位,不组 raid,重要文件夹开启备份,一份文件,3 个 copy,备份时间有立刻备份,定时备份
    硬盘希捷酷狼,分批次买的
    tankren
        119
    tankren  
       Aug 21, 2020 via Android
    @sampeng 老哥都搞上灾备了阿 佩服佩服
    ybbswc
        120
    ybbswc  
       Aug 21, 2020
    重要文件 dropbox 、OneDrive 都会存储。
    本地的话,更多的是一些视频等。
    ragnaroks
        121
    ragnaroks  
       Aug 21, 2020
    软 raid 必须 10
    han3sui
        122
    han3sui  
       Aug 21, 2020
    本地 Win10 存储池镜像模式,重要文件放一份 OneDrive,代码 Github 私有库
    hotsun168
        123
    hotsun168  
    OP
       Aug 21, 2020
    @wenwen226400 感谢。先去了解一下。
    @NetCobra 我不知道硬盘座是否是原因之一,但这个东西已经用了很久了,之前一直是接在下载宝上的。没出过问题。
    @Archeb 宽带的上行带宽不太够。
    @tankren OMV 真的稳定吗?我装了不下 5 次,几乎每次都是无故无法开机,只能重装。
    @ryd994 感谢。具体方案我还会再考量一下。
    @hanqi7012 在 6T 中直接双击打开文件是可以的,我试了几个文件都是如此,我也很困惑。
    @henryshen233 所以主贴中我说只有疼痛才能让人记忆深刻。
    evilic
        124
    evilic  
       Aug 21, 2020   ❤️ 1
    绝对不在 nas 上使用 raid 的路过。

    现状:4 盘位低端 nas,其中 2 个盘是主力,一个是个人数据,一个是下载数据。另外 2 个盘用来错开时间进行定时备份个人数据,下载数据无备份。

    未来的计划是单独再买一个 2 盘位的高性能 nas 用来把个人数据拉出去,依然不 raid,备份到本地 nas 上一份,并进行跨 nas 的远程备份,通过公网备份到 4 盘位上来。这样可以把低端 nas 上的下载数据分区变的更大些。

    之所以这样计划,是因为我发现数据中很多都是下载数据,核心的个人数据其实挺少的,而且冷数据多。当前无异地备份,只有同步到了 onedrive,阿里 oss,百度云上去了一部分。
    不做 raid 是因为一旦有硬盘出现损坏,恢复 raid 数据的过程,就是新一轮损坏硬盘的过程。还不如直接粗暴备份来的干脆。如果主硬盘坏了,直接把备份的那块盘切到主要就行了,同时再插上一块新的硬盘,当做补充上来的备份目的地。

    上一次我硬盘报损坏的时候,我这样的操作过程至少没有导致我的数据损失。即使这样简单的操作,我插上新硬盘后开启备份功能,还花了我 2 、3 天的时间。
    lipcao
        125
    lipcao  
       Aug 21, 2020
    @nuk google photo 不是也是 google drive 的么?我看到我的不是无限的啊 你的咋搞的啊
    qwerthhusn
        126
    qwerthhusn  
       Aug 21, 2020
    大家有多少非常重要的数据?
    samaxu
        127
    samaxu  
       Aug 21, 2020
    个人见解:
    1 raid 不是为了备份,而是为了高可用,所以不适合个人,更适合企业,但 raid1 拿来备份还是可以的
    2 raid 阵列硬盘坏了要做的是拷贝出数据而不是修复阵列


    目前使用
    8 盘位 nas,unraid,虚拟黑群晖直通 2 盘 raid1 并做网盘备份
    raptor
        128
    raptor  
       Aug 21, 2020
    不要用 RAID5,至少要 RAID6,RAID1 更好。

    重要数据定期离线备份。

    定期检查硬盘。

    不重要的数据丢了就丢了,反正以后很可能也不会再去用,心态要平和。
    yytbob
        129
    yytbob  
       Aug 21, 2020
    碰巧刚刚这周也坏了一块硬盘,和楼主一样也是正好用了 5 年,握爪。感觉新硬盘好贵,唯一比楼主幸运的是数据没有丢。几个建议:

    [硬盘容量] 楼主似乎喜欢选择市场上容量偏大的单硬盘,如果用差不多的钱买 2 块容量略小的硬盘(比如 2 块 8T 硬盘)组成 RAID 是否安全性更高?另,不一定要上企业盘或者 NAS 专用盘,硬盘高端产品线和低端产品线的差距没有它们的价格那么大。买最便宜的盘组 RAID 本身就是天经地义,毕竟 RAID 中的 I 就是 inexpensive 廉价,WD Green 绿盘组软 RAID 5 也好过单盘裸奔。

    [损坏时间] 6T 硬盘应该是之前就出问题了,chkdsk 和数据拷贝只是最后一根稻草。推荐定期检查磁盘健康情况。我这周的情况是 CrystalDiskInfo 最先警告 C5 、C6,然后尝试 WD LifeGuard Diagnostics 工具的 Quick Test 也报错,于是立刻备份数据。此时 RAID 依然没有降级,chkdsk /x 也完全无错。备份好没多久这硬盘就彻底挂了,连盘都不认。

    [RAID vs. 异地冷备] RAID 不能替代异地冷备,RAID 可以保证硬件高可用性,但是不防人为误操作。切记。
    106npo
        130
    106npo  
       Aug 21, 2020 via Android
    个人用就 raid 的,另行做备份
    106npo
        131
    106npo  
       Aug 21, 2020 via Android
    @xmumiffy 写错 是别上
    whenwind
        132
    whenwind  
       Aug 21, 2020
    丢过一次几个月的照片,如果不是早一段时间拷过一次进 u 盘,可能得丢 1 年的,于是,现在的配置就是一个白群双盘 raid1,一个星际蜗牛每天定时开机 HyperBackup 同步白群再关机,一台 nuc 在线 bittorrent sync 同步白裙的关键数据
    nuk
        133
    nuk  
       Aug 21, 2020
    @lipcao 不选原图就是无限容量啊
    ranxy
        134
    ranxy  
       Aug 21, 2020 via iPhone
    可以一步到位上 ceph
    tankren
        135
    tankren  
       Aug 21, 2020
    @hotsun168 #123 OMV 怎么就不稳定呢 这个国内外都算是很知名的 Linux NAS 系统了 我用了五六年了 没出过毛病 倒是尝试过黑群晖 升级了一次就死给我看
    aeli
        136
    aeli  
       Aug 21, 2020
    1 块硬盘?讲数据安全?
    lipcao
        137
    lipcao  
       Aug 21, 2020
    @nuk 哈哈 看到了
    menghan
        138
    menghan  
       Aug 21, 2020   ❤️ 1
    我觉得有两个问题 lz 没有想到,我提一下。

    1. 大部分 IT 故障都是在引入变更时发生的,lz 的情况也是。
    只不过现在不能确定是操作的问题还是操作之前问题已经发生了。
    说明 lz 的操作是没有预案不完整的。

    2. 没有异地备份和恢复流程。
    我敢说 >90% 的 nas 使用者没有异地备份,这其中 >90% 的备份者没有演练过恢复流程。
    备份本身就是对数据的一次读取,是验证系统可用的重要步骤。
    而更重要的,备份要具备可恢复性,这个希望 lz 之后在优化系统时能注意到吧。
    hotsun168
        139
    hotsun168  
    OP
       Aug 21, 2020
    @tankren 我是有很多次无故无法启动,所以有点不敢用。也可能是我中奖了或者硬件有问题吧。
    @IssacTomatoTan 完全没有,因为看到了老婆失望之后刻意装出来的想宽我的心让我别在意的眼神。
    @sampeng 我可能没有实现场景。宽带上行带宽不太够,而且异地对端(老家,距离 600 公里)所在区域供电或者网络都不太行。
    @aeli 已经吸取教训了。至少两块盘。
    @menghan 是的,所以经过这次的事情我也吸取教训了。
    Caan07
        140
    Caan07  
       Aug 21, 2020
    @ArJun #86 原盘一部大概 50GB 。另外如果是视频剪辑或者设计师,相机拍摄的原片也很大。如果家有小孩子,不说相机现在手机拍摄也越来越占容量了。

    我自己的选择是重要文件,NAS 一份,移动硬盘一份,云 /网盘一份,再重要就刻录光碟,不过这个就少了。一般文件就 NAS,硬盘坏了就直接换,不需要冗余不搞 RAID 。
    fanyongbo
        141
    fanyongbo  
       Aug 21, 2020
    只要种子还在,都会回来的
    ruixue
        142
    ruixue  
       Aug 21, 2020
    备份的 3-2-1 原则:文件至少有 3 个副本,其中 2 个副本存储在本地的不同介质上,另外 1 个副本存储在异地设备上
    bubuyu
        143
    bubuyu  
       Aug 21, 2020
    我是群晖,重要信息再通过群晖加密同步到阿里云 OSS
    icanton
        144
    icanton  
       Aug 21, 2020
    不组 RAID,上冷备+部分云盘,足够了
    jousca
        145
    jousca  
       Aug 21, 2020
    NAS 的 RAID 就是渣渣。

    买个二手戴尔服务,配 H730 阵列卡这种的当 NAS 安全又靠谱。硬盘还能热拔插。
    winglight
        146
    winglight  
       Aug 22, 2020
    完全没法理解用了 nas 不做云端备份的人是怎么想的。。。
    caltong
        147
    caltong  
       Aug 22, 2020
    j3455 装的 freenas,四块 1T 组 raid5 。刚开始硬盘都是淘汰下来的旧硬盘,期间坏过两块都更新了一块新的西数和一块新的希捷。其他还有 3 块盘分批次做冷备,个人觉得还算靠谱。raid5 上大容量的盘太危险了,重建的时候出错得不偿失,要么 raid10,要么 raid1,这是风险与价格的取舍。
    lulu00147
        148
    lulu00147  
       Aug 22, 2020 via iPhone
    zfs 不香吗,裙辉 shr 停一次电基本就跪了,恢复数据你会难受死,推荐 xigmanas,每块硬盘条带 zfs,每天快照,稳定的一逼,随便停电。
    一个曾经被裙辉坑过的人的忠告。
    lzksdxh
        149
    lzksdxh  
       Aug 22, 2020
    刚搞了群晖 nas 云上还有一些备份 手里还有一块移动硬盘 移动硬盘确实不方便
    lzwt806
        150
    lzwt806  
       Aug 22, 2020 via Android   ❤️ 1
    我说两句,几年前我也是用的无风扇工控机,也是占美的,图静音无灰尘省电,web 服务器( kxs-co.gicp.net ),结果 2 年就挂了,之后我再也不信这些所谓的工控,就那品质也敢程自己是工控。

    现在用的都是品牌小主机,比如 HP G1/2,联想 M72/M92,那么小的主机别人家都是加了风扇的。用起来完全是两回事,安心多了。

    另外,早几年的 raid 我认为就是渣,那可靠。。有可靠性吗?实际的工作中,处理了很多 raid 问题,那个惨不忍睹,其中 IBM 的服务器,scsi 专用硬盘,一样弱不禁风。

    于是,后来的大数据存储,我都是每个硬盘单独使用,就算坏了其中一两块,其他数据还是在的。另外要定时听听硬盘的响声,发现不对应该立即停止,及时备份。

    其实那些所谓的专业硬盘在实际使用中我觉得还不如监控硬盘,因为监控硬盘每分钟都有大量数据写入,24 小时工作都能用好几年,把它用于数据存储可靠性好得不要不要的。

    另外,存数据,备份数据,可以写完就断电,不理解一直上线干嘛?难道时时刻刻都要回放过去的视频图片?

    还有在操作系统和文件系统的选择上也很重要,就目前以我的短见认为,linux+ext4 真的是最简单可靠的。曾经花了几年时间来实际测试了 xfs,fat32,ntfs,jfs,ext4,最后最终还是保留了 ext4,让我最安心。其他的我现在碰都不想碰了。btrfs 和 zfs 没试过,我觉得越复杂的东西出问题的几率越高,而且都是很麻烦的。

    以上,是个人经历和浅见,错了纠正。
    mouyase
        151
    mouyase  
       Aug 25, 2020
    群晖里有个加密备份到网盘的功能,弄个 E5 的 OneDrive 上去挺好。
    ferock
        152
    ferock  
    PRO
       Sep 2, 2020
    @mouyase #151

    非正规的 OneDrive 不知道哪天就被 blocked 账号了
    ted423
        153
    ted423  
       Sep 26, 2021
    @wazon chkdsk 没问题的....
    chkdsk 会把校验不过的文件塞到一个隐藏文件夹中。
    况且这么塞就意味着 chkdsk 认为这个文件通过 ntfs 相关特性已经无法修复了
    所以看情况楼主这个盘是坏的快 boom 了。
    https://answers.microsoft.com/en-us/windows/forum/all/is-this-188-gb-protected-found000-folder-safe-to/b5185c41-3832-4221-981c-2cb786a3b1fd?auth=1

    ```
    为了顺便当做远程桌面,没有使用黑群晖或 Linux,使用了 Win7 系统。Samba 服务经常无故卡死,遇到网络无法连接、0x00000000XX 等类似错误或“服务器存储空间不足无法处理此命令”等错误无数次,每次基本都需要重启。花了无数时间来解决这些问题,无果。一直在忍受,后续甚至写了脚本做定时重启。
    ```

    其实到这种时候就应该检查下磁盘了。

    所以我完全不觉得这是因为楼主放心大胆操作的问题....
    ted423
        154
    ted423  
       Sep 26, 2021
    "期间报错无数"
    首先要做得是检查硬件坏道,如果我没弄错的话,chkdsk 只能处理逻辑坏道。
    MHDD remap 或者咋弄一下之后再 chkdsk,不过 80%........
    可以说明这个盘本身已经千疮百孔了。我觉得你更需要个监控 smart 表得软件并且可以自动报警得那种
    1  2  
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3279 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 159ms · UTC 11:54 · PVG 19:54 · LAX 04:54 · JFK 07:54
    ♥ Do have faith in what you're doing.