@@ -211,9 +211,42 @@ Bluestore
211
211
Диски
212
212
-----
213
213
214
- * запрещено использовать аппаратные рейды. имеется в виду в режиме рейда. Опасность обмана
215
- фсинков (например, включенный врайтбек на рейде без BBU). В рейдах цеф не нуждается в принципе.
216
- в апп. рейде пока диск не просинкается рейд дегрейдед. Уж лучше цеф сам позаботится о репликах.
214
+ * Не имеет никакого смысла использовать рэйды как хранилище для Ceph. Здесь
215
+ имеется в виду какой-либо способ программного или аппаратного объединения
216
+ дисков в один виртуальный. Потенциальные проблемы:
217
+
218
+ * Опасность обмана команд по сбросу кеша. Например, включенный Writeback на
219
+ аппартаном RAID без BBU.
220
+
221
+ * Программный RAID (mdadm, зеркало) ПОВРЕЖДАЕТ данные при записи в режиме
222
+ O_DIRECT если в процессе записи страница меняется в параллельном потоке.
223
+ В этом случае ПОДТВЕРЖДЁННЫЕ данные будут различаться в половинках
224
+ зеркального рэйда. При следующем (scrub?) рэйда будут проблемы.
225
+ TODO: Нужен proof.
226
+
227
+ * Программные рэйды не защищают от сбоя питания -- да, разумеется вышестоящие
228
+ FS/БД должны быть готовы к повреждению неподтверждённых данных, но при
229
+ проверке (scrub?) различие данных на репликах приведёт к проблемам.
230
+
231
+ * Во время смерти диска RAID находится в состоянии degraded пока не добавят
232
+ новый диск. Либо нужен spare-диск который в случае с Ceph глупо не
233
+ использовать. Degraded RAID внезапно для Ceph будет давать худшие
234
+ характеристики пока не восстановится. RAID не знает какие данные нужны а
235
+ какие -- нет, поэтому процесс восстановления реплик -- долгий --
236
+ синхронизирует мусор либо нули.
237
+
238
+ * Для RAID нужны диски одинакового размера. Для Ceph это не требуется.
239
+
240
+ * Аппаратные рэйды нужно отдельно мониторить и администрировать.
241
+
242
+ * Зеркало не нужно потому что Ceph сам сделает столько реплик сколько
243
+ требуется. Страйпинг не нужен потому что повышение производительности
244
+ делается другими способами (с помощью SSD). Raid 5,6 в случае дегрейда
245
+ причиняет боль.
246
+
247
+ * В общем и целом, Ceph можно рассматривать как огромный распределённый RAID.
248
+ Зачем делать RAID состоящий из RAID не понятно.
249
+
217
250
* Акустик, хпа, паверсейвинг, настроить автотесты по смарту.
218
251
* отдискардить ссд перед использованием.
219
252
* fstrim -v -a (filestore on ssd), blkdiscard on LVM/Partition.
0 commit comments