Unde să stocați date mari (cele mai bune practici) (Administrarea sistemului, Ubuntu, Cele Mai Bune Practici, Upgrade)

zavidovych a intrebat.

Instalez un Ubuntu proaspăt pe serverul nostru de laborator. Avem o mulțime de genomuri masive care trebuie să fie accesate de către utilizatorul Apache www-data. În prezent, am salvat toate datele pe unități externe. Scopul meu este de a avea un Ubuntu proaspăt, de a instala noi aplicații web pe el și apoi de a importa pierdute de date vechi, astfel încât Apache să le servească utilizatorilor care utilizează aceste noi aplicații. De asemenea, utilizatorii ar încărca fișiere. Prioritatea este să păstrez lucrurile simple, astfel încât un viitor nou administrator de sistem să poată prinde cu ușurință cum funcționează lucrurile pe server. Planul meu actual:

1) Să pun o persoană din cadrul laboratorului (eu sunt în afara statului) să inscripționeze un cd ISO Ubuntu, să pornească mașina de pe el și să efectueze instalarea de bază Ubuntu, , să configureze accesul SSH pentru mine. Ea ar reformata discul intern, cu excepția folderului /home care se află pe o partiție separată.

2) Migrarea utilizatorilor din vechea instalare; curățarea manuală a datelor inutile din dosarul /home (vechi). Înlocuiți noul folder /home cu acesta.

3) Instalați LAMP, aplicații web și alte programe necesare.

4) Creați folderul /home/user/webdata, acordați utilizatorului Apache toate permisiunile pentru acesta. În interiorul acestuia, creați folderul upload/ în care utilizatorii site-ului web vor încărca fișiere. Alături de acesta ar urma să fie folderul genomes/ care să conțină legături simbolice către genomurile aflate fizic pe unitatea externă. Apache va servi genomurile utilizatorilor din acest dosar.

5) Setați o copie de rezervă automată a /home/user/webdata/ și puneți-o online.

Nu am experiență în administrarea sistemelor, așa că am următoarele îndoieli:

a) Păstrarea datelor așa cum este descrisă la pasul 4 este inferioară în vreun fel? Care ar fi cel mai comun&mod de a stoca și servi genomuri mari, precum și încărcările utilizatorilor? Ar trebui să am acest folder webdata/ sub /var/www/html în schimb? Sau ar trebui să nu folosesc deloc legături simbolice și să păstrez genomurile pe unitatea internă (sub /home sau /var)? Unul dintre motivele pentru care nu-mi place sub /var este faptul că ar fi simplu și sigur să păstrez totul sub /home.

b) Pot fi schimbați sau adăugați alți pași pentru a face procesul mai sigur și mai profesionist?

Vă mulțumesc foarte mult pentru sprijin și anunțați-mă dacă ar trebui să ofer informații suplimentare.

Comentarii

  • Poți oferi câteva informații despre configurația hardware pe care o folosești? Se pare că vă stocați datele pe o mulțime de discuri unice. –  > Por ErnieTheGeek.
  • Procesor: Intel(R) Xeon(R) CPU X5460 @ 3.16GHz, quad Memory: 24.3 Gb Storage: 1Tb hd intern (2 partiții: /home și toate celelalte), 4x2Tb discuri externe cu informații genomice Mulțumesc! –  > Por zavidovych.
2 răspunsuri
Univ426

Pentru mine, structura fișierelor de a avea un folder uploads și un folder genom sună destul de standard pe baza webapps-urilor pe care le-am configurat.

Aceasta este o perspectivă cu adevărat centrată pe sysadmin, dar pentru mine, în timp ce organizarea structurilor de fișiere este importantă din punct de vedere al software-ului / aplicației, configurația fizică va avea un impact mai mare asupra redundanței, fiabilității și performanței – lucruri pe care le-aș putea include atunci când măsor „profesionalismul” unei configurații.

Câteva recomandări pe care le-aș putea avea:

1.) Cumpărați un NAS de mici dimensiuni, dacă puteți. Unitățile externe nu au nicio redundanță, iar vitezele vor varia, mai ales dacă aveți mai mulți utilizatori care citesc/scriu date pe același disc.

2.) Luați în considerare utilizarea punctelor de montare pentru datele externe atașate și îndreptați Apache chiar către acestea. Dacă rămâneți la structura genomuri/încărcări, ați putea lua în considerare montarea unui spațiu de stocare extern direct la aceste dosare sau un link simbolic către partaje din directorul /mnt.

3.) Luați în considerare cu adevărat citirile și scrierile pentru operațiuni și numărul de utilizatori pe care îi deserviți. Dacă gnomii sunt mari și veți avea multe lecturi lungi și secvențiale, puneți acele date pe un volum separat/set de discuri, păstrându-le separate de dosarul „Uploads”, mai concentrat pe scriere. Dacă trebuie să vă limitați la un singur disc, sau la mai multe discuri individuale, ați putea separa datele pe discuri separate, punând datele genomului împreună pe un set de discuri, iar încărcările pe celălalt.

Comentarii

  • Vă mulțumim mult, acest lucru este foarte util! Probabil că voi monta un hd extern pe /home/user/webdata/genomes, iar /home/user/webdata/uploads îl voi păstra pe hd-ul intern, iar acolo uploadele nu vor fi foarte mari. În acest fel, aș păstra totul în /home, nu voi folosi linkuri simbolice și, de asemenea, aș putea să dezasamblez genomurile în orice moment. Și da, cu siguranță NAS-ul merită luat în considerare. –  > Por zavidovych.
HopelessN00b

După cum spune John, din perspectiva unui administrator de sistem, configurația fizică este mai importantă decât „organizarea” fișierelor și a dosarelor, deoarece aceasta are cel mai mare impact asupra lucrurilor de care se preocupă administratorii de sistem – fiabilitate, performanță, scalabilitate, manevrabilitate, monitorizare, redundanță, DR/backup-uri etc.

Ideea de a configura ceva „bine” și de a migra utilizatorii este una bună. Primul lucru pe care l-aș face ar fi să încerc să pun datele pe o matrice RAID, astfel încât să nu pierdeți date sau să aveți timp de nefuncționare atunci când o unitate se defectează în mod inevitabil. Sunt un susținător al RAID hardware, dar nici RAID software Linux nu este complet oribil – căutați să adăugați un anumit nivel de redundanță la nivelul serverului și să îmbunătățiți timpul de funcționare. (Și apropo de uptime, sper că există un UPS care alimentează acest server…)

În continuare, aș configura un fel de server secundar pentru această funcție. (În ordinea preferințelor), aș încerca să îl configurez ca un cluster, [sună a fi orientat către client sau cu impact asupra acestuia] sau ca un failover, sau chiar ca un server de rezervă la cald. (Un server care este gata și așteaptă să fie pus în funcțiune dacă/în momentul în care originalul moare). Faptul de a avea o redundanță a datelor nu vă va ajuta atunci când sursa de alimentare moare sau placa de bază se scurtcircuitează etc.

În cele din urmă, o soluție de rezervă, care va varia foarte mult în funcție de nevoile și constrângerile dumneavoastră. Dacă puteți configura o copie de rezervă pe bandă sau copii de rezervă de la disc la disc pe o matrice suficient de mare pentru a asigura o perioadă de păstrare rezonabilă a datelor, este foarte bine. În caz contrar, chiar și un mic NAS de consum sau două este mai bine decât nimic. În cel mai rău caz, în situații fără buget, am păstrat copii de rezervă ale serverelor importante pe unitatea stației mele de lucru, pe unități USB externe de consum și chiar pe DVD-R-uri. Cel mai important lucru este să vă asigurați că aveți un anumit nivel de păstrare a datelor. Să ai copii de rezervă imaculate din noaptea precedentă nu te ajută cu nimic atunci când descoperi că datele au fost corupte începând de săptămâna trecută sau că ai fost înrădăcinat cu o lună în urmă.

Comentarii

  • Mulțumesc mult, cu siguranță va trebui să mă interesez mai mult de introducerea mai multor redundanțe și de retenție. Deși nu cred că ne putem permite cu ușurință un server hot-spare în acest moment, dar RAID și NAS sunt opțiuni excelente. –  > Por zavidovych.