Vés al contingut (premeu Retorn)

Sou a: Inici / Nosaltres / Serveis TIC / Blog

Blog

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dijous dia 11 d'abril a les 7:30h. La durada prevista per a l'actuació és d'una hora i mitja.

Els servidors afectats són els següents:

  • xarxes-2 (DNS, DHCP, VMPS)
  • recursos (impressores, samba)
  • www-1 (web institucional, webmail, reports)
  • gw-1 (proxy web institucional, VPN)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • sistemes (aplicatius web d'alta de recursos informàtics)
  • db-1 (bases de dades d'aplicacions de la intranet principalment)
  • sistemes-1 (llicències flotants)
  • boada (cluster de docència)

Actualització 9:13h: Tots els serveis tornen a funcionar amb normalitat. De 8:30 a 8:40 hem tingut un interval de temps on el servidor primari de DNS ha deixat de respondre, i potser heu percebut un tall de connectivitat. Disculpeu les molèsties ocasionades.

Actualització del nucli al servidor sites

Les darreres actualitzacions de seguretat passades al servidor sites han instal·lat una nova versió del nucli del sistema que requereixen un reinici, el qual durem a terme el proper dijous dia 21 de març a les 7:30h. La durada prevista per a l'actuació és de 30 minuts.

Els servei afectat és el cPanel, que comprèn la gestió i continguts de les zones web de docència, recerca i personals.

Actualització 21/3/2013, 7:44h: El servei torna a operar amb normalitat.

Límits d'execució als nodes d'accés al cluster arvei

Aquest migdia hem fet efectius els límits d'execució interactiva als nodes d'accés al cluster arvei (florensa i safont, actualment). Aquests límits s'apliquen a totes les sessions que obrim quan ens connectem als nodes d'accés mitjançant ssh. El seu objectiu és evitar la saturació d'aquests nodes per així garantir la disponibilitat del cluster.

Els límits establerts són els mateixos que ja s'aplicaven a les sessions interactives que obrim a cadascun dels nodes quan ens hi connectem amb ssh. Recordeu que, a efectes de límits, no és el mateix obrir una sessió interactiva a un node amb ssh o amb qrsh (o qlogin):

  • amb ssh se'ns apliquen uns límits molt restrictius
  • mentre que amb qrsh o qlogin se'ns apliquen els limits propis a la cua d'execució que hem especificat

Aquests límits afecten a recursos tals com:

  • temps de CPU assignat
  • temps total d'execució
  • memòria virtual
  • etc.

En conseqüència, si necessiteu executar processos interactius que necessitin de gran nombre de recursos, seguiu les instruccions que es descriuen en aquest document, i pareu especial atenció també a la recomanació sobre l'ús d'eines tals com screen.

Consulteu la documentació del servei per a més detalls sobre el nom de cadascuna de les cues d'execució i els seus recursos disponibles.

Nou mètode d'entrada al cluster arvei i limitacions sobre els nodes d'accés

Aprofitant la nova infraestructura de distribució i balanceig de càrrega de serveis, el mecanisme d'accés al cluster arvei ha canviat: ja no és necessari recordar el nom dels nodes d'accés, a més dels múltiples beneficis que ens aporten els loadbalancers: alta disponibilitat, uniformitat d'accés, transparència, etc.

Teniu tots els detalls sobre com connectar-vos al cluster a la documentació de funcionament general, en especial a l'apartat on fa referència als nodes d'accés.

Com veureu en aquest document, s'imposen limitacions estrictes a les execucions interactives que es diguin a terme sobre aquests nodes d'accés. Aquestes limitacions no són vigents a dia d'avui, però ho seran en breu.

L'objectiu principal d'aquestes limitacions és evitar la saturació dels propis nodes d'accés, la qual comporta a la pràctica que el cluster sigui inaccessible. Els nodes d'accés han de servir únicament com a punt d'entrada al cluster. A partir d'aquí podem:

  • llençar treballs a les cues d'execució
  • llençar treballs a les cues interactives, tot saltant a un node interactiu dedicat a aquest propòsit

Respecte a l'execució de processos interactius pesants, pareu especial atenció a les recomanacions que fem sobre l'ús d'eines com screen. En teniu tots els detalls al document d'operacions comuns sobre el cluster.

Distribució de càrrega i alta disponibilitat de serveis

Des de mitjans de febrer estem fent proves de replicació de serveis i distribució de càrrega dels mateixos. L'objectiu és que els clients d'un determinat servei es connectin a una única adreça, i que aquesta els reencamini de forma transparent cap a un dels diversos servidors que ofereixen aquest servei.

Els avantatges que obtenim són múltiples:

  • Els clients només han de recordar una única adreça del servei
  • Aquesta adreça és un front-end que actua com a loadbalancer, el qual pot decidir dinàmicament cap a quin dels servidors back-end reencamina les peticions, en funció de la càrrega dels mateixos
  • Això permet afegir de forma transparent nous servidors de back-end si el servei així ho requereix
  • També permet fer manteniment sobre els diferents serveis i servidors de back-end sense que els clients percebin interrupcions de servei

Addicionalment, el loadbalancer està format en realitat per un cluster de dos servidors en configuració redundant i amb alta disponibilitat, de manera que si falla un dels loadbalancers, l'altre prendrà el control automàticament i de forma transparent pels clients, sense interrupció del servei. Aquesta configuració també ens permet fer manteniment dels loadbalancers de forma alternada sense afectar al servei.

Els loadbalancers són, juntament amb els equips de disc centralitzat, els primers equips que es connecten de forma redundant a la infraestructura de xarxa a una velocitat de 10 Gbps.

El primer dels serveis que ha estat replicat i distribuït d'aquesta manera ha estat el servei d'autenticació de MACs als equips de comunicacions, el qual assigna una determinada subxarxa al vostre equip quan s'endolla a qualsevol de les rosetes dels edificis C6 i D6. En breu procedirem a replicar i distribuir nous serveis.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper divendres dia 8 de març a les 7:30h. La durada prevista per a l'actuació és d'1 hora.

Els servidors afectats són els següents:

  • gw-1 (proxy web, VPN)
  • sistemes-1 (llicències flotants)

Actualització [8/03/2013]: A les 08:00 els sistemes tornaven a estar operatius.

Nova impressora a la primera planta del D6

Avui s'ha posat en producció una nova impressora a la primera planta de l'edifici D6, de nom d6p1d. L'antiga impressora d6p1b s'ha retirat definitivament.

Aquesta impressora s'ha posat en producció més tard del previst per una avaria de sèrie.

Es tracta d'una impressora Kyocera FS-4200DN, de tòner negre. A Windows la podeu afegir com a d6p1d, i a Linux la podeu afegir amb les seves tres cues d'impressió: d6p1d, d6p1d_d i d6p1d_dl. Les impressores ja són operatives als WinCenter sindreu (Windows 2000), robert (Windows 2008) i amargos (Windows 2008 R2).

Trobareu la documentació sobre com afegir-la al vostre sistema al nostre wiki.

Per a qualsevol consulta, podeu enviar-nos un correu a suport.tic@ac.upc.edu, trucar-nos al 15953 o passar pel D6-S108.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dijous dia 28 de febrer a les 8:00h. La durada prevista per a l'actuació és d'1 hora.

Els servidors afectats són els següents:

  • xarxes-2 (DNS, DHCP, VMPS)
  • recursos (impressores, samba)
  • www-1 (web institucional, webmail, reports)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • db-1 (bases de dades d'aplicacions de la intranet principalment)
  • sistemes-1 (llicències flotants)
  • boada (cluster de docència)

Actualització 28/2/2013, 8:51h: Tots els serveis estan de nou disponibles i funcionant amb normalitat.

Migración de la Web institucional

El próximo miércoles 20/02/2013 a las 08:00 se procederá a realizar la migración de la web institucional del  servidor público ribot2 al nuevo servidor público www-1.

Para realizar la migración se realizará una parada técnica de los siguientes servicios:

 

  • Web institucional
Actualització [09:20]: El procés de migració s'ha completat. Ja torna a estar tot operatiu.

Problemes al servidor Windows de nom "robert"

El servidor de Windows de nom "robert" ha restat apagat durant tota la tarda d'avui per aplicar actualitzacions del sistema operatiu pendents. S'ha contactat amb els usuaris que tenien iniciada la sessió per tal de fer una apagada correcta sense pèrdua de dades.

Demà s'actualitzarà Java en aquest servidor i pot ser necessari reiniciar-la un cop més.

Dispenseu les molèsties que us pugui ocasionar.

 

Actualització [19 feb 09:40]: torna a estar encesa després de l'apagada d'ahir per les actualitzacions.

Canvi de switch al mòdul C6

Demà divendres 15/02 entre les 07:30 i les 8:00 del matí, es procedirà a canviar les conexions dels switchos que donen accés als despatxos de l'edifici C6 amb un nou switch d'interconnexió entre el C6 i el D6.

 

Aquesta actuació pot comportat perdues de connexió d'uns segons a les màquines connectades a l'edifici C6.

Actualització del nucli al servidor sites

El proper dimecres 30 de gener a les 08:00 reiniciarem el servidor sites (cPanel, pàgines personals, zones web) per tal de canviar el nucli del sistema pel de la darrera actualització publicada.

El temps previst per l'actuació és de 30 minuts.

 

Actualització [08:30]: els serveis tornen a estar disponibles.

Migración servidor de correo

El próximo jueves 17/01/2013 a las 08:00 se procederá a realizar la migración del sistema del servidor de correo al disco centralizado.

Esta operación es necesaria para disminuir los riesgos en caso de problemas en el host que ejecuta el servidor.

La operación está previsto que duré hasta las 10:00 y durante este tiempo se podrá consultar el correo mediante el servicio de continuidad: https://www.ac.upc.edu/app/webmail-cont

 

Actualitzación 17/01/2013 08:40: El servicio de correo vuelve a estar operativo y con el sistema migrado al disco centralizado.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli i cal fer un re-inici que durem a terme el proper dijous dia 10 de gener a les 8:00h. La durada prevista de l'actuació és d'1 hora.

Els servidors afectats són els següents:

  • gw-1 (proxy web, VPN)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • recursos (impressores, samba)
  • sistemes-1 (llicències flotants)
  • stats-1 (recull d'indicadors d'ús de serveis)
  • www-1 (webmail, reports)
  • xarxes-2 (DNS, DHCP, VMPS)

Impressora de la primera planta del D6 avariada

L'actual impressora de la primera planta del D6, de nom d6p1b, està avariada i no es procedirà a la seva reparació.

S'està preparant una nova impressora que la substituirà.

 

Lamentem les molèsties que us pugui ocasionar aquest fet.

Nova impressora a la segona planta del D6

Avui s'ha posat en producció una nova impressora a la segona planta de l'edifici D6, de nom d6p2i. L'antiga impressora d6p2g s'ha retirat definitivament.

Es tracta d'una impressora Kyocera FS-4200DN, de tòner negre. A Windows la podeu afegir com a d6p2i, i a Linux la podeu afegir amb les seves tres cues d'impressió: d6p2i, d6p2i_d i d6p2i_dl. Les impressores ja són operatives als WinCenter sindreu (Windows 2000), robert (Windows 2008) i amargos (Windows 2008 R2).

Trobareu la documentació sobre com afegir-la al vostre sistema al nostre wiki.

Per a qualsevol consulta, podeu enviar-nos un correu a suport.tic@ac.upc.edu, trucar-nos al 15953 o passar pel D6-S108.

Actualització del servidor de bases de dades

Demà dimecres 9 de gener a les 11:00 del matí procedirem a actualitzar els paquets del servidor de bases de dades. El procés durarà 30 minuts com a màxim i es produiran aturades de les bases dels diferents sistemes de base de dades que afectaran els serveis següents:

  • Usuari Únic (UU i FTP)
  • Gestió de reserves (MRBS)
  • Web de la Intranet
  • Request Tracker d'Administració (RT)
  • Gestió bibliogràfica
  • Fitxes docents
  • Contactes d'Administració

Aturada no programada de gw

Aquest migdia, cap a les 12:40 hem aturat el servidor gw per tal de canviar el disc del mirror que havia fallat. Un cop canviat el disc defectuós el RAID ha començat a reconstruir-se i hem posat en marxa de nou el servidor. El temps de l'aturada ha estat de 20 minuts.

Problemes al servidor de correu

Diversos discos del servidor de correu han tingut un conjunt encadenat de problemes causant una corrupció del sistema de fitxers que ha fet que la recuperació del mateix fos impossible.

Hem decidit reinstal·lar una nova màquina i recuperar una còpia de backup de les bústies de correu.

Podeu llegir el vostre correu fent servir el webmail de continuitat a: http://www.ac.upc.edu/app/webmail-cont

Si algú necessita algun correu perdut, es pot comprovar si s'ha rebut i, si el disc ho permet, es pot provar a recuperar. Els correus enviats en principi s'han lliurat correctament.

Actualització 17:30: Es crea una màquina virtual per substituir la màquina amb problemes.

Actualització 19:30: Es llença la restauració de les bústies a la nova màquina. Més de 6.000.000 de fitxers per restaurar. En espera de que finalitzi la indexació dels mateixos.

Actualització 18/12/2012 01:34: Ha començat la recuperació dels fitxers. Al ritme actual de recuperació trigarà unes 10  hores en finalitzar.

Actualització 18/12/2012 07:30: La recuperació de fitxers s'ha alentit lleugerament. Ara mateix tenim recuperat un 45% dels fitxers quan han passat 6 hores des del començament de la recuperació.

Actualització 18/12/2012 13:40: El correu torna a estar disponible. Teniu em compte que degut a la corrupció del disc al servidor original, s'ha perdut el correu rebut entre la 1:50 del dilluns 17/12/2012 i les 17:30 del dilluns 17/12/2012.

Actualització 18/12/2012 17:00: Estem recuperant els correus rebuts que potencialment s'han perdut. Si la recuperació és satisfactòria, llavors caldrà trobar un procediment per a què els usuaris tinguin accés a aquests correus "perduts".

Actualització del nucli al servidor sites

El proper dilluns 17 de desembre les 07:30 reiniciarem el servidor sites (cPanel, pàgines personals, zones web) per tal de canviar el nucli del sistema pel de la darrera actualització publicada.

El temps previst per l'actuació és de 30 minuts.

Ampliació memòria disc del cluster

El dimecres 12-12-12 es va procedir a la ampliació de memòria de les 2 unitats que s'encarreguen de servir disc als nodes del cluster.

Inicialment cada un d'aquests servidors disposava de 24GB de RAM i amb l'actualització cada un d'ells té 144GB de memòria.

 

L'ampliació esva fer sense provocar cap aturada del servei, donat que mentre s'ampliava un dels servidors, l'altre s'encarregavade servir tota la informació.

 

Confiem que amb aquesta modificació, el rendiment de l'accés al disc als nodes del cluster sigui molt bó.

Dijous 13-12-2012 tall xarxa troncal

Ens han informat des d'UPCnet, que aquest proper dijous 13-12-2012 han d'efectuar tasques de manteniment a part de la xarxa troncal de la UPC i que al DAC estarem entre les 15:00 i les 16:00 sense connectivitat amb l'exterior.
 
La xarxa del DAC continuarà funcionant, però no es podrà accedir des de fora del D6/C6 durant aquest període, ni podrem accedir a Internet mentre duri el manteniment. Internament podrem continuar treballant sense notar cap problema.
 
Els mails que ens enviïn o que enviem arribaran amb un lleuger endarreriment.

Recordeu que durant el tall de connectivitat, si no esteu físicament al D6/C6, podeu fer servir els serveis de continuïtat per  accedir a la lectura del vostre correu/dades.

 

Actualització: Ens comuniquen d'UPCnet que han canviat la planificació i l'hora de l'actuació serà entre les 20:00 i les 21:00 del mateix dijous 13-12-2012.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli i cal fer un re-inici que durem a terme el proper dimecres dia 5 de desembre les 8:00h. La durada prevista de l'actuació és d'1 hora.

Els servidors afectats són els següents:

  • db-1 (bases de dades d'aplicacions de la intranet principalment)
  • gw-1 (proxy web, VPN)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • recursos (impressores, samba)
  • sistemes-1 (base de dades d'equips en xarxa i altres serveis d'infraestructura)
  • stats-1 (recull d'indicadors d'ús de serveis)
  • www-1 (webmail, reports)
  • xarxes-2 (DNS, DHCP, VMPS)

Actualització [08:50]: els servidors s'han re-iniciat correctament.

Manteniment del servidor de Windows 'amargos'

Degut a un problema amb Java i Internet Explorer, el servidor de Windows de nom "amargos" no estarà disponible de 19 a 21 hores el proper divendres dia 30/11/2012.

 

Dispenseu les molèsties que aquesta actuació us pugui ocasionar.

Préstec de programari per a entorns Windows

El Departament ha deixat d'oferir el servei de programari de MSDNAA ja que la UPC ja oferia aquest servei i és accessible a través de l'apartat de Distribució de Software de la UPC. En cas de problemes d'accés, cal contactar directament amb UPCNet.

Dispenseu les molèsties.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dimecres dia 21 de novembre a les 7:30h. La durada prevista per a l'actuació és d'1 hora.

Els servidors afectats són els següents:

  • xarxes-2 (DNS, DHCP, VMPS)
  • gw-1 (proxy web, VPN)
  • recursos (impressores, samba)
  • www-1 (webmail, reports)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • db-1 (bases de dades d'aplicacions de la intranet principalment)
  • sistemes-1 (base de dades d'equips en xarxa i altres serveis d'infraestructura)
  • stats-1 (recull d'indicadors d'ús de serveis)

Actualització 21 de novembre, 7:59h: Tots els serveis tornen a estar de nou en funcionament.

Horario de servicio Noviembre 14

El horario de servicio para el miercoles 14 será de 8:00 a 14:00.

Fallada per altes temperatures al CPD del D6

El passat dissabte dia 3 de novembre al voltant de les 9:30h, la temperatura del CPD del D6 ha començat a pujar vertiginosament, enregistrant-se valors superiors als 44 graus entre 11:45 i 12:00h. Pressumptament ha estat degut a una fallada de l'aire condicionat, però no hem rebut cap mena de notificació per part de Coordinació de Campus al respecte, i per tant no ho podem assegurar.

A partir d'aquell moment, la temperatura ha començat a recuperar-se ràpidament (pressumptament perquè ha estat solventada la incidència amb els equips de refrigeració), i a les 13h ja havia baixat més de 10 graus. Malgrat tot, no ha estat fins les 22h del mateix dissabte dia 3 que la temperatura del CPD s'ha normalitzat.

Malauradament, les elevades temperatures han malmès alguns equips, entre els quals destaca el sistema de disc centralitzat. Tot i tractar-se d'un sistema format per dos servidors en configuració redundada, tots dos servidors han acabat aturant-se per protecció enfront les altes temperatures (els seus sensors han enregistrat valors superiors als 50 graus).

El sistema de disc centralitzat dóna emmagatzematge a multitud de màquines virtuals, que són les encarregades d'oferir la pràctica totalitat dels serveis bàsics d'infraestructura i els aplicatius web. Al no estar disponible, tots els serveis que en depenen s'han vist compromesos. Destaquem-ne els següents:

  • serveis d'accés bàsic a la xarxa: autenticació d'equips a les rosetes dels despatxos, DHCP i DNS
  • accés al disc d'usuari des de Unix i SMB
  • gestió de cues al cluster
  • servei de màquines virtuals d'usuari
  • web institucional i intranet, i tots els aplicatius associats: Usuari Únic, gestió de reserves, etc.
  • pàgines web de docència i recerca

En canvi, aquests serveis no s'han vist afectats i han estat disponibles en tot moment:

  • correu electrònic (enviament, recepció i llistes de distribució)
  • accés wifi a la xarxa

Aquesta ha estat, a grans trets, la cronologia de la posada en marxa dels serveis afectats:

  • 9:45h: Reestabliment de les alarmes de temperatura i de fallada de les fonts d'alimentació d'ambdós servidors del disc centralitzat.
    Posada en marxa dels servidors.
    Reestabliment de l'accés als directoris d'usuari des de Unix i SMB

  • 11:15h: Reestabliment del servei de DHCP (la base de dades d'assignació dinàmica d'IPs havia quedat corrupta).
    Reestabliment parcial del servei de DNS.
    Reestabliment de la gestió de cues al cluster.
    Reestabliment del servei web públic.

  • 12:10h: Reestabliment del servei de DNS dinàmic (els mapes dinàmics també havien quedat corruptes).

  • 12:45h: Reestabliment de la intranet institucional.

  • 14:45h: Fallada de reconnexió dels servidors de màquines virtuals d'usuari. El servei queda inaccessible, tot i que algunes màquines virtuals continuen responent, però és impossible accedir a les seves consoles.

  • 15:45h: Reestabliment del servei de màquines virtuals d'usuari. La majoria de màquines virtuals que estaven engegades han tornat a ser iniciades. Tots aquells que administreu alguna d'aquestes màquines, sisplau verifiqueu que funcionen amb normalitat.

Tall de connectivitat a la xarxa troncal

Aquest dissabte passat (27 d'octubre) es va produir un tall de connectivitat que va afectar la xarxa troncal de la UPC i la sortida cap a Internet de tot el Campus Nord.

Segons els nostres registres, aquest tall va afectar la connectivitat de la xarxa del DAC entre les 9:28 i les 18:58 de dissabte.

Podeu veure més detalls a la notificació que ha publicat UPCnet.

Aturada d'intranet i sites

Demà dimarts 23 d'octubre a les 08:00 reiniciarem el servidor sites (cPanel, pàgines personals, zones web) per tal de canviar el nucli del sistema pel de la darrera actualització publicada i també aprofitarem per ampliar la memòria del servidor de la intranet (intranet, UU, MRBS, BSCW, RT, wiki) de 2 a 4 GB.

El temps previst per les dues actuacions serà de 30 minuts en total.