Blog
Nou servidor per les aules
Demà dimecres 6 de novembre farem proves a les aules 003 i 003bis per preparar la substitució dels servidors que s'encarreguen de distribuir les imatges i permetre la conexió a Internet als ordinadors dels alumnes.
S'aprofitarà a fer les proves en els moments en els que no s'estigui fent classe.
Còpia del correu al servidor de continuïtat
Com sabeu, aquests dies estem duent a terme la migració de les bústies de correu cap a nou sistema de disc, actuació motivada principalment pels greus problemes de rendiment del disc actual.
Aquests problemes de rendiment, entre d'altres coses, estan causant que la còpia del vostre correu al servidor de continuïtat no acabi a temps. Per tant, hem decidit fer aquesta còpia diària només per a les bústies de correu que ja han estat migrades al nou sistema de disc.
Actualització del nucli al servidor sites
Les darreres actualitzacions del sistema passades al servidor sites han instal·lat una nova versió del nucli i diverses llibreries que requereixen un reinici, el qual durem a terme demà dimarts 29 d'octubre a les 7:30h. La durada prevista per a l'actuació és de 30 minuts.
Els servei afectat és el cPanel, que comprèn la gestió i continguts de les zones web de docència, recerca i personals.
Reinicio del switch principal
El viernes 18 de Octubre a las 6:30 realizaremos un reset del equipo principal de red con el fin de actualizar la versión de firmware.
Todas las comunicaciones en el C6 y D6 (incluídas las conexiones inalambricas) se verán afectadas durante unos 15 minutos aproximadamente.
Reboot del servidor de correu de bústies
El proper dimarts dia 15 d'octubre a les 7:30h farem un reboot del servidor de correu de bústies. El temps empleat per a fer aquest reboot no serà superior a 10 minuts.
Durant aquest temps no podreu accedir a les vostres carpetes de correu.
Aquesta actuació és necessària per a preparar una propera migració de les vostres bústies cap a un servidor més potent.
* Actualització 7:50h: El servei ha estat completament reestablert.
Aturada dels servidors de correu entrant i sortint
Demà divendres dia 11 d'octubre a les 7:30h aturarem temporalment els servidors de correu entrant i sortint per a substituir-los per màquines virtuals equivalents. Calculem que ens ocuparà com a molt una hora i mitja.
L'objectiu d'aquesta actuació és migrar cap a màquines virtuals els servidors de correu que encara corren en màquines físiques que estan fora de manteniment, minimitzant així el risc d'avaria hardware.
Aquests són els serveis afectats durant aquest periode de temps:
- no podreu enviar correus nous
- no rebreu correus nous
- sí que podreu llegir els correus que tingueu a les vostres bústies
- sí que podreu escriure nous correus i guardar-los com esborranys (per a enviar-los de seguida que reestablim el servei)
Aclariment: els correus que us enviïn durant l'actuació no es perdran, sinó que quedaran emmagatzemats en un servidor intermig i us seran lliurats progressivament quan el servei hagi estat reestablert.
* Actualització 9:00h: El servei torna a funcionar amb normalitat. Els correus que us hagin enviat durant aquesta estona seran lliurats a la vostra bústia en els propers minuts.
Modificació boot servidors
Per solucionar un problema amb el boot d'alguns dels servidors amb sistema més antic, demà dimecres 9 d'octubre a les 07:30 procedirem a fer unes modificacions en el següents servidors, que provocaran una aturada d'uns minuts en cada un d'ells:
- intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
- recursos (impressores, samba)
Està previst que a les 08:30 el servei torni a estar operatiu
Nou formulari d'autenticació web
Des de fa alguns mesos ja es pot utilitzar l'autenticació UPC per la web del DAC i ara només faltava modernitzar la interfície per fer-la més atractiva i que casés millor amb els colors i els tons de la web del DAC.
Aixi doncs, ja teniu disponible en fase beta la nova versió, que posarem en producció en breu si no sorgeix cap inconvenient. Esperem que us agradi.
Actualització del nucli a diversos servidors
Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dijous dia 3 d'octubre a les 7:30h. La durada prevista per a l'actuació és d'una hora.
Alguns dels serveis afectats són:
- db-1 (bases de dades d'aplicacions de la intranet principalment)
- boada (cluster de docència)
- intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
- sites (cPanel, pàgines personals, zones web)
Donat que també estan afectats els hosts servidors de màquines virtuals, es pot donar el cas de la interrupció de qualsevol servei durant uns instants.
Actualització [08:08]: Tots els sistemes tornen a estar operatius.
Baixa de servidors obsolets
A partir del proper dijous dia 12 de setembre començarem a donar de baixa els següents servidors obsolets, els quals han superat àmpliament el seu periode de garantia i manteniment informàtic:
- Linux x86 32-bits:
- compte
- fabre
- mora
- Linux Itanium2:
- blai
- jujol
- Solaris SPARC:
- brull
- goday
- grau
- OSF1 Alpha:
- romeu
- pons
Us preguem que reviseu les vostres zones de scratch en els esmentats servidors i que en copieu el contingut que volgueu conservar en una altra localització. Us recordem que no hi ha còpia de seguretat dels discs de scratch.
El servidor que podeu utilitzar per a executar les vostres simulacions és arvei (cluster).
Actualització dels loadbalancers (i 2)
Demà dimecres dia 2 d'octubre a partir de les 9:00h continuarem amb l'actualització del sistema dels balancejadors de càrrega que hem començat avui. Preveiem que l'actuació durarà aproximadament unes 3 hores, i que durant aquest període de temps podeu experimentar petits talls de connectivitat no superiors a 1 minut en els servei balancejats:
- web institucional (www)
- accés a la xarxa interna via VPN
- accés al clúster via ssh (arvei)
- autenticació de rosetes ethernet (vmps)
Actualització dels loadbalancers
Demà dimarts dia 1 d'octubre a les 8:30h passarem actualitzacions de sistema als balancejadors de càrrega, les quals incorporen millores significatives en els controladors de xarxa. Preveiem que l'actuació duri aproximadament dues hores. Durant aquest temps és possible que percebeu petites desconnexions d'alguns dels serveis balancejats, les quals no seran superiors a 1 minut.
Aquest és el llistat de serveis que podrien veure's afectats:
- web institucional (www)
- accés a la xarxa interna via VPN
- accés al clúster via ssh (arvei)
- autenticació de rosetes ethernet (vmps)
Fallada del servidor de correu
El servidor principal de correu ha fallat aquest migdia al voltant de les 11:30h, mentre duiem a terme una operació d'ampliació del disc, la qual efectuem de forma rutinària quan l'espai ocupat arriba al 90%, i que realitzem en calent i de forma transparent.
Però avui aquesta operació s'ha quedat encallada a la meitat del progrés, i a partir de llavors, totes les escriptures del sistema al disc s'han quedat bloquejades en un aparent deadlock: la càrrega del sistema ha anat pujant sense límit, els processos es quedaven bloquejats, etc. Ens hem vist obligats doncs a aturar abruptament la màquina a les 12:30h.
Des de llavors, estem passant una comprovació del sistema de fitxers (fsck), que encara pot tardar força estona en completar-se, tenint en compte la mida del disc.
* Actualització 15:25h: Primera passada del fsck completada sense errors en 2 h 30 min.
* Actualització 15:50h: El servei ha estat reestablert. Durant tota l'estona que ha durat l'aturada, els correus adreçats a vosaltres s'han anat emmagatzemant en un servidor intermig. En els propers minuts seran tots lliurats cap a les vostres bústies.
Parada de UU
Mañana martes día 17 de septiembre realizaremos una parada de Usuario Único,
que permanecerá sin servicio desde las 9:00 hasta las 14:00.
Las aplicaciones que utilizan datos de Usuario Único, tales como la aplicación de viajes, quies, etc funcionarán
con normalidad, pero no se podrán crear ni consultar vinculaciones o recursos durante el periodo especificado.
Lamentamos las molestias que os pueda ocasionar.
ACTUALIZACIÓN (17/9/13 14:07)
Hemos restablecido el servicio web de Usuario Único
Recomendamos al PDI del Depatamento que compruebe sus vinculaciones y envíe un correo a suport.tic@ac.upc.edu
en caso de encontrar algún error.
Actualització dels loadbalancers
Demà divendres dia 30 d'agost a les 8:00h passarem actualitzacions de sistema als balancejadors de càrrega, les quals incorporen algunes millores de seguretat i bugfixes. Per a que entrin en producció serà necessari també reiniciar-los. Preveiem que la durada de l'actuació serà com a molt d'una hora.
El procediment d'actualització i reboot és transparent als serveis balancejats, i per tant no hauríeu de notar cap interrupció (tret de que ocorri algun imprevist durant l'actualització, òbviament). En tot cas, aquest és el llistat de serveis balancejats actualment:
- web institucional (www)
- accés a la xarxa interna via VPN
- accés al clúster via ssh (arvei)
- autenticació de rosetes ethernet (vmps)
* Actualització 8:57h: L'actuació ha finalitzat sense incidències.
Autenticació UPC per la web del DAC
El mecanisme de single sign-on de la web del DAC s'ha integrat amb la identificació de la UPC.
A partir d'aquest moment podreu triar si utilitzeu les credencials del DAC per iniciar una sessió com fins ara o, si ho preferiu, podreu clicar a l'enllaç que us durà a la web d'identificació de la UPC (on també podreu utilitzar la tarja UPC). Un cop identificats, tornareu automàticament a la pàgina web del DAC que volíeu visitar.
Per poder realitzar la integració de la identitat UPC hem introduït un nou recurs informàtic a Usuari Únic anomenat Usuari UPC. Verifiqueu-lo i si no el teniu o no és correcte, feu-nos-ho saber.
Recuperació dels serveis després del tall elèctric
La tempesta de la matinada de dijous va produir diversos talls de corrent elèctric als edicifis del Campus Nord cap als volts de les 3. L'endemà al matí l'equip de manteniment estava donant corrent altre cop als edificis quan cap a les 8 es va produir un nou tall com a conseqüència de l'avaria del transformador que abasteix el D6 i alguns edificis més. L'edifici C6 tenia corrent però la connectivitat depèn del router central que hi ha al D6, fins i tot per la xarxa sense fils.
Afortunadament manteniment tenia un transformador de reserva cedit pel BSC, així que van contractar una grua per a poder retirar el transformador avariat (van aconseguir treure'l cap a quarts de 3 de la tarda) i substituir-lo pel de reserva. L'equip de manteniment va finalitzar la substitució del transformador passades les 8 del vespre i ens van notificar que ja hi havia corrent a l'edifici D6.
Cap a les 7 d'aquest matí hem començat a iniciar els equips de xarxa i els servidors, els quals afortunadament no han patit cap avaria com a conseqüència dels diversos talls elèctrics. Cap a les 9:30 els serveis bàsics ja estaven funcionant i després hem anat resolent petites incidències.
Ahir també es va produir un tall elèctric al CPD de la UPC que va afectar als serveis de continuïtat de correu i web. Després d'algunes dificultats per aconseguir corrent elèctric vam poder posar en marxa el servidor de continuïtat poc abans de les 11 del matí d'ahir. Els diversos talls de corrent van afectar també al servidor primari de DNS de la UPC (és el que fa de secundari del DAC), que va patir una avaria i fins aquest matí poc abans de les 8 no l'han pogut restablir. Així doncs, tot i que el servidor de continuïtat estava funcionant, no hi havia forma d'accedir-hi perquè fallava la resolució de noms amb DNS.
Nuevo enlace C6-D6
Desde el pasado viernes, la conexión del C6 al D6 se ha actualizado a 10Gb, y si no estamos equivocados, es el primer enlace entre edificios dentro de la UPC que funciona a esta velocidad.
Con este cambio damos por finalizado la actualización de equipos core de red!
Actualització del nucli a diversos servidors
Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dimarts dia 25 de juny a les 7:30h. La durada prevista per a l'actuació és d'una hora.
Alguns dels serveis afectats són:
- db-1 (bases de dades d'aplicacions de la intranet principalment)
- boada (cluster de docència)
- sistemes (aplicatius web d'alta de recursos informàtics)
- intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
Donat que també estan afectats els hosts servidors de màquines virtuals, es pot donar el cas de la interrupció de qualsevol servei durant uns instants.
Actualització del nucli a diversos servidors
Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme demà dijous dia 13 de juny a les 7:30h. La durada prevista per a l'actuació és d'una hora.
Els servidors afectats són els següents:
- sites (cPanel, pàgines personals, zones web)
- diversos servidors de màquines virtuals (en principi no suposaran una aturada de servei perquè es migraran les màquines virtuals a d'altres servidors)
* Actualització [8:45h]: L'actuació sobre alguns dels servidors de màquines virtuals tallat la connexió entre aquests i el disc centralitzat, propiciant que les màquines virtuals que estaven en execució s'hagin aturat de forma no planificada. Hores d'ara el servei ha estat completament restablert. Lamentem les molèsties ocasionades. Aquestes han estat les màquines virtuals afectades:
- el servidor de lectura de correu (IMAP i POP)
- els nodes d'accés al cluster arvei (florensa i safont)
- el servidor controlador de les cues del cluster arvei
- el servidor Windows (amargos)
* Actualització [11:15 - 12:30h]: El servidor sites (cPanel, pàgines personals i zones web) ha fallat a les 11:15h degut un error no recuperable en l'accés al disc centralitzat que ha ocasionat la caiguda total del sistema. Ha estat necessari reiniciar-lo i passar comprovacions d'integritat del sistema de fitxers, el qual ha tardat més d'una hora en completar-se. El servei torna ja a funcionar amb normalitat.
Nou servei VPN amb distribució de càrrega
Hem redissenyat el servei de VPN per a que gaudeixi dels avantatges de la nova infraestructura de distribució i balanceig de càrrega de serveis, millorant-ne significativament així la disponibilitat i la gestió de la capacitat.
D'aquesta manera, quan ens connectem a la VPN ens atendran els loadbalancers (els quals estan reduntats), i aquests decidiran cap a quin dels múltiples servidors de VPN disponibles encaminaran la nostra connexió en funció de la disponibilitat i la càrrega dels mateixos.
En conseqüència, tant l'addició de nous servidors de VPN com els manteniments programats que s'hi puguin dur a terme seran transparents als clients.
MOLT IMPORTANT: Per a fer ús del nou servei de VPN és imprescindible que actualitzeu la configuració al vostre client. Trobareu les instruccions necessàries a la documentació del servei.
El nou servei de VPN ja està en producció i ja podeu descarregar-vos la nova configuració. Mantindrem actiu l'antic servei fins el proper dilluns dia 10 de juny, que procedirem a desmantellar-lo. Us recomanem doncs que actualitzeu la configuració del vostre client de seguida que us sigui possible.
Reinici del servidor de cues del cluster arvei
El proper dimarts 4 de juny de 2013 a les 7:30 es procedirà a realitzar un reboot del servidor de cues que dona servei al cluster arvei.
En principi no s'han de veure afectats els jobs que estan a a la cua ni els que estan en execució.
Mentre duri el reboot (uns 15 minuts), no es podran enviar nous treballs a les cues.
Balanceig de càrrega en l'accés al web institucional
Aprofitant la nova infraestructura de distribució i balanceig de càrrega de serveis, l'accés al web institucional a partir de l'adreça http://www.ac.upc.edu es realitza ara a través dels loadbalancers. L'arquitectura del servei web queda definida d'aquesta manera:
- Nivell 0: Servei d'emergència -> Detecció de fallada total de servei al CPD del D6 ocasionat, per exemple, per una apagada elèctrica; en aquest cas s'ofereix una versió reduïda del web institucional amb continguts d'emergència
- Nivell 1 (nou): Loadbalancers -> Distribució de la càrrega de les peticions web cap al següent nivell
- Nivell 2: Proxy invers transparent -> Discriminació de continguts web per URL i reencaminament cap als servidors web específics
- Nivell 3: Servidors web específics -> web principal, intranet, zones de docència i recerca, pàgines personals, repositoris de codi de projectes i wikis associats, etc.
El nivell 1 és nou, i ens permet flexibilitzar el nivell 2 afegint-hi múltiples servidors. Això comporta una millora significativa en la disponibilitat i la capacitat del servei, que deixa de veure's afectat en cas d'incidències puntuals o manteniments programats que tinguin lloc en algun dels servidors del nivell 2.
Amb tot, els servidors del nivell 3 actualment no estan redundats: això vol dir que si cau un d'aquests servidors, els continguts específics propis seus no estaran disponibles (per exemple, si cau el servidor de repositoris de codi de projectes no estarà disponible el servei de Trac).
Actualització del nucli a diversos servidors
Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dimarts dia 28 de maig a les 7:30h. Addicionalment aprofitarem per a redefinir algunes de les màquines virtuals, per a que puguin córrer en hosts més moderns. La durada prevista per a l'actuació és d'una hora i mitja.
Els servidors afectats són els següents:
- www-1 (web institucional, webmail, reports)
- intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
- sistemes (aplicatius web d'alta de recursos informàtics)
- db-1 (bases de dades d'aplicacions de la intranet principalment)
- boada (cluster de docència)
- amargos (servidor Windows)
Actualització [8:40]: L'actualització ja ha finalitzat. Tots els serveis tornen a estar operatius
Reinici dels loadbalancers
Demà dimarts dia 28 de maig a partir de les 11:00h procedirem al reboot dels loadbalancers per a solucionar definitivament el problema que impedeix la replicació de la taula de connexions entre el master i l'esclau, el qual ens vam trobar durant la darrera actualització dels mateixos. La durada prevista per a l'actuació és de 30 minuts.
L'únic servei que es veurà afectat és la connexió als nodes d'entrada del cluster arvei a través de ssh: les connexions que hagin estat establertes a través dels loadbalancers abans del dia 27 es veuran interrompudes. Recordeu que podeu minimitzar l'impacte d'aquesta interrupció si feu ús de la comanda screen per a sessions interactives de llarga durada, tal com expliquem a la documentació.
El Jordi es casa!!!
Al Laboratori de Càlcul estem d'enhorabona: el nostre company Jordi Bellido es casa demà dissabte amb la seva companya de tota la vida, l'Ana.
Des d'aquí volem desitjar-los tota la felicitat del món i que s'ho passin molt bé al viatge de noces. Moltes felicitats!!! :-)
Manteniment de florensa i safont
El proper dijous dia 23 de maig a les 7:30h durem a terme un manteniment software d'ambdós nodes d'entrada al cluster arvei (florensa i safont). L'operació està previst que tingui una hora de durada, i consisteix en:
- actualització del sistema operatiu
- redefinició de l'arquitectura de les màquines virtuals
- migració a un host més modern
Per a dur a terme l'actuació és necessari rebootar les màquines. En conseqüència, les sessions ssh establertes seran tancades. Això pot tenir un impacte especialment important en treballs interactius de llarga durada, on una pèrdua de connexió pot resultar fatal. Us recordem que podeu evitar aquesta sitació si feu ús de la comanda screen tal com us expliquem a la documentació del servei.
* Actualització 8:40h: Ambdós servidors tornen a estar disponibles, tot i que actualment estan una mica carregats degut a la instal·lació de programari que s'està duent a terme.
* Actualització 8:50h: La instal·lació de programari ha finalitzat a florensa. Resta una miqueta per a que acabi safont també.
* Actualització 9:15h: La instal·lació de programari ha finalitzat també a safont.
Actualització dels loadbalancers
El proper dimarts dia 21 de maig a les 7:30h procedirem a actualitzar la versió del sistema dels loadbalancers. La durada prevista és d'1 hora.
En principi l'actualització ha de ser transparent als serveis oferts si no hi ha cap incidència. En tot cas, us recomanem que prengueu les mesures oportunes per si hi hagués interrupció d'algun servei.
Els serveis potencialment afectats són:
- connexió ssh cap al cluster arvei -> us recomanem usar la comanda screen per a sessions interactives de llarga durada, consulteu els detalls a la documentació
- autenticació de rosetes ethernet (vmps)
* Actualització 8:20h: El procediment d'actualització ha finalitzat. Les connexions ssh cap a arvei s'han vist interrompudes degut a una incidència durant l'actualització: la replicació de la taula d'estat de connexions entre els dos loadbalancers del cluster ha deixat de funcionar amb la nova versió. Ens hem posat en contacte amb el fabricant per a resoldre el problema el més aviat possible.
Cambio URLs Reports de Investigación
A petición de un usuario, hemos procedido a acortar las URLs de los reports de investigación.
Las URLs de los reports anteriores siguen funcionando, aunque las URL que ahora se muestran son mucho más cortas.
Os recordamos que si necesitáis incluir en vuestros artículos la URL de un report de investigación deberéis usar la URL pública (acceso desde http://www.ac.upc.edu/app/research-reports/html), que es la que es accesible desde Internet, para lo cual el report deberá marcarse como público.
Actualització del nucli a diversos servidors
Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dijous dia 9 de maig a les 7:30h. La durada prevista per a l'actuació és d'una hora i mitja.
Els servidors afectats són els següents:
- xarxes-2 (DNS, DHCP, VMPS)
- recursos (impressores, samba)
- www-1 (web institucional, webmail, reports)
- gw-1 (proxy web institucional, VPN)
- intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
- sistemes (aplicatius web d'alta de recursos informàtics)
- db-1 (bases de dades d'aplicacions de la intranet principalment)
- sistemes-1 (llicències flotants)
- sites (cPanel, pàgines personals, zones web)
Actualització 8:25: Tots els serveis tornen a funcionar amb normalitat.