Vés al contingut (premeu Retorn)

Sou a: Inici / Nosaltres / Serveis TIC / Blog

Blog

Reinici del servidor de cues del cluster arvei

El proper dimarts 4 de juny de 2013 a les 7:30 es procedirà a realitzar un reboot del servidor de cues que dona servei al cluster arvei.

En principi no s'han de veure afectats els jobs que estan a a la cua ni els que estan en execució.

Mentre duri el reboot (uns 15 minuts), no es podran enviar nous treballs a les cues.

Balanceig de càrrega en l'accés al web institucional

Aprofitant la nova infraestructura de distribució i balanceig de càrrega de serveis, l'accés al web institucional a partir de l'adreça http://www.ac.upc.edu es realitza ara a través dels loadbalancers. L'arquitectura del servei web queda definida d'aquesta manera:

  • Nivell 0: Servei d'emergència -> Detecció de fallada total de servei al CPD del D6 ocasionat, per exemple, per una apagada elèctrica; en aquest cas s'ofereix una versió reduïda del web institucional amb continguts d'emergència
  • Nivell 1 (nou): Loadbalancers -> Distribució de la càrrega de les peticions web cap al següent nivell
  • Nivell 2: Proxy invers transparent -> Discriminació de continguts web per URL i reencaminament cap als servidors web específics
  • Nivell 3: Servidors web específics -> web principal, intranet, zones de docència i recerca, pàgines personals, repositoris de codi de projectes i wikis associats, etc.

www

El nivell 1 és nou, i ens permet flexibilitzar el nivell 2 afegint-hi múltiples servidors. Això comporta una millora significativa en la disponibilitat i la capacitat del servei, que deixa de veure's afectat en cas d'incidències puntuals o manteniments programats que tinguin lloc en algun dels servidors del nivell 2.

Amb tot, els servidors del nivell 3 actualment no estan redundats: això vol dir que si cau un d'aquests servidors, els continguts específics propis seus no estaran disponibles (per exemple, si cau el servidor de repositoris de codi de projectes no estarà disponible el servei de Trac).

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dimarts dia 28 de maig a les 7:30h. Addicionalment aprofitarem per a redefinir algunes de les màquines virtuals, per a que puguin córrer en hosts més moderns. La durada prevista per a l'actuació és d'una hora i mitja.

Els servidors afectats són els següents:

  • www-1 (web institucional, webmail, reports)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • sistemes (aplicatius web d'alta de recursos informàtics)
  • db-1 (bases de dades d'aplicacions de la intranet principalment)
  • boada (cluster de docència)
  • amargos (servidor Windows)

Actualització [8:40]: L'actualització ja ha finalitzat. Tots els serveis tornen a estar operatius

Reinici dels loadbalancers

Demà dimarts dia 28 de maig a partir de les 11:00h procedirem al reboot dels loadbalancers per a solucionar definitivament el problema que impedeix la replicació de la taula de connexions entre el master i l'esclau, el qual ens vam trobar durant la darrera actualització dels mateixos. La durada prevista per a l'actuació és de 30 minuts.

L'únic servei que es veurà afectat és la connexió als nodes d'entrada del cluster arvei a través de ssh: les connexions que hagin estat establertes a través dels loadbalancers abans del dia 27 es veuran interrompudes. Recordeu que podeu minimitzar l'impacte d'aquesta interrupció si feu ús de la comanda screen per a sessions interactives de llarga durada, tal com expliquem a la documentació.

El Jordi es casa!!!

Al Laboratori de Càlcul estem d'enhorabona: el nostre company Jordi Bellido es casa demà dissabte amb la seva companya de tota la vida, l'Ana.

Des d'aquí volem desitjar-los tota la felicitat del món i que s'ho passin molt bé al viatge de noces. Moltes felicitats!!! :-)

Manteniment de florensa i safont

El proper dijous dia 23 de maig a les 7:30h durem a terme un manteniment software d'ambdós nodes d'entrada al cluster arvei (florensa i safont). L'operació està previst que tingui una hora de durada, i consisteix en:

  • actualització del sistema operatiu
  • redefinició de l'arquitectura de les màquines virtuals
  • migració a un host més modern

Per a dur a terme l'actuació és necessari rebootar les màquines. En conseqüència, les sessions ssh establertes seran tancades. Això pot tenir un impacte especialment important en treballs interactius de llarga durada, on una pèrdua de connexió pot resultar fatal. Us recordem que podeu evitar aquesta sitació si feu ús de la comanda screen tal com us expliquem a la documentació del servei.

* Actualització 8:40h: Ambdós servidors tornen a estar disponibles, tot i que actualment estan una mica carregats degut a la instal·lació de programari que s'està duent a terme.

* Actualització 8:50h: La instal·lació de programari ha finalitzat a florensa. Resta una miqueta per a que acabi safont també.

* Actualització 9:15h: La instal·lació de programari ha finalitzat també a safont.

Actualització dels loadbalancers

El proper dimarts dia 21 de maig a les 7:30h procedirem a actualitzar la versió del sistema dels loadbalancers. La durada prevista és d'1 hora.

En principi l'actualització ha de ser transparent als serveis oferts si no hi ha cap incidència. En tot cas, us recomanem que prengueu les mesures oportunes per si hi hagués interrupció d'algun servei.

Els serveis potencialment afectats són:

  • connexió ssh cap al cluster arvei -> us recomanem usar la comanda screen per a sessions interactives de llarga durada, consulteu els detalls a la documentació
  • autenticació de rosetes ethernet (vmps)

* Actualització 8:20h: El procediment d'actualització ha finalitzat. Les connexions ssh cap a arvei s'han vist interrompudes degut a una incidència durant l'actualització: la replicació de la taula d'estat de connexions entre els dos loadbalancers del cluster ha deixat de funcionar amb la nova versió. Ens hem posat en contacte amb el fabricant per a resoldre el problema el més aviat possible.

Cambio URLs Reports de Investigación

A petición de un usuario, hemos procedido a acortar las URLs de los reports de investigación.

 

Las URLs de los reports anteriores siguen funcionando, aunque las URL que ahora se muestran son mucho más cortas.

 

Os recordamos que si necesitáis incluir en vuestros artículos la URL de un report de investigación deberéis usar la URL pública (acceso desde http://www.ac.upc.edu/app/research-reports/html), que es la que es accesible desde Internet, para lo cual el report deberá marcarse como público.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dijous dia 9 de maig a les 7:30h. La durada prevista per a l'actuació és d'una hora i mitja.

Els servidors afectats són els següents:

  • xarxes-2 (DNS, DHCP, VMPS)
  • recursos (impressores, samba)
  • www-1 (web institucional, webmail, reports)
  • gw-1 (proxy web institucional, VPN)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • sistemes (aplicatius web d'alta de recursos informàtics)
  • db-1 (bases de dades d'aplicacions de la intranet principalment)
  • sistemes-1 (llicències flotants)
  • sites (cPanel, pàgines personals, zones web)

Actualització 8:25: Tots els serveis tornen a funcionar amb normalitat.

Instalación de los nuevos equipos de red

La semana pasada nos llegó el equipo que servirá para renovar el commutador/enrutador central (el actual ya tiene más de 8 años) y que da servicio a los edificios C6 y D6 (servidores, despachos, wifi).

Para minimizar el impacto en el servicio que provocará la sustitución de un equipo por otro realizaremos la puesta en marcha en varios pasos:

  • Cambio de conexión C6 - D6
  • Cambio de conexión UPC (uplink)
  • Cambio de conexiones internas
  • Sustitución de placa interna e instalación en el nuevo equipo (ampliación de puertos)
  • Enrutamiento en el nuevo equipo
  • Sustitución física del equipo antiguo por el nuevo y cambio de conexiones restantes

La mayoría de cambios los haremos a lo largo de la semana que viene a primera hora de la mañana y, en principio, deberían suponer una interrupción muy breve del servicio de red.

La sustitución física del equipo antiguo será un cambio más lento (tal vez unas 2 horas o más) que realizaremos probablemente  el 30 de abril (concretaremos más adelante).

Actualización 22/Abril (de 7:30 a 8:10): Conexión UPC (uplink) funcionando. Conexión C6-D6 no ha funcionado (posible fallo cable o transceiver)

Actualización 23/Abril (de 7:30 a 8:00): Pruebas de conexión C6-D6 (sigue sin funcionar). Cambio de conexiones internas.

Actualización 25/Abril (de 7:30 a 8:30): Cambio de conexión C6-D6 (aunque seguimos a 1Gb). Cambio de placa interna e instalación en el nuevo equipo

Actualización 26/Abril (de 7:48 a 8:00): Enrutamiento en el nuevo equipo. Antiguo equipo apagado!

Actualización 30/Abril (de 7:30 a 7:52): Instalación física definitiva realizada

Canvi del driver de disc al servidor de les bústies de correu

Per millorar el rendiment de disc del servidor de les bústies de correu, demà dijous 25 d'abril realitzarem un aturada de 30 minuts a les 07:30 del matí.

Amb aquest canvi confiem en què l'accés al disc sigui significativament més ràpid i millori la velocitat d'accés a les bústies i es redueixi el temps per efectuar les còpies de seguretat.

 

Actualització 07:41: El servei torna a estar en marxa

Nova impressora fotocopiadora a la segona planta del D6

Avui s'ha posat en producció una nova impressora, escaner i fotocopiadora a la segona planta de l'edifici D6, de nom d6p2j.

Es tracta d'una impressora Ricoh Aficio MP 5002 SP, de tòner negre. A Windows la podeu afegir com a d6p2j, i a Linux la podeu afegir amb les seves tres cues d'impressió: d6p2j, d6p2j_d id6p2j _dl. Aquesta impressora NO funciona als WinCenter del Departament.

Trobareu la documentació sobre com afegir-la al vostre sistema al nostre wiki. La instal·lació a sistemes Windows 7 o superiors no és immediata; si us plau, llegiu la documentació indicada.

Per tal de fer servir la funció d'escaner, cal contactar amb Administració del DAC.

Per a qualsevol consulta, podeu enviar-nos un correu a suport.tic@ac.upc.edu, trucar-nos al 15953 o passar pel D6-S108.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dijous dia 11 d'abril a les 7:30h. La durada prevista per a l'actuació és d'una hora i mitja.

Els servidors afectats són els següents:

  • xarxes-2 (DNS, DHCP, VMPS)
  • recursos (impressores, samba)
  • www-1 (web institucional, webmail, reports)
  • gw-1 (proxy web institucional, VPN)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • sistemes (aplicatius web d'alta de recursos informàtics)
  • db-1 (bases de dades d'aplicacions de la intranet principalment)
  • sistemes-1 (llicències flotants)
  • boada (cluster de docència)

Actualització 9:13h: Tots els serveis tornen a funcionar amb normalitat. De 8:30 a 8:40 hem tingut un interval de temps on el servidor primari de DNS ha deixat de respondre, i potser heu percebut un tall de connectivitat. Disculpeu les molèsties ocasionades.

Actualització del nucli al servidor sites

Les darreres actualitzacions de seguretat passades al servidor sites han instal·lat una nova versió del nucli del sistema que requereixen un reinici, el qual durem a terme el proper dijous dia 21 de març a les 7:30h. La durada prevista per a l'actuació és de 30 minuts.

Els servei afectat és el cPanel, que comprèn la gestió i continguts de les zones web de docència, recerca i personals.

Actualització 21/3/2013, 7:44h: El servei torna a operar amb normalitat.

Límits d'execució als nodes d'accés al cluster arvei

Aquest migdia hem fet efectius els límits d'execució interactiva als nodes d'accés al cluster arvei (florensa i safont, actualment). Aquests límits s'apliquen a totes les sessions que obrim quan ens connectem als nodes d'accés mitjançant ssh. El seu objectiu és evitar la saturació d'aquests nodes per així garantir la disponibilitat del cluster.

Els límits establerts són els mateixos que ja s'aplicaven a les sessions interactives que obrim a cadascun dels nodes quan ens hi connectem amb ssh. Recordeu que, a efectes de límits, no és el mateix obrir una sessió interactiva a un node amb ssh o amb qrsh (o qlogin):

  • amb ssh se'ns apliquen uns límits molt restrictius
  • mentre que amb qrsh o qlogin se'ns apliquen els limits propis a la cua d'execució que hem especificat

Aquests límits afecten a recursos tals com:

  • temps de CPU assignat
  • temps total d'execució
  • memòria virtual
  • etc.

En conseqüència, si necessiteu executar processos interactius que necessitin de gran nombre de recursos, seguiu les instruccions que es descriuen en aquest document, i pareu especial atenció també a la recomanació sobre l'ús d'eines tals com screen.

Consulteu la documentació del servei per a més detalls sobre el nom de cadascuna de les cues d'execució i els seus recursos disponibles.

Nou mètode d'entrada al cluster arvei i limitacions sobre els nodes d'accés

Aprofitant la nova infraestructura de distribució i balanceig de càrrega de serveis, el mecanisme d'accés al cluster arvei ha canviat: ja no és necessari recordar el nom dels nodes d'accés, a més dels múltiples beneficis que ens aporten els loadbalancers: alta disponibilitat, uniformitat d'accés, transparència, etc.

Teniu tots els detalls sobre com connectar-vos al cluster a la documentació de funcionament general, en especial a l'apartat on fa referència als nodes d'accés.

Com veureu en aquest document, s'imposen limitacions estrictes a les execucions interactives que es diguin a terme sobre aquests nodes d'accés. Aquestes limitacions no són vigents a dia d'avui, però ho seran en breu.

L'objectiu principal d'aquestes limitacions és evitar la saturació dels propis nodes d'accés, la qual comporta a la pràctica que el cluster sigui inaccessible. Els nodes d'accés han de servir únicament com a punt d'entrada al cluster. A partir d'aquí podem:

  • llençar treballs a les cues d'execució
  • llençar treballs a les cues interactives, tot saltant a un node interactiu dedicat a aquest propòsit

Respecte a l'execució de processos interactius pesants, pareu especial atenció a les recomanacions que fem sobre l'ús d'eines com screen. En teniu tots els detalls al document d'operacions comuns sobre el cluster.

Distribució de càrrega i alta disponibilitat de serveis

Des de mitjans de febrer estem fent proves de replicació de serveis i distribució de càrrega dels mateixos. L'objectiu és que els clients d'un determinat servei es connectin a una única adreça, i que aquesta els reencamini de forma transparent cap a un dels diversos servidors que ofereixen aquest servei.

Els avantatges que obtenim són múltiples:

  • Els clients només han de recordar una única adreça del servei
  • Aquesta adreça és un front-end que actua com a loadbalancer, el qual pot decidir dinàmicament cap a quin dels servidors back-end reencamina les peticions, en funció de la càrrega dels mateixos
  • Això permet afegir de forma transparent nous servidors de back-end si el servei així ho requereix
  • També permet fer manteniment sobre els diferents serveis i servidors de back-end sense que els clients percebin interrupcions de servei

Addicionalment, el loadbalancer està format en realitat per un cluster de dos servidors en configuració redundant i amb alta disponibilitat, de manera que si falla un dels loadbalancers, l'altre prendrà el control automàticament i de forma transparent pels clients, sense interrupció del servei. Aquesta configuració també ens permet fer manteniment dels loadbalancers de forma alternada sense afectar al servei.

Els loadbalancers són, juntament amb els equips de disc centralitzat, els primers equips que es connecten de forma redundant a la infraestructura de xarxa a una velocitat de 10 Gbps.

El primer dels serveis que ha estat replicat i distribuït d'aquesta manera ha estat el servei d'autenticació de MACs als equips de comunicacions, el qual assigna una determinada subxarxa al vostre equip quan s'endolla a qualsevol de les rosetes dels edificis C6 i D6. En breu procedirem a replicar i distribuir nous serveis.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper divendres dia 8 de març a les 7:30h. La durada prevista per a l'actuació és d'1 hora.

Els servidors afectats són els següents:

  • gw-1 (proxy web, VPN)
  • sistemes-1 (llicències flotants)

Actualització [8/03/2013]: A les 08:00 els sistemes tornaven a estar operatius.

Nova impressora a la primera planta del D6

Avui s'ha posat en producció una nova impressora a la primera planta de l'edifici D6, de nom d6p1d. L'antiga impressora d6p1b s'ha retirat definitivament.

Aquesta impressora s'ha posat en producció més tard del previst per una avaria de sèrie.

Es tracta d'una impressora Kyocera FS-4200DN, de tòner negre. A Windows la podeu afegir com a d6p1d, i a Linux la podeu afegir amb les seves tres cues d'impressió: d6p1d, d6p1d_d i d6p1d_dl. Les impressores ja són operatives als WinCenter sindreu (Windows 2000), robert (Windows 2008) i amargos (Windows 2008 R2).

Trobareu la documentació sobre com afegir-la al vostre sistema al nostre wiki.

Per a qualsevol consulta, podeu enviar-nos un correu a suport.tic@ac.upc.edu, trucar-nos al 15953 o passar pel D6-S108.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli del sistema que requereixen un reinici que durem a terme el proper dijous dia 28 de febrer a les 8:00h. La durada prevista per a l'actuació és d'1 hora.

Els servidors afectats són els següents:

  • xarxes-2 (DNS, DHCP, VMPS)
  • recursos (impressores, samba)
  • www-1 (web institucional, webmail, reports)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • db-1 (bases de dades d'aplicacions de la intranet principalment)
  • sistemes-1 (llicències flotants)
  • boada (cluster de docència)

Actualització 28/2/2013, 8:51h: Tots els serveis estan de nou disponibles i funcionant amb normalitat.

Migración de la Web institucional

El próximo miércoles 20/02/2013 a las 08:00 se procederá a realizar la migración de la web institucional del  servidor público ribot2 al nuevo servidor público www-1.

Para realizar la migración se realizará una parada técnica de los siguientes servicios:

 

  • Web institucional
Actualització [09:20]: El procés de migració s'ha completat. Ja torna a estar tot operatiu.

Problemes al servidor Windows de nom "robert"

El servidor de Windows de nom "robert" ha restat apagat durant tota la tarda d'avui per aplicar actualitzacions del sistema operatiu pendents. S'ha contactat amb els usuaris que tenien iniciada la sessió per tal de fer una apagada correcta sense pèrdua de dades.

Demà s'actualitzarà Java en aquest servidor i pot ser necessari reiniciar-la un cop més.

Dispenseu les molèsties que us pugui ocasionar.

 

Actualització [19 feb 09:40]: torna a estar encesa després de l'apagada d'ahir per les actualitzacions.

Canvi de switch al mòdul C6

Demà divendres 15/02 entre les 07:30 i les 8:00 del matí, es procedirà a canviar les conexions dels switchos que donen accés als despatxos de l'edifici C6 amb un nou switch d'interconnexió entre el C6 i el D6.

 

Aquesta actuació pot comportat perdues de connexió d'uns segons a les màquines connectades a l'edifici C6.

Actualització del nucli al servidor sites

El proper dimecres 30 de gener a les 08:00 reiniciarem el servidor sites (cPanel, pàgines personals, zones web) per tal de canviar el nucli del sistema pel de la darrera actualització publicada.

El temps previst per l'actuació és de 30 minuts.

 

Actualització [08:30]: els serveis tornen a estar disponibles.

Migración servidor de correo

El próximo jueves 17/01/2013 a las 08:00 se procederá a realizar la migración del sistema del servidor de correo al disco centralizado.

Esta operación es necesaria para disminuir los riesgos en caso de problemas en el host que ejecuta el servidor.

La operación está previsto que duré hasta las 10:00 y durante este tiempo se podrá consultar el correo mediante el servicio de continuidad: https://www.ac.upc.edu/app/webmail-cont

 

Actualitzación 17/01/2013 08:40: El servicio de correo vuelve a estar operativo y con el sistema migrado al disco centralizado.

Actualització del nucli a diversos servidors

Les darreres actualitzacions de seguretat dels servidors han instal·lat una nova versió del nucli i cal fer un re-inici que durem a terme el proper dijous dia 10 de gener a les 8:00h. La durada prevista de l'actuació és d'1 hora.

Els servidors afectats són els següents:

  • gw-1 (proxy web, VPN)
  • intranet-1 (intranet, UU, MRBS, BSCW, RT, wiki)
  • recursos (impressores, samba)
  • sistemes-1 (llicències flotants)
  • stats-1 (recull d'indicadors d'ús de serveis)
  • www-1 (webmail, reports)
  • xarxes-2 (DNS, DHCP, VMPS)

Impressora de la primera planta del D6 avariada

L'actual impressora de la primera planta del D6, de nom d6p1b, està avariada i no es procedirà a la seva reparació.

S'està preparant una nova impressora que la substituirà.

 

Lamentem les molèsties que us pugui ocasionar aquest fet.

Nova impressora a la segona planta del D6

Avui s'ha posat en producció una nova impressora a la segona planta de l'edifici D6, de nom d6p2i. L'antiga impressora d6p2g s'ha retirat definitivament.

Es tracta d'una impressora Kyocera FS-4200DN, de tòner negre. A Windows la podeu afegir com a d6p2i, i a Linux la podeu afegir amb les seves tres cues d'impressió: d6p2i, d6p2i_d i d6p2i_dl. Les impressores ja són operatives als WinCenter sindreu (Windows 2000), robert (Windows 2008) i amargos (Windows 2008 R2).

Trobareu la documentació sobre com afegir-la al vostre sistema al nostre wiki.

Per a qualsevol consulta, podeu enviar-nos un correu a suport.tic@ac.upc.edu, trucar-nos al 15953 o passar pel D6-S108.

Actualització del servidor de bases de dades

Demà dimecres 9 de gener a les 11:00 del matí procedirem a actualitzar els paquets del servidor de bases de dades. El procés durarà 30 minuts com a màxim i es produiran aturades de les bases dels diferents sistemes de base de dades que afectaran els serveis següents:

  • Usuari Únic (UU i FTP)
  • Gestió de reserves (MRBS)
  • Web de la Intranet
  • Request Tracker d'Administració (RT)
  • Gestió bibliogràfica
  • Fitxes docents
  • Contactes d'Administració

Aturada no programada de gw

Aquest migdia, cap a les 12:40 hem aturat el servidor gw per tal de canviar el disc del mirror que havia fallat. Un cop canviat el disc defectuós el RAID ha començat a reconstruir-se i hem posat en marxa de nou el servidor. El temps de l'aturada ha estat de 20 minuts.