Level-3 BLAS on a GPU: Picking the Low Hanging Fruit
Ver/ Abrir
Metadatos
Mostrar el registro completo del ítemcomunitat-uji-handle:10234/9
comunitat-uji-handle2:10234/7036
comunitat-uji-handle3:10234/27725
comunitat-uji-handle4:
INVESTIGACIONMetadatos
Título
Level-3 BLAS on a GPU: Picking the Low Hanging FruitFecha de publicación
2009-04Editor
Departament d' Enginyeria i Ciència dels Computadors, Universitat Jaume ITipo de documento
info:eu-repo/semantics/reportPalabras clave / Materias
Resumen
The arrival of hardware accelerators has created a new gold rush to be the rst to deliver
their promise of high performance for numerical applications. Since they are relatively hard
to program, with limited language ... [+]
The arrival of hardware accelerators has created a new gold rush to be the rst to deliver
their promise of high performance for numerical applications. Since they are relatively hard
to program, with limited language and compiler support, it is generally accepted that one
needs to roll up one's sleeves and tough it out, not unlike the early days of distributed me-
mory parallel computing (or any other period after the introduction of a drastically di erent
architecture). In this paper we remind the community that while this is a noble endeavor,
there is a lot of low hanging fruit that can be harvested easily. Picking this low hanging fruit
bene ts the scienti c computing community immediately and prototypes the approach that
the further optimizations may wish to follow. We demonstrate this by focusing on a widely
used set of operations, the level-3 BLAS, targeting the NVIDIA family of GPUs [-]
La llegada de los aceleradores hardware ha creado una nueva fiebre del oro en ser los
primeros en conseguir las prometidas elevadas prestaciones en aplicaciones numéricas. Ya
que son relativamente difíciles de ... [+]
La llegada de los aceleradores hardware ha creado una nueva fiebre del oro en ser los
primeros en conseguir las prometidas elevadas prestaciones en aplicaciones numéricas. Ya
que son relativamente difíciles de programar, con un soporte de lenguajes y compiladores
limitado, se acepta que uno tiene que arremangarse la camisa y apretar los dientes, de forma
no muy distinta a los primeros días de la programación de máquinas con memoria distribuida
(o a cualquier otro periodo tras la introducción de una arquitectura drásticamente diferente).
En este trabajo recordamos a la comunidad que mientras ésa es una actitud noble, hay un
montón de fruta que puede ser recogida mucho más fácilmente. Recoger esta fruta beneficia
a la comunidad científica inmediatamente y sirve para prototipar las aproximaciones que
las subsiguientes optimizaciones deberían seguir. En este artículo demostramos lo anterior
aplicándolo a un amplio conjunto de operaciones, el BLAS de nivel 3, orientado la la familia
de GPUs de NVIDIA [-]
Derechos de acceso
http://rightsstatements.org/vocab/CNE/1.0/
info:eu-repo/semantics/openAccess
info:eu-repo/semantics/openAccess
Aparece en las colecciones
- ICC_Reports [18]