Consultas respecto a la carga de datos de fuentes estaticas #491

LautaroMelchiori · 2025-05-03T01:26:51Z

LautaroMelchiori
May 3, 2025

Por preguntas anteriores entiendo que el archivo csv debe ser parseado ante cada consulta. Mi pregunta es, a la hora de hacerlo, tiene sentido leerlo linea por linea o traerlo todo a memoria momentaneamente y procesarlo desde alli? entiendo que la primera minimiza el uso de memoria a costa de mayor tiempo de ejecucion mientras que la segunda hace lo contrario, que deberiamos priorizar en este caso? y en el tp en general?
Como deberiamos manejar la falta de datos en un archivo? Si falta un campo de los considerados "necesarios" (titulo, categoria, desc, lat, long, fecha) estaria bien ignorar la fila por completo?
Viendo las fuentes de ejemplo vemos que no siguen el formato preestablecido en cuanto a los campos que tienen y su nombre (no el orden, que al usar una biblioteca para parsear no es problema); no parece razonable que sea responsabilidad de la fuente contemplar los distintos formatos posibles (ni tampoco muy extensible!). Deberiamos realizarles un preprocesamiento para adaptarlas al formato deseado antes de cargarlos a una fuente y que esto sea una suerte de precondicion para la carga de datos csv?

May 3, 2025

Por preguntas anteriores entiendo que el archivo csv debe ser parseado ante cada consulta.

En principio, si.

No estaría mal si hicieran algo más sofisticado, que implemente una cache sobre eso para minimizar el tiempo de parseo, pero esta entrega no lo requiere.

Como ya mencionamos en otras respuestas, se busca no sobrecargar la memoria. Y algo más, secundario, que se me pasó mencionar anteriormente: posibilitar que si el archivo (ocasionalmente) cambia, no haya necesidad de reiniciar el servidor.

Mi pregunta es, a la hora de hacerlo, tiene sentido leerlo linea por linea o traerlo todo a memoria momentaneamente y procesarlo desde alli?

Queda a tu criterio: pue…

View full answer

flbulgarelli · 2025-05-03T15:10:12Z

flbulgarelli
May 3, 2025
Maintainer

Hola @LautaroMelchiori

Por preguntas anteriores entiendo que el archivo csv debe ser parseado ante cada consulta.

En principio, si.

No estaría mal si hicieran algo más sofisticado, que implemente una cache sobre eso para minimizar el tiempo de parseo, pero esta entrega no lo requiere.

Como ya mencionamos en otras respuestas, se busca no sobrecargar la memoria. Y algo más, secundario, que se me pasó mencionar anteriormente: posibilitar que si el archivo (ocasionalmente) cambia, no haya necesidad de reiniciar el servidor.

Mi pregunta es, a la hora de hacerlo, tiene sentido leerlo linea por linea o traerlo todo a memoria momentaneamente y procesarlo desde alli?

Queda a tu criterio: pueden explorar cualquiera de ambas opciones. Lo único que nos interesa en este punto es no sostener cientos, miles o potencialmente millones de registros cargados todo el tiempo en la memoria del proceso (servidor) Java.

Como deberiamos manejar la falta de datos en un archivo? Si falta un campo de los considerados "necesarios" (titulo, categoria, desc, lat, long, fecha) estaria bien ignorar la fila por completo?

Ignorarlo sería la última opción, y aún si así lo hicieran, deberían generar algún tipo de reporte de lo que falló. Imaginen que cargan un archivo de 2000 entradas y solo se cargan 1500: ¿se trata de un error del sistema? ¿O falta información en el archivo? ¿Podría el sistema brindarnos alguna información útil para corregir la información?

Dicho eso, como mencioné en alguna discusión, deberían apuntar primero a tratar de subsanar las entradas. ¿Podrían generar algún valor a partir de otro? ¿Podría haber algún valor por defecto? ¿Se podría tratar algún valor como opcional? ¿Que implicancias tendría?

Todo eso lo dejo a su criterio.

Viendo las fuentes de ejemplo vemos que no siguen el formato preestablecido en cuanto a los campos que tienen y su nombre (no el orden, que al usar una biblioteca para parsear no es problema);

Sí, este es un problema típico y real al trabajar con archivos csv.

no parece razonable que sea responsabilidad de la fuente contemplar los distintos formatos posibles (ni tampoco muy extensible!).

Coincido. O al menos, no estar acoplada en su propio código a cada uno de los formatos propuestos.

Deberiamos realizarles un preprocesamiento para adaptarlas al formato deseado antes de cargarlos a una fuente y que esto sea una suerte de precondicion para la carga de datos csv?

Es una idea interesante y válida. ¿Cómo piensan hacerlo?

Por las dudas aclaro (sobre todo para otras personas que lean este hilo y tengan otras opciones en mente) que esa es sólo una opción, y lidiar con múltiples esquemas podría ser resuelto en otros componentes del sistema..

Finalmente, como recomendación final, me parece importante que piensen en este problema que trajiste (hacer extensible el sistema a diferentes formatos de csv) y que exploren cada uno de los ejemplos para estudiar donde puede haber diferencias.

Sin embargo, para la entrega sugiero que se concentren, de mínima, en un dataset particular que les resulte de interés (u otro que tengan, si lo quieren proponer) y orienten la presentación a hacer una demostración del servicio de fuente estática cargando ese dataset, asociando a una colección con un criterio particular y posibilitando el filtrado de esos hechos según criterios particulares.

Digo esto porque el sistema necesita ser extensible en todos esos ejes, pero para hacer una demo les será conveniente mostrar un caso particular.

1 reply

LautaroMelchiori May 20, 2025
Author

Super claro, gracias!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Consultas respecto a la carga de datos de fuentes estaticas #491

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 1 comment 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Consultas respecto a la carga de datos de fuentes estaticas #491

Uh oh!

Uh oh!

LautaroMelchiori May 3, 2025

Replies: 1 comment · 1 reply

Uh oh!

Uh oh!

flbulgarelli May 3, 2025 Maintainer

Uh oh!

LautaroMelchiori May 20, 2025 Author

LautaroMelchiori
May 3, 2025

Replies: 1 comment 1 reply

flbulgarelli
May 3, 2025
Maintainer

LautaroMelchiori May 20, 2025
Author