Digital Maktaba addresses the complex issue of creating an efficient online platform to help language specialists as well as less expert cataloguers to produce bibliographic records that are consistent with non-Latin scripts. For this purpose, the solution being experimented by both computer scientists and humanistic expertise in the team leverages different technologies form OCR implemented in ad-hoc pipelines involving also more recent LLMs and VLMs in an innovative workflow oriented to obtain metadata extraction for texts written in non-Latin alphabets, starting with Arabic, for library use.
Digital Maktaba affronta la complessa questione della creazione di una piattaforma online efficiente per aiutare gli specialisti linguistici e i catalogatori meno esperti a produrre record bibliografici coerenti con le scritture non latine. A questo scopo, la soluzione sperimentata sia dagli informatici che dagli esperti umanisti del team sfrutta diverse tecnologie di OCR implementate ad hoc che coinvolgono anche gli LLM e VLM più recenti, in un flusso di lavoro innovativo orientato ad ottenere l'estrazione di metadati per testi scritti in alfabeti non latini, a partire dall'arabo, per il loro impiego nei servizi bibliotecari
Bergamaschi, S., Ruozzi, F., Ciccarello, D., Vigliermo, R., Sala, L., El Ganadi, A., et al. (2025). The Digital Maktaba platform: a tool for semi-automatic document cataloguing and searching. In A. Melloni, F. Cadeddu (a cura di), The Digital Turn in Religious Studies. Research, Services, Infrastructures. With 56 figures (pp. 395-414). Göttingen : Vandenhoeck & Ruprecht.
The Digital Maktaba platform: a tool for semi-automatic document cataloguing and searching
Ciccarello, D
;Vigliermo, RA
;El Ganadi, A
;
2025-01-01
Abstract
Digital Maktaba addresses the complex issue of creating an efficient online platform to help language specialists as well as less expert cataloguers to produce bibliographic records that are consistent with non-Latin scripts. For this purpose, the solution being experimented by both computer scientists and humanistic expertise in the team leverages different technologies form OCR implemented in ad-hoc pipelines involving also more recent LLMs and VLMs in an innovative workflow oriented to obtain metadata extraction for texts written in non-Latin alphabets, starting with Arabic, for library use.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025 - EUARE Conference 2024.pdf
Solo gestori archvio
Descrizione: Articolo principale completo di frontespizio e indice del volume
Tipologia:
Versione Editoriale
Dimensione
434.46 kB
Formato
Adobe PDF
|
434.46 kB | Adobe PDF | Visualizza/Apri Richiedi una copia |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


