Digital Maktaba addresses the complex issue of creating an efficient online platform to help language specialists as well as less expert cataloguers to produce bibliographic records that are consistent with non-Latin scripts. For this purpose, the solution being experimented by both computer scientists and humanistic expertise in the team leverages different technologies form OCR implemented in ad-hoc pipelines involving also more recent LLMs and VLMs in an innovative workflow oriented to obtain metadata extraction for texts written in non-Latin alphabets, starting with Arabic, for library use.

Digital Maktaba affronta la complessa questione della creazione di una piattaforma online efficiente per aiutare gli specialisti linguistici e i catalogatori meno esperti a produrre record bibliografici coerenti con le scritture non latine. A questo scopo, la soluzione sperimentata sia dagli informatici che dagli esperti umanisti del team sfrutta diverse tecnologie di OCR implementate ad hoc che coinvolgono anche gli LLM e VLM più recenti, in un flusso di lavoro innovativo orientato ad ottenere l'estrazione di metadati per testi scritti in alfabeti non latini, a partire dall'arabo, per il loro impiego nei servizi bibliotecari

Bergamaschi, S., Ruozzi, F., Ciccarello, D., Vigliermo, R., Sala, L., El Ganadi, A., et al. (2025). The Digital Maktaba platform: a tool for semi-automatic document cataloguing and searching. In A. Melloni, F. Cadeddu (a cura di), The Digital Turn in Religious Studies. Research, Services, Infrastructures. With 56 figures (pp. 395-414). Göttingen : Vandenhoeck & Ruprecht.

The Digital Maktaba platform: a tool for semi-automatic document cataloguing and searching

Ciccarello, D
;
Vigliermo, RA
;
El Ganadi, A
;
2025-01-01

Abstract

Digital Maktaba addresses the complex issue of creating an efficient online platform to help language specialists as well as less expert cataloguers to produce bibliographic records that are consistent with non-Latin scripts. For this purpose, the solution being experimented by both computer scientists and humanistic expertise in the team leverages different technologies form OCR implemented in ad-hoc pipelines involving also more recent LLMs and VLMs in an innovative workflow oriented to obtain metadata extraction for texts written in non-Latin alphabets, starting with Arabic, for library use.
2025
Settore HIST-04/C - Archivistica, bibliografia e biblioteconomia
Settore GLOT-01/A - Glottologia e linguistica
Settore IINF-05/A - Sistemi di elaborazione delle informazioni
Bergamaschi, S., Ruozzi, F., Ciccarello, D., Vigliermo, R., Sala, L., El Ganadi, A., et al. (2025). The Digital Maktaba platform: a tool for semi-automatic document cataloguing and searching. In A. Melloni, F. Cadeddu (a cura di), The Digital Turn in Religious Studies. Research, Services, Infrastructures. With 56 figures (pp. 395-414). Göttingen : Vandenhoeck & Ruprecht.
File in questo prodotto:
File Dimensione Formato  
2025 - EUARE Conference 2024.pdf

Solo gestori archvio

Descrizione: Articolo principale completo di frontespizio e indice del volume
Tipologia: Versione Editoriale
Dimensione 434.46 kB
Formato Adobe PDF
434.46 kB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10447/695545
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact