PatCit
location: https://doi.org/10.5281/zenodo.3710993
contributors: Cyril Verluise, Gabriele Cristelli, Kyle Higham, Lucas Violon, Gaétan de Rassenfosse
tags: citation, scholarly literature, in-text, front-page, patent, science, database, Wikipedia, validation
documentation: https://cverluise.github.io/PatCit/
code: https://cverluise.github.io/notebook
timeframe: 1836-2018
terms of_use: CC-BY 4.0 International
description: Citazioni nel testo e in prima pagina alla letteratura non brevettuale e citazioni brevettuali nel testo, estratte e analizzate. patCit si basa su DOCDB, il più grande database di citazioni di letteratura non brevettuale (NPL). Innanzitutto, deduplicamo questo corpus e lo organizziamo in 10 categorie. Quindi, progettiamo e applichiamo modelli di estrazione delle informazioni specifici per categoria utilizzando spaCy. Eventualmente, quando possibile, arricchiamo i dati utilizzando database esterni di alta qualità specifici per il dominio. Gestito come un progetto open-source e gestito in modo collaborativo.
last edit: Sun, 31 Mar 2024 23:38:16 GMT