about search datasets tools guides validation project

PatCit

location: https://doi.org/10.5281/zenodo.3710993

contributors: Cyril Verluise, Gabriele Cristelli, Kyle Higham, Lucas Violon, Gaétan de Rassenfosse

tags: citation, scholarly literature, in-text, front-page, patent, science, database, Wikipedia, validation

related projects:

similar:

documentation: https://cverluise.github.io/PatCit/

code: https://cverluise.github.io/notebook

related publications: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3754772

timeframe: 1836-2018

terms of_use: CC-BY 4.0 International

description: Citazioni nel testo e in prima pagina alla letteratura non brevettuale e citazioni brevettuali nel testo, estratte e analizzate. patCit si basa su DOCDB, il più grande database di citazioni di letteratura non brevettuale (NPL). Innanzitutto, deduplicamo questo corpus e lo organizziamo in 10 categorie. Quindi, progettiamo e applichiamo modelli di estrazione delle informazioni specifici per categoria utilizzando spaCy. Eventualmente, quando possibile, arricchiamo i dati utilizzando database esterni di alta qualità specifici per il dominio. Gestito come un progetto open-source e gestito in modo collaborativo.

last edit: Sun, 31 Mar 2024 23:38:16 GMT