La ricerca ha riguardato circa 428 milioni di file all'interno di più di 4 milioni di progetti scritti in Java, C++, Python e JavaScript. I ricercatori hanno individuato ben 85 milioni di file unici e più del 70% del codice analizzato era un copia di altro sorgente.

In particolare, il codice Javascript sarebbe quello interessato da una percentuale di duplicazione maggior rispetto a quello scritto in altri linguaggi. Mentre Java, al contrario, sarebbe quello meno copiato con circa il 60% di codice unico rilevato.

Ma perché sono importanti questi dati? Parlando di codice open source tutto rientra nella legalità e nella norma per questo genere di progetti, tale ricerca può essere però utile ad altri ricercatori o a sviluppatori che intendano "campionare casualmente" il sorgente presente su Github. Dato un cosi alto numero di duplicati è piuttosto difficile capire quale tipologia di progetti stia diventato popolare e cosa invece stia attraversando un periodo di declino.

Per arginare questo problema i ricercatori hanno voluto dare vita a DéjàVu, un servizio Web based che si occupa di recuperare in modo veloce le informazioni in merito ai cloni del codice sotto analisi. Per la sua realizzazione è stata mappato una notevole quantità di progetti, ma DéjàVu è ovviamente in costante evoluzione e conta sull'aiuto della community per espandere il suo database cosi da rendere più semplici eventuali ricerche future.

Via DéjàVu

CommentaDi' la tua

Il tuo indirizzo email non sarà mostrato pubblicamente. I campi obbligatori sono contrassegnati da *