Deteccció de sons d'ocells amb aprenentatge profund
Tutor/a - Director/a
Estudiant
de Blas Álvarez, Maria
Tipus de document
Treball Final de Grau
Data
2018
rights
Accés obert
Editorial
Universitat Politècnica de Catalunya
UPCommons
Resum
One of the keys to artificial intelligence (AI) is automatic learning, and currently one of the most prominent detection and classification techniques is based on convolutive neural networks (CNNs). This is the case in this work, which proposes a CNN-based system for the detection of bird sounds within available audio recordings. Supervised learning is carried out on neural network models formed by the combination of convolutional layers, max-pooling layers, and totally connected layers. In the task of binary classification of 10-minute recordings, borrowed from the DCASE Challenge 2018, an accuracy of 82,2957% is obtained, with the warblrb10k data set. Using two additional sets of data with different characteristics, experiments have also been performed to observe the degree of generalization achieved with the models.
Una de las claves de la inteligencia artificial (IA) es el aprendizaje automático y una de las técnicas mas destacadas actualmente de detección y clasificación se basa en redes neuronales convolucionales (CNNs). Es el caso de este trabajo, en el que se propone un sistema basado en CNN para la detección de sonidos de pájaros dentro de grabaciones de audio disponibles. Se lleva a cabo un aprendizaje supervisado de modelos de redes neuronales formados por combinación de capas convolucionales, capas de reducción dimensional y capas totalmente conectadas. En esta tarea de clasificación binaria de grabaciones de 10 segundos, tomada del DCASE Challenge 2018, se obtiene una exactitud del 82,2957%, con el conjunto de datos warblrb10k. Usando dos conjuntos de datos adicionales i de diferentes características, se han hecho también experimentos con el objetivo de observar el grado de generalización conseguido con los modelos.
Una de les claus de la intel·ligència artificial (IA) és l'aprenentatge automàtic i una de les tècniques més destacades actualment de detecció i classificació es basa en les xarxes neuronals convolucionals (CNNs). És el cas d'aquest treball, en el que es proposa un sistema basat en CNN per a la detecció de sons d'ocells dins de gravacions d'àudio disponibles. Es du a terme un aprenentatge supervisat de models de xarxes neuronals formats per combinació de capes convolucionals, capes de reducció dimensional i capes totalment connectades. En la tasca de classificació binària de gravacions de 10 segons, manllevada del DCASE Challenge 2018, s'obté una exactitud del 82,2957%, amb el conjunt de dades warblrb10k. Usant dos conjunts de dades addicionals i de diferents característiques, s'han fet també experiments per tal d'observar el grau de generalització aconseguit amb els models.
