Discernir gritos de cerdo en entornos de producción

Introducción

Las vocalizaciones de animales pueden contener información como amenazas de señalización, elección compañeros o alertar a los bebés para succión. En el caso de animales de ganado, la información contenida en vocalizaciones u otros sonidos de animales podría servir como información valiosa para el agricultor. Un muy buen ejemplo es el rico repertorio vocal de cerdos. Por ejemplo, las llamadas de alta frecuencia de los cerdos ya se han relacionado con situaciones estresantes. Además, los sonidos de animales como la tos podrían estar relacionados con enfermedades respiratorias y, por lo tanto, a su bienestar. Por lo tanto, la vocalización podría ser útil para evaluar la condición del animal. Además, el uso de la tecnología para monitorear estas vocalizaciones abre nuevas posibilidades ya que pueden ser monitoreadas automática y continuamente. En el pasado, numerosos estudios de investigación sobre vocalizaciones de cerdos en situaciones estresantes se han centrado en el análisis de llamadas de alta frecuencia.

En estos estudios se analizaron vocalizaciones de alta frecuencia durante diferentes situaciones, como diversas prácticas de castración, frío o temperaturas cálidas. Otros ejemplos fueron la trituración simulada de lechones o una descarga eléctrica o anticipación a la descarga eléctrica. Para el resto del artículo, estas llamadas de alta frecuencia se llaman gritos. Se definen como vocalizaciones que contienen un considerable contenido de alta frecuencia y que tienen una amplitud mayor que otras vocalizaciones. Para la diferencia entre gritos y chillidos, el lector se refiere a la literatura.

Estos estudios previos tenían una limitación: se centraban en analizar los gritos mientras ignoraban otros sonidos presentes en un establo de cerdos. Dos excepciones llevaron a cabo análisis en tres tipos de sonido: gritos, chillidos y gruñidos. Sin embargo, estos no son los únicos sonidos presentes en un establo de cerdos. Por ejemplo, están presentes otras vocalizaciones como ladridos, tos o sonidos ambientales, como el comedero automático, el pezón bebedor y el agricultor. Para algunos de estos sonidos, como tos y cortezas, se han realizado estudios separados para analizarlos. En general, se necesita un nuevo enfoque que identifique las características que distinguen los gritos de todos los demás sonidos en un establo de cerdos. Estos otros sonidos no tienen que ser identificados en este nuevo enfoque.

Al discernir los gritos en este nuevo enfoque, la condición inicial requiere características con significado físico. Las características tales como volumen, duración, frecuencia fundamental y estructura de formantes se definen como parámetros de sonido que simplemente se interpretan y se relacionan físicamente con la vocalización. Sin embargo, los términos de procesamiento del habla, como los coeficientes autorregresivos o cepstrales, en general son mucho más difíciles de interpretar.

La necesidad de una clasificación rigurosa con reglas explícitas es la siguiente condición para identificar gritos. Tales reglas comprenden un conjunto de requisitos fácilmente interpretables. Por ejemplo, un árbol de decisión con condiciones tiene tales reglas. Sin embargo, una Red Neural Artificial (ANN) proporciona poca información explícita sobre la toma de decisiones. Por ejemplo, ANN se puede utilizar para la detección de vocalización de estrés automatizada de cerdos que se llama STREMODO. Sin embargo, al usar un ANN y coeficientes autorregresivos, este método no pudo interpretar las características de sonido.

El uso de funciones con significado físico y reglas explícitas como se explicó en los dos párrafos anteriores ofrece la posibilidad de desarrollar un método automático de detección de gritos. Las ventajas de este enfoque sobre STREMODO son que los resultados se pueden interpretar y que el enfoque se puede adaptar en línea a situaciones cambiantes. Nuestro nuevo enfoque ofrece la posibilidad de interpretar diferentes clases de gritos. Además, la clasificación rigurosa se puede adaptar a cada situación específica. Por ejemplo, durante el tiempo de alimentación, se esperan más gritos debido a la competencia entre animales y esto no necesariamente indica una situación estresante grave. Si bien los gritos detectados durante la noche indicarían una situación estresante grave. Por lo tanto, durante el tiempo de alimentación, solo se deben detectar los gritos que indiquen una situación estresante grave. Tales gritos podrían tener más contenido de alta frecuencia o tener una duración más larga. Mientras que durante la noche cada grito debe ser detectado.

El propósito de este estudio es investigar qué características de sonido definen un grito de cerdo como un grito de cerdo y cómo se diferencian de otros sonidos en un establo de cerdos. Para lograr este objetivo, se desarrolló un método automatizado de detección de gritos basado en grabaciones de sonido realizadas en un establo de cerdos experimental a escala real. Se supone que este método discierne los gritos de otros sonidos presentes. Estos otros sonidos no tienen nombre, pero representan todos los sonidos detectados originalmente por este método. Además, este método debería discernirlos continuamente, lo que significa una vez por segundo. Para identificar las características de sonido relevantes que definen un grito de cerdo, se construyó un método de detección que siguió dos condiciones. Primero, las características calculadas deben tener un significado físico y, en segundo lugar, la clasificación debe hacerse con reglas explícitas, para interpretar por qué un sonido se considera un grito. Además, se prestó especial atención durante la clasificación a las características que describían la estructura formante de los gritos. Los Formants son los diferentes picos espectrales en el espectro de frecuencias de la voz humana y también están presentes en los gritos de los cerdos.

Materiales y método

Animales y vivienda

Se llevaron a cabo dos ensayos y se usaron 24 cerdos productores en cada ensayo. Los animales Rattlerow Seghers x Piétrain Plus, fueron alojados en la granja de investigación Agrivet, Merelbeke, Bélgica. Después del período de la batería, se dividieron en cuatro grupos de seis animales (tres cerdas jóvenes y tres) y cada grupo se asignó a un corral (Fig. 1). Cada pluma (1.60m x 2.35m) tenía un piso de concreto completamente con listones con un espacio de alimentación y un bebedero con boquilla. Los corrales se ubicaron en el mismo compartimento y se separaron el uno del otro con paredes sólidas de 1 m de alto. Así que el contacto físico entre cerdos de corrales adyacentes se hizo imposible, pero aún podían escucharse entre sí. Hubo acceso ad libitum a la alimentación (dieta de cultivo comercial) y agua durante el experimento. Los cerdos tenían un período de luz controlado por temporizador de 12 horas de 07:00 a 19:00 h. El peso promedio de los cerdos fue de 20.9kg (SD = 2.1) al inicio y 32.2kg (SD = 3.8) al final de la primera prueba y 31.5kg (SD = 3.4) y 43.0kg (SD = 5.5) respectivamente, en el segundo ensayo. La temperatura promedio durante los ensayos fue de 24.0 ° C (SD = 1.2). El experimento fue aprobado por el Comité Ético de la Facultad de Medicina Veterinaria de la Universidad de Ghent (EC2012 / 125).

Figura 1

Experimento y recopilación de datos

Cada ensayo duró 15 días en los que se aplicaron dos tratamientos experimentados como estresantes por los cerdos. Antes de cada prueba, los cerdos tenían 7 días de adaptación a su nuevo entorno. Durante la prueba, el día seis, los animales de dos plumas elegidas al azar (P1 y P2) se mezclaron entre las 7:00 hy las 8:00 h. Para este propósito, se intercambiaron tres animales de P1 con tres animales de P2. El día once, P1 y P2 fueron sometidos a privación de alimento que comenzó a las 12: 00h y terminó 24 horas después.

Los datos de sonido se grabaron con un micrófono (C-4 Condensador de diafragma pequeño, Behringer, Alemania) a una altura de 1,5 my una tarjeta de sonido (Delta 1010LT, M-audio, Cumberland, Estados Unidos) con una precisión de 16 bits y una frecuencia de muestreo de 22050 Hz. El micrófono se colocó como se ve en la Fig. 1, por lo que se registraron los sonidos de las cuatro plumas. En total, se recogieron 720 horas de datos de sonido.

Una situación notable ocurrió durante las grabaciones. Durante todas las horas, nuestro compartimento estaba acústicamente separado del compartimiento contiguo. Excepto una hora cuando la mayoría de los cerdos en este compartimento vecino gritaban al mismo tiempo. La potencia del sonido era lo suficientemente alta para ser escuchada a través de la pared de separación. Esta ocurrencia fue considerada al desarrollar el algoritmo.

Etiquetado de datos de sonido

Para desarrollar un clasificador, es decir, un sistema para clasificar vocalizaciones de cerdo como gritos, se necesita un conjunto de datos de referencia. Debido a que el sonido recogido poseía gritos pero no transmitía información cuando ocurrían los gritos. La referencia fue construida a través del etiquetado por un observador humano, que indicó el comienzo y el final de cada grito, utilizando el programa de computadora Adobe Audition (Adobe Systems, San José, EE. UU.). Este observador humano, experimentado en el etiquetado de la vocalización de cerdos, etiquetó 7 horas de datos de sonido. Estas horas fueron elegidas al azar excepto una. Esta hora contenía las vocalizaciones en las que los cerdos recuperaban el acceso al comedero después del segundo tratamiento estresante. En este trabajo, se hace una distinción entre las primeras 6 horas y la última hora. El primero consiste en 312 gritos y el último consta de 38 gritos. Además, para evaluar el rendimiento del etiquetado, el observador humano etiquetó los mismos 10 minutos en dos ocasiones diferentes. Sin embargo, esta persona no estaba al tanto de esto. La correlación entre estos archivos etiquetados se calculó para evaluar si esta persona se etiqueta de forma coherente. Este cálculo se basó en la literatura para vocalizaciones de estrés porcino. Se logró una correlación de 0.83 (P <0.001) que se consideró suficiente.

Detección de eventos

La detección de eventos se basa en un método para detectar eventos de sonido necesarios para la detección de tos humana. Este método adopta dos umbrales. Un umbral detecta picos en los datos de sonido, mientras que el segundo umbral detecta el tiempo de inicio y finalización de los picos. Sin embargo, los picos se encontraron en la desviación estándar de los datos de sonido, mientras que en el estudio actual, los picos se encontraron en la característica 6 de la Tabla 1. Esta característica 6 se describirá en el siguiente párrafo. Se eligió esta función porque detectó el 84% de los gritos marcados, lo que dio como resultado 261 gritos y solo 4552 otros sonidos. Estos 261 gritos se encontraron en 231 eventos de sonido. Esto significa que varios eventos de sonido consistieron en múltiples gritos etiquetados.

Tabla 1

Cálculo de características

Se calcularon un total de 10 características a partir de las transformaciones de datos para cada evento de sonido. Estos se pueden ordenar en varias categorías como se muestra en la Tabla 1. Estas categorías evaluaron la potencia del sonido, el contenido de alta frecuencia, la estructura del formante, la variabilidad y la duración de los eventos de sonido. El objetivo era dar a estas categorías un significado físico que pueda interpretarse fácilmente.

La primera categoría de funciones es la potencia y solo tiene una característica. Esta característica se calcula a partir del valor medio del espectrograma de FFT. Los gritos son uno de los sonidos más fuertes en un establo de cerdos y esta característica lo consideró. Esta característica es menos estable porque la distancia entre el animal y el micrófono es variable, lo que significa que el valor cambia. Una solución sería determinar la relación entre la potencia del sonido y el nivel medio de todos los espectros.

La segunda categoría calculó dos características que examinaron el contenido de mayor frecuencia. La potencia de las frecuencias más altas se calculó tomando el valor medio de las doce frecuencias más altas del espectrograma de FFT y, en consecuencia, la media de todas las ventanas que pertenecen al grito. La segunda característica fue la frecuencia fundamental de gritos de cerdo que ya se calculó en la transformación de datos.

La estructura de formantes era la tercera categoría de características y contenía la mayoría de las características. Como se ve en la figura 3, los gritos exhiben una estructura de formantes que es visible en el espectrograma CGD y esta característica se usará en la tercera categoría. Las dos primeras características se calcularon directamente a partir del espectrograma CGD. Con estas características, se evaluó el valor máximo y la cantidad de valores superiores a un umbral. Este umbral se calculó con la técnica descrita en la siguiente sección «Clasificación». Las otras tres características de estructura de formantes requerían los valores medios de cada valor de frecuencia en todas las ventanas de tiempo del evento. Estos se muestran por los valores de CGD en la figura 4b. Para la tercera característica, se ajustó una línea recta a través de estos valores. El error al cuadrado entre esta línea y los valores medios se redujo al mínimo. Este error cuadrado resultante se definió como la tercera característica porque una línea no puede asemejarse a una estructura de formantes y, por lo tanto, el valor de error al cuadrado de un grito será mayor. Para la cuarta y quinta característica, la estructura del formante se interpretó aplicando una FFT en estos valores medios. Esta es la misma técnica que se usa en el párrafo de transformación de datos, pero ahora se aplica a datos diferentes. Como los sonidos con una estructura de formantes tienen valores más fluctuantes en comparación con otros sonidos (por ejemplo, en la figura 3), tendrán valores más grandes a frecuencias más altas en comparación con la frecuencia cero.

Figura 4

Dentro de la cuarta categoría de funciones, la variabilidad del evento en el espectrograma CGD se determinó calculando los valores de desviación estándar. Por ejemplo, el CGD de gritos varía más que otros sonidos. Para comparar, el espectrograma de un estornudo también se muestra en la figura 3. La última categoría de características es la duración del evento de sonido. Esto se calculó a partir de los sonidos encontrados en la detección de eventos.

Clasificación.

Antes de la clasificación, se realizó una preselección de los eventos de sonido en base a los datos etiquetados. Un evento podría ser un grito si su duración (función 10) era más larga que 0.4s. Este umbral fue definido experimentalmente, basado en los datos etiquetados. Mientras miraba más de cerca los datos, se descubrió que los gritos pertenecían a los valores más altos de cada característica. Sin embargo, también parecía que no todos los gritos tenían valores altos para cada característica. Por ejemplo, algunos gritos tenían una duración larga pero baja potencia de sonido, mientras que otros eran cortos pero tenían una gran potencia de sonido.

Para hacer frente a la demanda de una clasificación con reglas explícitas y con los dos hechos descubiertos en el último párrafo, se determinó un umbral para cada característica. Este umbral divide el conjunto de datos en dos por característica y se hizo de la misma manera que un árbol de clasificación cuando se divide utilizando el índice de diversidad de Gini [36,37]. Este índice midió la pureza de dos conjuntos de datos. La pureza es una medida que indica la homogeneidad de un conjunto de datos. Se aplicaron varios umbrales en orden ascendente y, en consecuencia, se eligió el umbral que maximizaba la pureza. Debido a que no todos los gritos tenían valores altos para cada característica, los umbrales se combinaron en un sistema de votación simple [38]. Cada característica tenía un voto para decidir si un sonido pertenecía a un grito o no. Estos votos fueron sumados más tarde juntos.

Tener un clasificador con votos ofrece la posibilidad de adaptar el clasificador. Como se discutió en la introducción, durante el tiempo de alimentación, deben detectarse los gritos relacionados más con una situación estresante grave. Esto podría significar gritos con un voto más alto o gritos para los cuales se aumentó un umbral, como la duración [6]. Mientras que durante la noche, los gritos con un voto más bajo podrían ser detectados en su lugar.

Construcción del clasificador.

Las cuatro partes diferentes: transformación de datos, detección de eventos, cálculo de características y clasificación se combinaron como se muestra en la Fig. 2. Los datos se transformaron primero de series de tiempo en representaciones de tiempo y frecuencia para calcular los eventos y los valores de las características. Luego, la detección de eventos construyó los intervalos de sonido que posiblemente contenían un grito. Posteriormente, las características se calcularon para estos intervalos de sonido de interés. Finalmente, la clasificación decidió si un evento sonoro era un grito.

Evaluar las características definitorias de un grito.

La estructura de clasificación resultante permitió evaluar cada característica y el umbral correspondiente para su participación en la votación final. Por ejemplo, se calculó el porcentaje de verdaderos positivos que satisfacían un umbral de característica específica. O, en otras palabras, el porcentaje de verdaderos positivos que recibieron un voto de este umbral de característica específica. Esto permitió explicar qué umbrales de características contribuyeron más a la detección de gritos. Este análisis se amplió a otros dos conjuntos: todos los gritos etiquetados y todos los demás sonidos, proporcionando el TPR y el FPR por umbral de características. Estos análisis se aplicaron al conjunto combinado de datos de capacitación y validación.

Resultados

De acuerdo con la selección del evento, se encontraron 4783 eventos de sonido. Un total de 231 eventos estuvieron de acuerdo con los gritos encontrados por el etiquetado humano. Después de la preselección como se describe en la sección sobre la clasificación 563, los eventos de sonido se mantuvieron. Un total de 213 eventos contenían gritos etiquetados. Estos 563 eventos de sonido fueron posteriormente sujetos a la clasificación final como se muestra en la figura 5.

Figura 5

La figura 6 representa la curva ROC para los diversos números de votos requeridos para la clasificación como un grito. Según la ROC, el conjunto de entrenamiento tenía valores de sensibilidad (TPR) consistentemente más altos que el conjunto de validación. En promedio fue 0.07 (o 7%) más alto. Además, la sensibilidad y especificidad deseadas podrían elegirse en función de esta curva. El resto de los resultados se calcularon con seis como el número mínimo de votos requerido. La razón para elegir seis se explica en la discusión.

Figura 6

Como se muestra en la Tabla 2 al elegir seis como número mínimo de votos, la sensibilidad del conjunto de entrenamiento fue mayor que el conjunto de validación, pero la especificidad y la precisión fueron menores. Además, la correlación entre los datos etiquetados y los gritos encontrados por el algoritmo fue del 79.95% (P <0.001).

Además, la parte de cada característica y el umbral correspondiente se indica en la Tabla 3. Esto permitió analizar la importancia de cada característica para definir un grito. De esta tabla quedó claro que el porcentaje de verdaderos positivos (TP) para todos los umbrales de características, excepto para la característica ‘Estructura de formantes 4’, tenía porcentajes superiores al 75%. La ‘estructura formante 4’ tenía 30.1%. Los porcentajes de todos los eventos de gritos fueron más pobres que los TP porque se incluyeron los True Negatives (TN) en el cálculo. En general, cada porcentaje fue superior al 50%, excepto nuevamente para la característica ‘Estructura de formantes 4’. La tercera fila da el mismo análisis para todos los demás sonidos. Cada valor era inferior al 50% y notablemente la ‘Estructura de formantes 4’ también obtuvo el valor más bajo con 3.7%. Los diferentes porcentajes de la característica ‘Estructura de Formant 4’ se deben a la aplicación del índice de diversidad de Ginny [36] en la clasificación. Este índice maximiza la pureza y esto dio como resultado un 21.6% y 3.7% de gritos y otros sonidos, respectivamente. Podría ser que ‘Formant structure 4’ sea una característica para una clase específica de gritos y no en general de gritos de cerdo.

Discusión

El propósito de este artículo fue investigar qué características de sonido definen un grito de cerdo como un grito de cerdo y cómo se diferencian de otros sonidos en un establo de cerdos. Para lograr esto, se construyó un clasificador que usa características con significado físico. Esta capacidad es una ventaja del método en comparación con STREMODO. Se desarrollaron un total de 10 características que pertenecían a 5 categorías: la potencia, el contenido de frecuencia más alta, la estructura de formantes, la variabilidad y la duración de cada evento de sonido. Posteriormente se desarrolló un clasificador basado en reglas explícitas que se describió en la figura 5. Primero se examina el rendimiento del clasificador, se analiza brevemente la capacidad de adaptación del clasificador y luego se discuten las características de sonido más perspicaces.

Rendimiento del clasificador

El rendimiento del clasificador se muestra en la figura 6. Al aumentar el número de votos mínimos necesarios, se disminuyó el TPR y se incrementó el FPR. Debido a que otros eventos de sonido, como tos o estornudos son generalmente más frecuentes en los establos de cerdos, se deseaba una alta especificidad, mientras que la sensibilidad era de menor importancia. Seis fueron, por lo tanto, seleccionados como el número mínimo de votos ya que esto dio una especificidad superior al 90%. Además, esto dio finalmente un 92% de especificidad, un 69% de sensibilidad y un 86% de precisión para el conjunto de validación (Tabla 2).

El rendimiento del método de detección de gritos podría ser comparado con un sistema llamado STREMODO. Aunque hay varias diferencias, como la vocalización de destino: gritos en comparación con la vocalización de estrés; se hace una comparación cautelosa. La sensibilidad y especificidad obtenidas por STREMODO, 99.3% y 98.6%, respectivamente, fueron mejores que nuestro método. Por otra parte, sus resultados se obtuvieron a partir de sonidos registrados en una cámara de ruido reducido con menos reflexiones de sonido [40]. Nuestros resultados, sin embargo, se obtuvieron en un establo de cerdos experimental a escala real con sonidos adicionales, como cerdos jugando con cadenas. En realidad, habrá otros sonidos presentes durante los sonidos de los gritos. Otra razón de nuestra menor sensibilidad y especificidad es la complejidad del clasificador. STREMODO usó una ANN compleja con 194 perceptrones y 4 capas, mientras que usamos 10 umbrales y un sistema de votación.

Otra forma de comparar STREMODO con nuestro algoritmo desarrollado es calculando la correlación entre nuestro algoritmo y la etiquetadora durante 10 minutos. Para STREMODO, esta característica se calculó en el establo de cerdos comercial, por lo tanto, esto es comparable a nuestra configuración. Nuestro método logró una correlación de 0,80 (P <0,001), que fue comparable con la correlación obtenida por STREMODO (0,84; P <0,001) en la que seis expertos etiquetados cerdo grita.

Clasificador de habilidad adaptativa

Una de las ventajas mencionadas de este nuevo enfoque sobre STREMODO fue la capacidad de adaptación del método de detección automática. La detección desarrollada permite un umbral adaptativo tanto en el número de votos como en cada una de las diez características. Por ejemplo, es muy fácil aumentar un umbral en la función de duración durante el tiempo de alimentación para que se detecten las llamadas asociadas a una situación estresante grave. O para disminuir el número de votos requeridos durante la noche para detectar ciertamente todos los gritos. Esto sería posible ya que el número de otros sonidos también disminuye durante la noche. En general, la sensibilidad, la especificidad y la precisión siempre deben considerarse al adaptar estos umbrales. Sin embargo, esto no se desarrolló en este estudio ya que fueron necesarios más archivos de sonido etiquetados durante diferentes situaciones que los disponibles actualmente para validar esto.

Características que definen un grito de cerdo

El objetivo de este estudio fue definir qué características hacen que un cerdo grite un cerdo gritar. Se proporcionó el porcentaje de gritos que satisfacen cada umbral en el clasificador (Tabla 3). En consecuencia, ahora era posible identificar las características definitorias del sonido del grito en nuestro establo de cerdos experimental. La generalización a otros establos de cerdos se debe hacer con precaución ya que, por ejemplo, puede haber sonido de un alimentador automático. En los siguientes párrafos, se investigará cada categoría de características.

(1) Un grito debería tener una cierta potencia (función 1). Esto es evidente ya que los gritos son uno de los sonidos más fuertes en un establo de cerdos. Esto se correspondía con la literatura en la cual la energía de sonido relativa media de los gritos era 15 dB más alta que el gruñido y el chirrido [19]. Según la Tabla 3, el poder era una de las características de sonido más definidas de un grito. En total, el 93% de los verdaderos positivos recibió un voto de esta función. Mientras que solo el 24% de los otros sonidos encontrados en este conjunto de datos se ajustaron a este umbral. Además, entre todas las características, la diferencia en porcentaje entre gritos y otros sonidos fue más alta para esta característica, alcanzando el 61%.
(2) Los gritos tienen un contenido de frecuencia más alta que otros sonidos como se ve en la Tabla 1. Las dos características que describieron el contenido de frecuencia más alta mostraron esto (Media de las 12 frecuencias más altas en el espectrograma de FFT y frecuencia fundamental; Tabla 1). Esto se corresponde con la literatura en la que las frecuencias pico y principal de los gritos fueron significativamente más altas que los gruñidos [18]. Sin embargo, no consideraron cada sonido en un establo de cerdos, mientras que este documento consideró todos los sonidos presentes durante las horas marcadas para este establo de cerdos específico. De acuerdo con la Tabla 3, el 75% y el 85% de los verdaderos positivos recibieron votos de la característica 2 y 3, respectivamente.
(3) Un grito debería tener una estructura de formante. En este estudio, hubo cinco características que evalúan la estructura del formante. Estas características no especificaron los valores exactos de los formantes como en la literatura [41], pero intentaron dar una indicación si una estructura de formantes estaba presente. Además, una representación de datos llamada Chirp Group Delay (CGD) [30] se aplicó por primera vez en vocalizaciones de animales mientras que los estudios anteriores aplicaron coeficientes LPC para representar esta estructura en vocalizaciones de estrés [26,41]. Por otra parte, otros sonidos presentes en un establo de ganado como los ladridos [21] y la tos [42] mostraron poseer cierta estructura de formantes, pero estos sonidos no se incluyeron en este trabajo de investigación. El rendimiento de la primera característica del formante (valor máximo del espectrograma CGD) fue pobre a primera vista de acuerdo con la Tabla 3. Solo el 30% de los TP recibió un voto. De acuerdo con la última fila, sin embargo, solo el 4% de los otros sonidos recibió votos de esta función. Esta característica tenía, por lo tanto, baja sensibilidad pero alta especificidad. Las otras cuatro características representaron al menos el 87% de los TP y, a excepción de la característica 6 y 7, los otros sonidos recibieron un bajo porcentaje de votos. En general, funcionaron bien para separar gritos de otros sonidos.
(4) Los gritos deberían variar considerablemente (Desviación estándar del espectro CGD, Tabla 1), lo que significa que la característica 9 debería ser mayor a 0.25 como se ve en la Fig. 5. Porque el 75% de los TP y solo el 13% del otro sonido recibió votos. esto indica una característica de sonido definitoria de gritos.
(5) Finalmente, los gritos deben tener una duración mínima. Porque antes de la clasificación, los eventos de sonido más cortos que 0.4 segundos fueron omitidos. De acuerdo con esta preselección, 563 de 4783 eventos de sonido fueron eliminados en función de la duración. Además, después de la clasificación, el 85% de los gritos producidos tuvo una duración mayor a 0.57s en comparación con solo el 52% de los otros sonidos como se ve en la Tabla 3. Esto está de acuerdo con la literatura sobre cerdos jóvenes en los cuales las llamadas más largas estaban más asociadas con situaciones [6] y en las que la duración del grito fue significativamente más larga que gruñidos o chillidos [19]. Sin embargo, en la literatura sobre cerdos viejos como las cerdas, se descubrió que las llamadas que no eran gritos eran más largas que 1s [43]. Además, en la literatura se descubrió que los gritos tenían una duración entre 0.3s y 3s [5] o en promedio 1s [17] mientras que las tos de cerdo tenían una duración promedio de 0.43s o 0.67s para las toses no infecciosas e infecciosas, respectivamente [44 ]

Los párrafos anteriores discutieron el rendimiento de diferentes características que caracterizan un grito. Sin embargo, la detección automatizada de gritos considera una combinación de estas características, ya que ninguna característica individual define un grito. Esto se demostró en la Fig. 6: que muestra que el FPR disminuyó más rápido que el TPR cuando aumentó el número de votos requeridos. Además, los gritos no tenían que ajustarse a todos los umbrales de características, solo al número de votos requeridos. Sin embargo, las características más destacadas pueden derivarse de la Tabla 3. El poder del evento y la característica formante 5 definieron los gritos con mayor claridad, porque estos tienen la mayor diferencia entre votos para TP y otros sonidos, del 69% y 76%, respectivamente. Además, estas características representan al menos el 87% de los TP. Otras características sobresalientes incluyen la duración del evento y la característica de formante 6 y 7, ya que representan el 91%, 93% y 93% de los TP, respectivamente.

Conclusión

Este documento investigó qué características de sonido definen un grito de cerdo en un establo de cerdos. Se construyó un clasificador con un enfoque deliberado en las reglas explícitas y características con significado físico. El clasificador resultante tenía 71.83% de sensibilidad, 91.43% de especificidad y 83.61% de precisión. De acuerdo con el clasificador, un grito debería tener un alto poder de sonido, una estructura de formantes y una cierta duración. Dos propiedades de menor importancia fueron el contenido de alta frecuencia y la variabilidad de la señal. Además, no era necesario que un grito tuviera todas estas propiedades.