Inleiding

Voltooid

Heb je je ooit afgevraagd hoe de spraakassistenten die we elke dag gebruiken, werken? Hoe begrijpen ze de woorden die we zeggen?

De assistent moet de spraak naar tekst converteren en die tekst vervolgens converteren naar getallen (insluiten van woorden genoemd). De assistent classificeert vervolgens de uiting en correleert deze aan de intentie (wat de spreker wil dat de spraakassistent doet). Zie de module 'Inleiding tot verwerking van natuurlijke taal' in dit PyTorch-leertraject voor meer informatie over dit proces.

Maar hoe zit het met wanneer een hond blaft of een kat meowt? Deze geluiden kunnen niet worden geconverteerd naar tekst.

Image that shows how sounds can come from a variety of sources.

In deze module bekijken we hoe u geluidsgolfpatronen kunt extraheren uit een audio-opname van gesproken woorden. Audioclassificatie is handig voor veel dingen, niet alleen spraakassistenten. Er zijn verschillende geluidsbronnen die een toepassing moet herkennen. U kunt bijvoorbeeld muziekgenres classificeren of ziekte detecteren door de toon van iemands stem. Er zijn meer toepassingen waar nog niet eens aan is gedacht.

U leert hoe u audioclassificatie kunt uitvoeren met PyTorch, een populair Python Machine Learning-framework. Er zijn veel manieren om een audioclassificatiemodel te bouwen. U kunt een golfvorm, tagsecties van een golfbestand gebruiken of zelfs computer vision gebruiken op een spectrogramafbeelding.

In deze module leert u eerst hoe u audiogegevens begrijpt en geluidssignalen transformeert in een afbeeldingsweergave met behulp van een spectrogram. Vervolgens bouwt u een model met behulp van computer vision die een ja - of geen spraakopdracht kan begrijpen.

Dat klopt! U kunt audio omzetten in een afbeeldingsweergave en vervolgens computer vision gebruiken om het gesproken woord te classificeren.

Leerdoelen

In deze module wordt het volgende behandeld:

  • Meer informatie over de basisfuncties van audiogegevens.
  • Leer hoe u geluidssignalen transformeert in een visuele afbeeldingsindeling met behulp van spectrogrammen.
  • Bouw een spraakclassificatiemodel dat geluiden of gesproken woorden kan herkennen met behulp van convolutionele neurale netwerken (CNN's).

Vereisten

  • Basiskennis van Python.
  • Basiskennis over het gebruik van Jupyter Notebooks.
  • Basiskennis van CNN's. (Een goede plek om te beginnen is de module 'Inleiding tot Computer Vision met PyTorch' in dit leertraject.)