Studijní materiály

Zpět

Hromadně přidat materiály

statnice_Obsahově zalo·ené techniky vyhledávání zvuku

BMDS - Multimediální služby

Hodnocení materiálu:

Zjednodušená ukázka:

Stáhnout celý tento materiál

je na vodorovné ose vynesen čas, na svislé frekvence a amplituda je znázorněna úrovněmi šedé nebo barvami.
Ze spektrogramu se stanovuje pravidelnost výskytu určitých frekvenčních složek. Obvykle platí, že spektrogram hudby je více pravidelné, než jiné druhu zvuku.
Subjektivní příznaky
Všechny výše uvedené příznaky byly přímo měřitelné z časové nebo sekvenční reprezentace zvukového signálu. Jsou však i jiné příznaky, které nejsou objektivně měřitelné, jako je např. zabarvení tónu.
Klasifikace audia
V této části nejdříve sumarizujeme hlavní rysy jednotlivých typů zvuků na základě příznaků, které jsme popisovali v předcházející části. Budeme uvažovat o dvou hlavních typech zvuku — hudbě a řeči. Následuje tedy popis hlavních rysů řeči a hudby, protože právě odlišnosti v rysech mohou být základem pro klasifikaci zvuků.
Řeč
Šířka pásma řeči je obvykle menší než je šířka pásma hudby. Její frekvenční rozsah se pohybuje v rozmezí od 100 Hz do 7 kHz. Vzhledem k tomu, že v řeči dominují nízké frekvenční komponenty, je spektrální centroid řečového signálu nižší než u hudebního signálu.
Hudba
Vyznačuje se frekvenčním rozsahem od 16 Hz do 20 kHz. Z tohoto důvodu je její spektrální centroid vyšší než řeči. Má nižší poměr ticha, výjimkou však může být sólo nástroje nebo zpívání bez doprovodného hudebního nástroje. Ve srovnání s řečí má menší variabilitu počtu průchodu nulou a vyznačuje se více pravidelným rytmem.
Klasifikační postupy
Všechny klasifikační metody jsou založeny na analýze určitých příznaků zvukového signálu. Liší se tím, jakým způsobem jsou tyto příznaky použity. Zatímco první skupina metod používá jednotlivé příznaky v oddělených krocích, druhá skupina metod je používá současně v jednom kroku, čímž vytváří příznakové vektory, které určují vzdálenost mezi jednotlivými typy zvuků.
Rozpoznávání a vyhledávání řeči
Po zařazení vstupního zvukového signálu do kategorie řečových signálů následuje jeho další zpracování. Základním přístupem k indexaci a vyhledáváni řečového signálu je aplikace rozpoznávacích algoritmů teči, aby jsme zkonvertovali řečový signál na text a potom aplikovali techniky textového vyhledávání pro indexaci a samotné vyhledáváni. Kromě informací o vysloveném slově lze v řečovém signálu najít i další jiné informace, např. identitu mluvčího nebo jeho náladu, s kterými je možné vyhledáváni rozšířit.
Systémy automatického rozpoznávání řeči (ARR) jsou za účelem získávání modelů nebo příznakových vektorů pro všechny možné řečové jednotky trénovány. Nejmenší takovou jednotkou je foném, další jsou slova a fráze. Během rozpoznáváni se stanoví příznakový vektor vstupní řečové jednotky, který je pak srovnáván s příznakovými vektory získanými během trénování. Řečová jednotka, jejíž příznakový vektor se nachází nejblíže k příznakovému vektoru vstupní řečové jednotky, je považována za vyslovenou jednotku.

Stáhnout celý tento materiál

Předchozí

1 2 3

Vloženo: 24.04.2009

Velikost: 195,50 kB

Stáhnout celý tento materiál

Komentáře

Tento materiál neobsahuje žádné komentáře.

Mohlo by tě zajímat:

Skupina předmětu BMDS - Multimediální služby
Reference vyučujících předmětu BMDS - Multimediální služby

Podobné materiály