Projekt Slovenského hovoreného korpusu sa začal realizovať ako súčasť Slovenského národného korpusu v r. 2008. Teoretickou prípravou naň boli od októbra 2007 do februára 2008 pravidelné stretnutia členov projektu z oddelenia Slovenského národného korpusu JÚĽŠ SAV s pracovníkmi Ústavu informatiky SAV, na ktorých sa formulovali všeobecné princípy tvorby hovoreného korpusu a jednotlivé zásady prepisu tak, aby Slovenský hovorený korpus vyhovoval rôznym výskumom, predovšetkým však bežným lingvistickým cieľom v JÚĽŠ SAV i na ďalších slovakistických pracoviskách (využitie pri koncipovaní nového výkladového slovníka, skúmanie gramatických javov, foneticko-fonologický výskum, kultúra reči a pod.). Slovenský hovorený korpus nie je ortoepickou príručkou, môže však poskytnúť dobrý materiál na jej prípravu.

Zvolený pragmatický princíp v zásade textového prepisu získaných zvukových záznamov predstavuje základný prepis výpovedí tak, ako by sa použité jazykové prostriedky zapísali podľa pravidiel slovenského pravopisu, keby išlo o písaný text (napr. divadelné a filmové scenáre, dialógy v beletrii, prepisy interview v novinách). Na tejto rovine tzv. ortografického prepisu je v rámci korpusu možné aplikovať anotačné a vyhľadávacie nástroje, ktoré boli vyvinuté pre korpus písaných textov. SHK je vďaka tomu lematizovaný a automatizovane morfologicky anotovaný a možno v ňom vyhľadávať štandardným spôsobom prostredníctvom klienta Bonito.

Hovorené prejavy, najmä spontánne, sa však vyznačujú celou škálou komunikačných špecifík, ktoré sa osobitne značia v druhej, tzv. výslovnostnej rovine podľa uvedených zásad. Ide predovšetkým o zachytenie sprievodných, neverbálnych javov, ale aj prekrývajúcich sa, nedokončených či opakujúcich sa výpovedí alebo ich častí, lapsusov a pod. Z konkrétnej realizácie jazykových jednotiek v reči sa zaznamenávajú len veľmi výrazné odchýlky od bežného štandardu v prípade ne/mäkčenia, ne/dĺženia, ne/spodobovania, pričom sa berie do úvahy profil respondenta. Zo suprasegmentálnych javov sa značia pauzy a expresívna kvantita, melódia iba v podobe základnej koncovej interpunkcie. Podrobná fonetická, fonologická či morfologická transkripcia bude možná len v obmedzenom rozsahu (výber cca 100 tisíc textových jednotiek z technicky čo najkvalitnejších nahrávok väčšej verzie korpusu) a v spolupráci s odborníkmi v tejto oblasti.

Celý prepis, na ktorom sa podieľajú aj externí spolupracovníci – školení anotátori, sa realizuje pomocou nástroja Transcriber.

Do roku 2011, keď sa bude uzatvárať prvá fáza projektu, by mal Slovenský hovorený korpus obsahovať 2 milióny textových jednotiek. Tretia verzia s-hovor-3.0 obsahuje 1 milión 643 tisíc textových jednotiek, čo je vyše 178 hodín zvukových záznamov spontánnych a poloriadených rozhovorov, kázní a prednášok.