| ° Forum ° Odpowiedz ° Rejestracja ° Szukaj ° | |
| Giełda samochodowa ° Numizmatyka - monety ° Poznań serwis Mercerdes ° Internetowa Auto giełda ° |
| Forum / Linux / Czekaj±c na godocza... |
| Autor | Wiadomo¶ć |
| ethanak
|
Posted: 6 PaĽ 2008 07:53:05 Witam. JakiĹ› czas temu Ivo Software obiecaĹ‚, ĹĽe bÄ™dzie wersja Ivony dla normalnego linuksowego uĹĽytkownika (tzw. "Ivona Desktop"), dostÄ™pna we wcale przystÄ™pnej cenie. Jako ĹĽe akurat miaĹ‚em jeden swĂłj projekcik w stanie raczej rozsypanym, stwierdziĹ‚em ĹĽe poczekam sobie na tÄ™ IvonÄ™, kupiÄ™ na spokojnie i bÄ™dÄ™ uĹĽywaĹ‚. A tu guzik... na obiecankach siÄ™ skoĹ„czyĹ‚o :( A wersja demo (ktĂłrÄ… kiedyĹ› sobie Ĺ›ciÄ…gnÄ…Ĺ‚em) juĹĽ mnie wkurzyĹ‚a. No wiÄ™c pomyĹ›laĹ‚em sobie ĹĽe nie bÄ™dÄ™ czekać aĹĽ siÄ™ panowie z Ivo zlitujÄ… i napiszÄ… jednostronnicowÄ… licencjÄ™ (bo do tego siÄ™ ich czynnoĹ›ci w przypadku Ivony Desktop sprowadzajÄ…) i wrĂłcÄ™ do swojego projektu. Na razie Milena (system TTS z MbrolÄ… jako silnikiem mowy) jest w stanie wysoce pierwotnym, ale tu akurat czas na konsultacje. Przede wszystkim - czy coĹ› takiego w ogĂłle jest potrzebne? I jeĹ›li tak, to czy moje zaĹ‚oĹĽenia sÄ… sĹ‚uszne? BÄ™dzie mi miĹ‚o jeĹ›li ktoĹ› parÄ™ uwag napisze... Program (i krĂłtki opis) jest tu: http://milena.polip.com/ ethanak PS. Dyskusje na temat tego "czy to spam" juĹĽ mamy za sobÄ…, w tej chwili nie chodzi o gotowy program ale raczej o coĹ› "in statu nascendi", i interesuje mnie to, czy komukolwiek siÄ™ to przyda. JeĹ›li nie - po prostu nie bÄ™dzie nastÄ™pnej wersji, dla moich potrzeb to co jest absolutnie mi wystarcza. |
| Krzysztof Drewicz
|
Posted: 6 PaĽ 2008 21:16:09 Witam.
Jaki? czas temu Ivo Software obieca?, ?e b?dzie wersja Ivony dla normalnego linuksowego u?ytkownika (tzw. "Ivona Desktop"), dost?pna we wcale przyst?pnej cenie. A Ivona Telekom to już jest, i chyba jest drobny problem, bo je¶li wydać ivonę desktopow±, to khem, bardzo łatwo będzie można tak± desktopow± zaprz±c do pracy "Telekom", jako choćby TTS w IVRze. kd, ps. projekt moim skromnym jest do¶ć potrzebny. Szkoda że głosów (w sensie polskich, dostępnych w sieci) jest mało. |
| ethanak
|
Posted: 7 PaĽ 2008 04:47:33 Dnia Mon, 06 Oct 2008 21:52:26 +0000, Mikolaj Machowski napisaĹ‚(a): [...]
Dalej - stworzenie głosu nie jest sprawą łatwą. Praktycznie trzeba dysponować studiem nagraniowym (najtańsze w Warszawie jakie znalazłem to 25zł/h) E tam - wystarczy dobry mikrofon i cokolwiek do nagrywania dźwięku. Wytłumienie pomieszczenia wystarczające do nagrania jest bardzo proste nawet w amatorskich warunkach, a przy użyciu profesjonalnego mikrofonu nagłownego może się nawet okazać niepotrzebne. i kimś z dobrym głosem.
O, to, to. Niestety - osoby dysponujące dobrym głosem jakoś się do takiej pracy nie palą :( Chociaż pewnie byłoby to możliwe do zrealizowania - musiałbym pogadać ze znajomą panią od dykcji, czy dałoby się zagonic studentów do czegoś takiego w ramach ćwiczeń :) Nawet przyjmując, że lektorem byłby
entuzjasta to kilka godzin pracy w studio to minimum. Chyba jak czytałeś to Ci gdzieś zero umknęło - ja czytałem o kilkudziesięciu :( Notabene strona mbroli wygląda na martwą od jakiegoś czasu i nawet nie wiadomo czy jakby im się podesłało dane to stworzyliby z tego głos. A czy to musi być koniecznie Mbrola? Kurde, daj mi porządny materiał dźwiękowy (tzn. coś takiego jak plik głosu dla Mbroli tyle że opisany), to jak nie ja to któryś z kumpli napisze syntezator. A jednego ochotnika to bym nawet miał :) Mbrola ma jedną wadę - zamkniętość. I ja bym by ostrożny w wiązaniu się z czymś takim. ethanak PS. Część z tego co pisałeś na priv ląduje już w Milenie, dam znać jak wyląduje. |
| Mikolaj Machowski
|
Posted: 7 PaĽ 2008 17:10:46 ethanak napisał: [...]
Dalej - stworzenie głosu nie jest spraw± łatw±. Praktycznie trzeba dysponować studiem nagraniowym (najtańsze w Warszawie jakie znalazłem to 25zł/h) E tam - wystarczy dobry mikrofon i cokolwiek do nagrywania dĽwięku. Wytłumienie pomieszczenia wystarczaj±ce do nagrania jest bardzo proste nawet w amatorskich warunkach, a przy użyciu profesjonalnego mikrofonu nagłownego może się nawet okazać niepotrzebne. Im lepsze warunki nagrania i gostek na konsoli tym może być gorszy lektor. i kim¶ z dobrym głosem.
O, to, to. Niestety - osoby dysponuj±ce dobrym głosem jako¶ się do takiej pracy nie pal± :( Chociaż pewnie byłoby to możliwe do zrealizowania - musiałbym pogadać ze znajom± pani± od dykcji, czy dałoby się zagonic studentów do czego¶ takiego w ramach ćwiczeń :) IMO to odpada. Żeby uzyskać dobry efekt to musi być jedna osoba. Nawet przyjmuj±c, że lektorem byłby
entuzjasta to kilka godzin pracy w studio to minimum. Chyba jak czytałe¶ to Ci gdzie¶ zero umknęło - ja czytałem o kilkudziesięciu :( Różnica jako¶ci między głosem profesjonalnym i amatorskim. Oczywi¶cie im więcej tym lepiej, ale w rzeczywisto¶ci danych nie musi być tak dużo. Przyjmijmy, że rzeczywi¶cie jest ok. 1000 difonów dla języka polskiego. By dobrze nagrać oznacza to ok. 1000 słów, 10 znaków na słowo, ostatecznie wypada ok. 6 stron maszynopisu (z górk±). To jest pół godziny spokojnego czytania. Zróbmy trochę redundancji, rozgrzewek, i w kilka godzin się zmie¶cisz. Też czytałem o kilkudziesięciu w kontek¶cie Ivony. Ale popatrz - plik danych dla pl1 to 5 MB, cała Ivona dla Linuksa to 46 MB. Nawet bior±c pod uwagę ekstra biblioteki dla GUI wychodzi na to, że głos jest sporo większy. Podejrzewam, że nagrywaj± dużo więcej danych i wybieraj± sobie z kilku difonów w zależno¶ci od kontekstu by uzyskać lepsz± jako¶ć. Oficjalnie Ivona jest oparta na difonach ale podejrzewam, że praktycznie s± to dialofony (chyba że zupełnie nie rozumiem zagadnienia i difony to *s±* dialofony). Notabene strona mbroli wygl±da na martw± od jakiego¶ czasu i nawet nie
wiadomo czy jakby im się podesłało dane to stworzyliby z tego głos. A czy to musi być koniecznie Mbrola? Kurde, daj mi porz±dny materiał dĽwiękowy (tzn. co¶ takiego jak plik głosu dla Mbroli tyle że opisany), to jak nie ja to który¶ z kumpli napisze syntezator. A jednego ochotnika to bym nawet miał :) Daj mi porz±dny korpus i miejsce/sprzęt a zaryzykowałbym nagranie go :) Głos mam marny, ale gdyby mieć taki przykład to możliwe chyba byłoby namówienie kogo¶ z lepszym na zrobienie wersji 2.0. Osobna kwestia to dobre pocięcie plików. Może dałoby się skontaktować z ludĽmi z PJWSTK - głos stworzyli w 1999 więc kariery na tym zd±żyli chyba zrobić. Nie musz± siedzieć na materiałach do końca ¶wiata :/ Mbrola ma jedn± wadę - zamknięto¶ć. I ja bym by ostrożny w wi±zaniu się z
czym¶ takim. Pełna racja. m. |
| Mikolaj Machowski
|
Posted: 7 PaĽ 2008 18:26:52 Mikolaj Machowski napisał: Jest lista fonemów i alofonów (141 - teoretycznie 19881 kombinacji) razem z regułami występowania (widoczne po najechaniu wskaĽnikiem na odpowiedni± komórkę tabeli)! Teraz trzeba "tylko": Bł±d, bł±d, bł±d (mój): unikalnych alofonów jest tylko 80. Czyli 6400 kombinacji, z których wiele może nie występować w rzeczywisto¶ci. Taki projekt naprawdę może mieć ręce i nogi. m. |
| ethanak
|
Posted: 8 PaĽ 2008 05:41:14 Dnia Tue, 07 Oct 2008 18:10:30 +0000, Mikolaj Machowski napisaĹ‚(a): [...]
Fascynująca strona: http://free.of.pl/g/grzegorj/gram/pl/gram00.html Fakt, bardzo ciekawa - szkoda że wcześniej nie zauważyłem. Teraz trzeba "tylko":
1. rozwinąć słownik aspella do pełnych form - ok. 16mln o ile dobrze pamiętam A skąd tyle? Morfologik zawiera coś koło 2.5M słów, a i tak połowa z nich to słowa złożone. 2. przerobić wszystkie słowa na podane formy wg reguł ze strony 3.
znaleźć wszystkie występujące w przyrodzie kombinacje - to byłby nasz korpus No - do tego miejsca to mogę zrobić. Dalej szukam ochotników :) ethanak |
| ethanak
|
Posted: 8 PaĽ 2008 06:14:27 Dnia Tue, 07 Oct 2008 19:09:42 +0200, Adam Elente napisaĹ‚(a): [...]
Drugie secundo głos jest do bani. A trzeba popracowac nad dynamiką. Zakląć, Rozbawić towarzystwo, czy po prostu powiedzieć głosem bajkowym czy z filmu grozy. No, ale do tego syntezator konkatencyjny się raczej słabo nadaje. A parametryczny nie istnieje (z dokładnością do tego, że wczoraj w barze kumpel coś mruczał o cepstralach i innych sinusach a wiem że tematem zainteresowany :) ) ethanak |
| Mikolaj Machowski
|
Posted: 8 PaĽ 2008 07:32:06 ethanak napisał: [...]
Fascynuj±ca strona: http://free.of.pl/g/grzegorj/gram/pl/gram00.html Fakt, bardzo ciekawa - szkoda że wcze¶niej nie zauważyłem. Teraz trzeba "tylko":
1. rozwin±ć słownik aspella do pełnych form - ok. 16mln o ile dobrze pamiętam A sk±d tyle? Morfologik zawiera co¶ koło 2.5M słów, a i tak połowa z nich to słowa złożone. Ups. To było 16MB objęto¶ci, nie wierszy :) 2. przerobić wszystkie słowa na podane formy wg reguł ze strony 3.
znaleĽć wszystkie występuj±ce w przyrodzie kombinacje - to byłby nasz korpus No - do tego miejsca to mogę zrobić. Dalej szukam ochotników :) Mógłbym spróbować taki korpus nagrać. Lub przynajmniej jego wersję testow± na potrzeby pisania syntezatora. To co mnie naprawdę przeraża to wycinanie kilku tysięcy difonów z plików dĽwiękowych. Wracaj±c do liczby kombinacji - znalazłem jeszcze tak± stronę: http://forum.jzn.pl/viewtopic.php?p=842 gdzie jest podniesiony problem, że oficjalna lista alofonów nie jest całkiem prawdziwa. Np. wg listy na podanej przeze mnie stronie d i g na końcu wyrazu maj± takie same alofony jak odpowiednio t i k (pad - pat, mag - mak). Trzeba by więc tę listę trochę zmodyfikować ale i tak s±dzę, że możliwe jest zmieszczenie się w 10000 kombinacji - z czego pewnie "tylko" 1/3 występuje w słowniku. m. |
| ethanak
|
Posted: 8 PaĽ 2008 08:51:43 Dnia Wed, 08 Oct 2008 10:44:33 +0200, Adam Elente napisaĹ‚(a): No - do tego miejsca to mogÄ™ zrobić. Dalej szukam ochotnikĂłw :)
ale czemu nie chcesz kupic głosu? A dlaczego miałbym kupować głos? Nie mowie, ze od razu. Mozna zacząć
np. od jakiś ochotników, ale głosu i tak nie ominiesz. Czytałeś co poprzednio napisałem? Przypominam, że syntezatory formantowe jakoś obywają się bez głosu ;) ethanak |
| ethanak
|
Posted: 8 PaĽ 2008 09:41:38 Dnia Wed, 08 Oct 2008 07:40:01 +0000, Mikolaj Machowski napisaĹ‚(a): [...] Na ćwiczeniach z dykcji moĹĽna
by nagrywać kilka osób i wybrać tę, której nagranie jest najlepsze.
Jeśli nawet założymy że studenci poświęcą godzinę tygodniowo na nagranie - po semestrze masz już całkiem pokaźny materiał dźwiękowy. Niejednorodny. Mam silne przypuszczenie, że jakość głosu PJWSTK jest właśnie owocem takiej zbiorowej pracy. No ale ja mówię o wybraniu nagrań jednego studenta :) Zresztą - jedyne miejsce gdzie taki eksperyment mógłbym przeprowadzić jest jakieś 600 km ode mnie czyli i tak sprawa na razie mało aktualna. "Giordano" nie jest polskim wyrazem i nawet "nasz" syntezator mógłby
mieć spore problemy z prawidłową wymową tego typu zapożyczeń. Zarówno Ivona(Ewa) jak i Milena nie ma żadnego problemu. Swoją
drogą jak powinien się zachowywać w takich wypadkach (pomijam wpisanie całej listy wyjątków do bazy)? Zapis fonetyczny. A akurat Giordano na tyle często się spotyka, że można go spokojnie wpisać do udict. giordan(o|a|ie) dżiordan% Przy bardziej popularnych można nawet do pho.dat Ja część roboty mogę zrobić,
chociaż przyznam się że dużo lepiej się czuję w tej części przetwarzania tekstu która siedzi przed syntezatorem i wolałbym zająć się tym na czym się lepiej znam :) Ja mogę zaoferować głos i ewentualnie benedyktyńską robotę przy jego cięciu :) Nawet zdolności programistycznych do stworzenia korpusu nie mam (choć to dość proste chyba jest - tak na oko) :/ . Nie powinno być specjalnie skomplikowane. ethanak |
|
Czas ładowania strony (sek.): 0.512 users miniBB.net © 2001-2008 | Polityka Prywatno¶ci e-giełdy + opisy gg + kumy fubi ° oko na maroko ° nimda °
|