giełda, akcje, inwestycje
 ° Forum ° Odpowiedz ° Rejestracja ° Szukaj °
Giełda samochodowa ° Numizmatyka - monety ° Poznań serwis Mercerdes ° Internetowa Auto giełda °

Czekaj±c na godocza...

Forum / Linux / Czekaj±c na godocza...
Autor Wiadomo¶ć
ethanak

Posted: 6 PaĽ 2008 07:53:05



Witam.

Jakiś czas temu Ivo Software obiecał, że będzie wersja Ivony dla
normalnego linuksowego użytkownika (tzw. "Ivona Desktop"), dostępna
we wcale przystępnej cenie.

Jako że akurat miałem jeden swój projekcik w stanie raczej rozsypanym,
stwierdziłem że poczekam sobie na tę Ivonę, kupię na spokojnie i będę
używał.

A tu guzik... na obiecankach się skończyło :( A wersja demo (którą kiedyś
sobie ściągnąłem) już mnie wkurzyła.

No więc pomyślałem sobie że nie będę czekać aż się panowie z Ivo zlitują
i napiszą jednostronnicową licencję (bo do tego się ich czynności w
przypadku Ivony Desktop sprowadzajÄ…) i wrĂłcÄ™ do swojego projektu.

Na razie Milena (system TTS z MbrolÄ… jako silnikiem mowy) jest w stanie
wysoce pierwotnym, ale tu akurat czas na konsultacje. Przede wszystkim -
czy coś takiego w ogóle jest potrzebne? I jeśli tak, to czy moje
założenia są słuszne?

Będzie mi miło jeśli ktoś parę uwag napisze...
Program (i krĂłtki opis) jest tu: http://milena.polip.com/

ethanak
PS. Dyskusje na temat tego "czy to spam" juĹĽ mamy za sobÄ…, w tej chwili
nie chodzi o gotowy program ale raczej o coĹ› "in statu nascendi", i
interesuje mnie to, czy komukolwiek się to przyda. Jeśli nie - po prostu
nie będzie następnej wersji, dla moich potrzeb to co jest absolutnie mi
wystarcza.



Krzysztof Drewicz

Posted: 6 PaĽ 2008 21:16:09



Witam.

Jaki? czas temu Ivo Software obieca?, ?e b?dzie wersja Ivony dla
normalnego linuksowego u?ytkownika (tzw. "Ivona Desktop"), dost?pna
we wcale przyst?pnej cenie.

A Ivona Telekom to już jest, i chyba jest drobny problem, bo je¶li wydać
ivonę desktopow±, to khem, bardzo łatwo będzie można tak± desktopow±
zaprz±c do pracy "Telekom", jako choćby TTS w IVRze.

kd,
ps. projekt moim skromnym jest do¶ć potrzebny. Szkoda że głosów (w
sensie polskich, dostępnych w sieci) jest mało.




ethanak

Posted: 7 PaĽ 2008 04:47:33



Dnia Mon, 06 Oct 2008 21:52:26 +0000, Mikolaj Machowski napisał(a):

[...]
Dalej - stworzenie głosu nie jest sprawą łatwą. Praktycznie trzeba
dysponować studiem nagraniowym (najtańsze w Warszawie jakie znalazłem to
25zł/h)

E tam - wystarczy dobry mikrofon i cokolwiek do nagrywania dźwięku.
Wytłumienie pomieszczenia wystarczające do nagrania jest bardzo proste
nawet w amatorskich warunkach, a przy uĹĽyciu profesjonalnego mikrofonu
nagłownego może się nawet okazać niepotrzebne.

i kimś z dobrym głosem.

O, to, to. Niestety - osoby dysponujące dobrym głosem jakoś się do takiej
pracy nie palÄ… :(

Chociaż pewnie byłoby to możliwe do zrealizowania - musiałbym pogadać ze
znajomą panią od dykcji, czy dałoby się zagonic studentów do czegoś
takiego w ramach ćwiczeń :)


Nawet przyjmując, że lektorem byłby
entuzjasta to kilka godzin pracy w studio to minimum.

Chyba jak czytałeś to Ci gdzieś zero umknęło - ja czytałem o
kilkudziesięciu :(


Notabene strona mbroli wyglÄ…da na martwÄ… od jakiegoĹ› czasu i nawet nie
wiadomo czy jakby im się podesłało dane to stworzyliby z tego głos.

A czy to musi być koniecznie Mbrola? Kurde, daj mi porządny materiał
dźwiękowy (tzn. coś takiego jak plik głosu dla Mbroli tyle że opisany),
to jak nie ja to ktĂłryĹ› z kumpli napisze syntezator. A jednego ochotnika
to bym nawet miał :)

Mbrola ma jedną wadę - zamkniętość. I ja bym by ostrożny w wiązaniu się z
czymĹ› takim.

ethanak
PS. Część z tego co pisałeś na priv ląduje już w Milenie, dam znać jak
wylÄ…duje.



Mikolaj Machowski

Posted: 7 PaĽ 2008 17:10:46



ethanak napisał:

[...]
Dalej - stworzenie głosu nie jest spraw± łatw±. Praktycznie trzeba
dysponować studiem nagraniowym (najtańsze w Warszawie jakie znalazłem to
25zł/h)

E tam - wystarczy dobry mikrofon i cokolwiek do nagrywania dĽwięku.
Wytłumienie pomieszczenia wystarczaj±ce do nagrania jest bardzo proste
nawet w amatorskich warunkach, a przy użyciu profesjonalnego mikrofonu
nagłownego może się nawet okazać niepotrzebne.

Im lepsze warunki nagrania i gostek na konsoli tym może być gorszy
lektor.

i kim¶ z dobrym głosem.

O, to, to. Niestety - osoby dysponuj±ce dobrym głosem jako¶ się do takiej
pracy nie pal± :(

Chociaż pewnie byłoby to możliwe do zrealizowania - musiałbym pogadać ze
znajom± pani± od dykcji, czy dałoby się zagonic studentów do czego¶
takiego w ramach ćwiczeń :)

IMO to odpada. Żeby uzyskać dobry efekt to musi być jedna osoba.

Nawet przyjmuj±c, że lektorem byłby
entuzjasta to kilka godzin pracy w studio to minimum.

Chyba jak czytałe¶ to Ci gdzie¶ zero umknęło - ja czytałem o
kilkudziesięciu :(

Różnica jako¶ci między głosem profesjonalnym i amatorskim. Oczywi¶cie im
więcej tym lepiej, ale w rzeczywisto¶ci danych nie musi być tak dużo.
Przyjmijmy, że rzeczywi¶cie jest ok. 1000 difonów dla języka polskiego.
By dobrze nagrać oznacza to ok. 1000 słów, 10 znaków na słowo,
ostatecznie wypada ok. 6 stron maszynopisu (z górk±). To jest pół
godziny spokojnego czytania. Zróbmy trochę redundancji, rozgrzewek,
i w kilka godzin się zmie¶cisz.

Też czytałem o kilkudziesięciu w kontek¶cie Ivony. Ale popatrz - plik
danych dla pl1 to 5 MB, cała Ivona dla Linuksa to 46 MB. Nawet bior±c
pod uwagę ekstra biblioteki dla GUI wychodzi na to, że głos jest sporo
większy. Podejrzewam, że nagrywaj± dużo więcej danych i wybieraj± sobie
z kilku difonów w zależno¶ci od kontekstu by uzyskać lepsz± jako¶ć.

Oficjalnie Ivona jest oparta na difonach ale podejrzewam, że praktycznie
s± to dialofony (chyba że zupełnie nie rozumiem zagadnienia i difony to
*s±* dialofony).

Notabene strona mbroli wygl±da na martw± od jakiego¶ czasu i nawet nie
wiadomo czy jakby im się podesłało dane to stworzyliby z tego głos.

A czy to musi być koniecznie Mbrola? Kurde, daj mi porz±dny materiał
dĽwiękowy (tzn. co¶ takiego jak plik głosu dla Mbroli tyle że opisany),
to jak nie ja to który¶ z kumpli napisze syntezator. A jednego ochotnika
to bym nawet miał :)

Daj mi porz±dny korpus i miejsce/sprzęt a zaryzykowałbym nagranie go :)
Głos mam marny, ale gdyby mieć taki przykład to możliwe chyba byłoby
namówienie kogo¶ z lepszym na zrobienie wersji 2.0. Osobna kwestia to
dobre pocięcie plików.

Może dałoby się skontaktować z ludĽmi z PJWSTK - głos stworzyli w 1999
więc kariery na tym zd±żyli chyba zrobić. Nie musz± siedzieć na
materiałach do końca ¶wiata :/

Mbrola ma jedn± wadę - zamknięto¶ć. I ja bym by ostrożny w wi±zaniu się z
czym¶ takim.

Pełna racja.

m.



Mikolaj Machowski

Posted: 7 PaĽ 2008 18:26:52



Mikolaj Machowski napisał:

Jest lista fonemów i alofonów (141 - teoretycznie 19881 kombinacji)
razem z regułami występowania (widoczne po najechaniu wskaĽnikiem na
odpowiedni± komórkę tabeli)! Teraz trzeba "tylko":

Bł±d, bł±d, bł±d (mój): unikalnych alofonów jest tylko 80. Czyli 6400
kombinacji, z których wiele może nie występować w rzeczywisto¶ci.

Taki projekt naprawdę może mieć ręce i nogi.

m.



ethanak

Posted: 8 PaĽ 2008 05:41:14



Dnia Tue, 07 Oct 2008 18:10:30 +0000, Mikolaj Machowski napisał(a):

[...]
FascynujÄ…ca strona:

http://free.of.pl/g/grzegorj/gram/pl/gram00.html

Fakt, bardzo ciekawa - szkoda że wcześniej nie zauważyłem.

Teraz trzeba "tylko":

1. rozwinąć słownik aspella do pełnych form - ok. 16mln o ile dobrze
pamiętam

A skąd tyle? Morfologik zawiera coś koło 2.5M słów, a i tak połowa z nich
to słowa złożone.

2. przerobić wszystkie słowa na podane formy wg reguł ze strony 3.
znaleźć wszystkie występujące w przyrodzie kombinacje - to byłby nasz
korpus

No - do tego miejsca to mogę zrobić. Dalej szukam ochotników :)

ethanak



ethanak

Posted: 8 PaĽ 2008 06:14:27



Dnia Tue, 07 Oct 2008 19:09:42 +0200, Adam Elente napisał(a):

[...]
Drugie secundo głos jest do bani. A trzeba popracowac nad dynamiką.

Zakląć, Rozbawić towarzystwo, czy po prostu powiedzieć głosem bajkowym
czy z filmu grozy.

No, ale do tego syntezator konkatencyjny się raczej słabo nadaje. A
parametryczny nie istnieje (z dokładnością do tego, że wczoraj w barze
kumpel coś mruczał o cepstralach i innych sinusach a wiem że tematem
zainteresowany :) )

ethanak



Mikolaj Machowski

Posted: 8 PaĽ 2008 07:32:06



ethanak napisał:

[...]
Fascynuj±ca strona:
http://free.of.pl/g/grzegorj/gram/pl/gram00.html

Fakt, bardzo ciekawa - szkoda że wcze¶niej nie zauważyłem.

Teraz trzeba "tylko":
1. rozwin±ć słownik aspella do pełnych form - ok. 16mln o ile dobrze
pamiętam

A sk±d tyle? Morfologik zawiera co¶ koło 2.5M słów, a i tak połowa z nich
to słowa złożone.

Ups. To było 16MB objęto¶ci, nie wierszy :)

2. przerobić wszystkie słowa na podane formy wg reguł ze strony 3.
znaleĽć wszystkie występuj±ce w przyrodzie kombinacje - to byłby nasz
korpus

No - do tego miejsca to mogę zrobić. Dalej szukam ochotników :)

Mógłbym spróbować taki korpus nagrać. Lub przynajmniej jego wersję
testow± na potrzeby pisania syntezatora.

To co mnie naprawdę przeraża to wycinanie kilku tysięcy difonów z plików
dĽwiękowych.

Wracaj±c do liczby kombinacji - znalazłem jeszcze tak± stronę:

http://forum.jzn.pl/viewtopic.php?p=842

gdzie jest podniesiony problem, że oficjalna lista alofonów nie jest
całkiem prawdziwa. Np. wg listy na podanej przeze mnie stronie d i g na
końcu wyrazu maj± takie same alofony jak odpowiednio t i k (pad - pat,
mag - mak). Trzeba by więc tę listę trochę zmodyfikować ale i tak s±dzę,
że możliwe jest zmieszczenie się w 10000 kombinacji - z czego pewnie
"tylko" 1/3 występuje w słowniku.

m.



ethanak

Posted: 8 PaĽ 2008 08:51:43



Dnia Wed, 08 Oct 2008 10:44:33 +0200, Adam Elente napisał(a):


No - do tego miejsca to mogę zrobić. Dalej szukam ochotników :)

ale czemu nie chcesz kupic głosu?

A dlaczego miałbym kupować głos?
Nie mowie, ze od razu. Mozna zacząć
np. od jakiś ochotników, ale głosu i tak nie ominiesz.

Czytałeś co poprzednio napisałem?

Przypominam, że syntezatory formantowe jakoś obywają się bez głosu ;)

ethanak



ethanak

Posted: 8 PaĽ 2008 09:41:38



Dnia Wed, 08 Oct 2008 07:40:01 +0000, Mikolaj Machowski napisał(a):

[...] Na ćwiczeniach z dykcji można
by nagrywać kilka osób i wybrać tę, której nagranie jest najlepsze.
Jeśli nawet założymy że studenci poświęcą godzinę tygodniowo na
nagranie - po semestrze masz już całkiem pokaźny materiał dźwiękowy.

Niejednorodny. Mam silne przypuszczenie, że jakość głosu PJWSTK jest
właśnie owocem takiej zbiorowej pracy.

No ale ja mówię o wybraniu nagrań jednego studenta :)

Zresztą - jedyne miejsce gdzie taki eksperyment mógłbym przeprowadzić
jest jakieś 600 km ode mnie czyli i tak sprawa na razie mało aktualna.


"Giordano" nie jest polskim wyrazem i nawet "nasz" syntezator mógłby
mieć spore problemy z prawidłową wymową tego typu zapożyczeń.

ZarĂłwno Ivona(Ewa) jak i Milena nie ma ĹĽadnego problemu.

SwojÄ…
drogą jak powinien się zachowywać w takich wypadkach (pomijam wpisanie
całej listy wyjątków do bazy)?

Zapis fonetyczny. A akurat Giordano na tyle często się spotyka, że można
go spokojnie wpisać do udict.

giordan(o|a|ie) dĹĽiordan%

Przy bardziej popularnych moĹĽna nawet do pho.dat

Ja część roboty mogę zrobić,
chociaż przyznam się że dużo lepiej się czuję w tej części
przetwarzania tekstu która siedzi przed syntezatorem i wolałbym zająć
siÄ™ tym na czym siÄ™ lepiej znam :)

Ja mogę zaoferować głos i ewentualnie benedyktyńską robotę przy jego
cięciu :)

Nawet zdolności programistycznych do stworzenia korpusu nie mam (choć to
dość proste chyba jest - tak na oko) :/ .

Nie powinno być specjalnie skomplikowane.

ethanak



Twoja wypowiedĽ

Bold Style  Italic Style  Underlined Style  Image Link  Insert URL  Email Link  Wył±cz BB code


Zanim wy¶lesz jak±¶ wiadomo¶ć z polskimi znakami, upewnij się czy kodowanie znaków w twojej przegl±darce to ISO-8859-2
 » Login  » Hasło 
 


Czas ładowania strony (sek.): 0.512 users

miniBB.net © 2001-2008 | Polityka Prywatno¶ci
e-giełdy + opisy gg + kumy fubi ° oko na maroko ° nimda °

Online: Odwiedzaj±cy - 1
+ - 0
Najwięcej odwiedzaj±cych: 77 [6 PaĽ 2008 01:40:40]
Odwiedzaj±cy - 77 / + - 0
bmw forum krzesła moped insurance intel ubezpieczenia samochodowe
  OdĽywki|| renovierung|| kody do gier|| Sony ACID Pro d|| branze|| kowalstwo artystyczne|| Pozycjonowanie w google|| Projekty domów

  • Podkręcony GeForce 9800 GTX+
  • Sparkle dodaje do swojej oferty podkręcon± kartę graficzn± GeForce 9800 GTX+, wyposażon± w procesor graficzny G92b, który pracuje z częstotliwo¶ci± 761 MHz.
  • 20- i 22-calowe desktopy Eee TOP w planach
  • Asus i Quanta pracuj± już nad komputerami typu all-in-one, należ±cymi do rodziny Eee TOP. Modele z 20- i 22-calowymi ekranami LCD pojawi± się na rynku w pierwszej połowie 2009 roku.
  • Stylowy monitor LCD od AOC
  • AOC F19 to nowy 18,5-calowy monitor LCD, oferuj±cy elegancki design, rozdzielczo¶ć 1366 x 768 pikseli, czas reakcji 5 ms oraz współczynnik dynamicznego kontrastu 10 000:1.
  • Komputer barebone z wbudowanym wy¶wietlaczem
  • D10 to nazwa nowego desktopa typu barebone, który obsługuje procesory z podstawk± LGA775, do 4 GB pamięci DDR2 oraz dwa dyski twarde z interfejsem SATA 3.0 Gbps.
  • MMS-y (wreszcie) w iPhonie?
  • Firma Mobispine twierdzi, że dzięki jej staraniom iPhone otrzyma wreszcie prawdziw± aplikację do wysyłania MMS-ów z każdego miejsca na Ziemi.