Komentáře k článku
Úvod do Sphinx Search

Sphinx Search je fulltextový vyhledávač pro databáze. Je to zajímavá alternativa k javovým řešením, o kterých se, na rozdíl od Sphinxu, mluví mnohem víc. Jelikož s ním mám dobré zkušenosti a používám ho několik let, už od jeho beta verze, rád bych se s vámi podělil o své zkušenosti formou seriálu.
Podpora češtiny?
Ahoj,
jaká je prosím podpora češtiny pro Sphinx? Předpokládám, že existují komerční podpory češtiny, existují i nějaké s open-source (či ještě lépe free software) licencí?
Dík,
Lukáš
Re: Podpora češtiny?
Lukáš Vlček: Sphinx má přímo v sobě stemmer pro češtinu, ale „nic moc“ je slabé slovo. Pak má ale možnost natáhnout slovní tvary z open-source slovníků Ispell nebo MySpell a to celkem funguje.
Re: Podpora češtiny?
Ahoj, to by mě právě zajímalo.
Dělal jsem nějaké expeimenty s iSpell slovníkem pro Lucene (pomocí Hunspell), ale příjde mi, že ten slovník je vyroben spíš pro spellchecking a né pro stemming. To znamená, že mi to pro jednotlivé termy navrhuje i zavádějící varianty (např. pro slovo „Karel“ to vygeneruje „krabice“ a podobně). Setkal ses s něčím podobným? Možná je chyba u mě.
A ještě co se týká čsštiny, jak je to třeba se sortováním? Umí Sphinx správně setřídit slova, kde se vyskutyje „ch“? (pokud Sphinx umí sortovat).
Re: Podpora češtiny?
Pardon, jen upřesním, že pro slovo „Karel“ mi Hunspell vrací „karta“ a „kareta“.
Re: Podpora češtiny?
Ah… tak už jsem na to asi přišel. :-) Chyba byla na mé straně.
Ono totiž mezi „Karel“ a „karel“ je z pohledu Hunspellu rozdíl (a právem).
Re: Podpora češtiny?
Aha, ale uživatelé asi nebudou při hledání rozlišovat malé/velké písmeno.
Jinak třeba Pravidla.cz používají pro generování slovních tvarů Ispell a vypadá to, že jim to generuje správně: http://www.pravidla.cz/hledej.php?qr=karel
Re: Podpora češtiny?
Ano, uživatelé to nebudou dělat (a je to tak dobře), ale pokud bys třeba chtěl nastavit správně analyzér v Lucene s použitím Hunspell token filtru, tak je třeba na to myslet.
Mimochodem, zajímalo by mě, jakou verzi Ispellu Pravidla.cz používají, jestli je to jiná verze slovníku, než co jde pro češtinu stáhnout z http://src.chromium.org/viewvc/chrome/trunk/deps/third_party/hunspell_dictionaries/
Re: Podpora češtiny?
Tak to nevim. Já jsem při experimentech používal tuhle češtinu: https://github.com/tvondra/ispell_czech.git
Sphinx tuším využívá i Seznam:)
Sphinx
Ano, pro některé současné i nové projekty Sphinx používáme.
Sphinx - Seznam
to mě zajímá – pro které projekty?
a proč nepoužíváte váš vlastní fulltext?
Re: Sphinx - Seznam
Pokud vím, tak třeba Zbozi.cz. Nevím jestli stále, ale svého času na tom běželo. Dokonce je uvedeno v Powered by Sphinx: http://sphinxsearch.com/info/powered/