Obsah
Aard Dictionary
Aard Dictionary je program, který dokáže zobrazit velké slovníky, jako například wikipedii. Existuje pro Linux, Windows, Mac OS, Maemo i Android.
Instalace Aard Dictionary ve Fedoře
stáhnout zdrojový kód http://aarddict.org/downloads/index.html
python setup.py build su -c "python setup.py install"
Instalace Aard Tools ve Fedoře
Aard Tools slouží ke generování vlastních slovníků. Zde je návod pro instalaci na Ubuntu.
instaloval jsem následující závislosti (něco jsem už mohl mít nainstalované):
dnf install texlive-latex dvipng libicu libicu-devel LabPlot python-devel python-virtualenv blahtexml gcc gcc-c++
přepnout do adresáře, kde chceme vytvořit soubory pro Aard Tools
cd <adresář>
vytvořit pythonovské virtuální prostředí
virtualenv env-aard
aktivovat
source env-aard/bin/activate
instalovat pip
easy_install pip
upgrade pip
pip install --upgrade pip
instalovat aard tools
pip install aardtools
Vytvoření slovníku z české wiki
aktivujeme virtuální prostředí
source env-aard/bin/activate
pak je třeba stáhnout xml dump wikipedie
wget http://dumps.wikimedia.org/cswiki/latest/cswiki-latest-pages-articles.xml.bz2
získáme informace z cs.wikipedia.org
aard-siteinfo cs.wikipedia.org > cs.json
vytvoříme cdb soubor
mw-buildcdb --input cswiki-latest-pages-articles.xml.bz2 --output cswiki-latest-pages-articles.cdb
pro vygenerování slovníku je potřeba licence Creative Commons Attribution-Share Alike 3.0 Unported v souboru ./env-aard/lib/python2.7/site-packages/aardtools/licenses/ccasau-3.0.txt
soubory s licencemi můžete stáhnout zde:
v souboru cs.json jsem musel přidat klíč „general“
→ „rights“
. Hodnota může být pravděpodobně libovolná např.
"rights": "CC-BY-SA",
u pomalejšího počítače je dobré nastavit delší –timeout
třeba –timeout=30
vygenerování slovníku
aardc --siteinfo cs.json wiki cswiki-latest-pages-articles.cdb
Převod XDXF slovníku
převede soubor slovnik.xdxf
na slovnik.aar
source env-aard/bin/activate aardc xdxf slovnik.xdxf