Skip to content
Snippets Groups Projects
Commit 741636e4 authored by Martin Mareš's avatar Martin Mareš
Browse files

Všechny datové soubory ležící mimo repo přesunuty do extra/

Takže nám konečně nemíchají do celého db/.
parent 194e2062
No related branches found
No related tags found
No related merge requests found
__pycache__ __pycache__
.mypy_cache .mypy_cache
/db/ruian
/db/skoly/html
/db/skoly/parsed
/data /data
/extra
/mo/config.py /mo/config.py
/osmo.egg-info /osmo.egg-info
/venv /venv
...@@ -46,7 +46,7 @@ ...@@ -46,7 +46,7 @@
setfacl -m u:www-data:x /akce/mo/osmo-test /akce/mo/osmo-test/var setfacl -m u:www-data:x /akce/mo/osmo-test /akce/mo/osmo-test/var
# Inicializovat regiony v DB # Inicializovat regiony v DB
# Obstarat si db/ruian/ a db/schools/parsed/ z jiné instance (nebo je znovu stáhnout) # Obstarat si extra/ruian/ a extra/schools/parsed/ z jiné instance (nebo je znovu stáhnout)
. ../venv/bin/activate . ../venv/bin/activate
bin/test-init # případně podmnožinu bin/test-init # případně podmnožinu
......
#!/usr/bin/env python3 #!/usr/bin/env python3
# Naplní databázi školami a obcemi, v nichž školy sídlí # Naplní databázi školami a obcemi, v nichž školy sídlí
# Používá db/skoly/parsed/*.tsv # Používá extra/skoly/parsed/*.tsv
# #
# Pozor, zrada: rejstřík škol je sice rozdělený do okresů dle NUTS/LAU, # Pozor, zrada: rejstřík škol je sice rozdělený do okresů dle NUTS/LAU,
# ale školy tam řadí podle úřadu, u nějž je škole registrovaná, což vůbec # ale školy tam řadí podle úřadu, u nějž je škole registrovaná, což vůbec
...@@ -182,14 +182,14 @@ ruian_obec_to_okres_nuts: DefaultDict[str, List[str]] = defaultdict(list) ...@@ -182,14 +182,14 @@ ruian_obec_to_okres_nuts: DefaultDict[str, List[str]] = defaultdict(list)
def load_ruian(): def load_ruian():
ocols, okresy = load_ruian_csv('db/ruian/UI_OKRES.csv') ocols, okresy = load_ruian_csv('extra/ruian/UI_OKRES.csv')
okres_by_id: Dict[int, List[str]] = {} okres_by_id: Dict[int, List[str]] = {}
for o in okresy: for o in okresy:
id = int(o[ocols['KOD']]) id = int(o[ocols['KOD']])
assert id not in okres_by_id assert id not in okres_by_id
okres_by_id[id] = o okres_by_id[id] = o
mcols, mesta = load_ruian_csv('db/ruian/UI_OBEC.csv') mcols, mesta = load_ruian_csv('extra/ruian/UI_OBEC.csv')
for m in mesta: for m in mesta:
jmeno = m[mcols['NAZEV']] jmeno = m[mcols['NAZEV']]
oid = int(m[mcols['OKRES_KOD']]) oid = int(m[mcols['OKRES_KOD']])
...@@ -204,7 +204,7 @@ args = parser.parse_args() ...@@ -204,7 +204,7 @@ args = parser.parse_args()
load_ruian() load_ruian()
for path in Path('db/skoly/parsed').glob('*.tsv'): for path in Path('extra/skoly/parsed').glob('*.tsv'):
m = re.fullmatch(r'^[A-Z]-(CZ\w+)\.tsv', path.name) m = re.fullmatch(r'^[A-Z]-(CZ\w+)\.tsv', path.name)
assert m is not None assert m is not None
nuts = m[1] nuts = m[1]
......
...@@ -10,7 +10,7 @@ class Garant(mo.csv.Row): ...@@ -10,7 +10,7 @@ class Garant(mo.csv.Row):
jmeno: str = "" jmeno: str = ""
email: str = "" email: str = ""
f = open('garanti.csv') f = open('data/garanti/garanti.csv')
rows = mo.csv.read(f, mo.csv.FileFormat.en_csv, Garant) rows = mo.csv.read(f, mo.csv.FileFormat.en_csv, Garant)
for g in rows: for g in rows:
......
#!/bin/bash #!/bin/bash
set -e set -e
rm -rf parsed rm -rf extra/parsed
mkdir parsed mkdir extra/parsed
for src in html/*.html ; do for src in extra/html/*.html ; do
dst=parsed/$(basename $src .html).tsv dst=extra/parsed/$(basename $src .html).tsv
echo -n "$src -> " echo -n "$src -> "
./rejskol-parse <$src >$dst ./rejskol-parse <$src >$dst
wc -l $dst wc -l $dst
......
...@@ -8,7 +8,7 @@ my $mech = WWW::Mechanize->new(autocheck => 1, strict_forms => 1); ...@@ -8,7 +8,7 @@ my $mech = WWW::Mechanize->new(autocheck => 1, strict_forms => 1);
$mech->get('https://rejstriky.msmt.cz/rejskol/VREJVerejne/VerejneRozhrani.aspx'); $mech->get('https://rejstriky.msmt.cz/rejskol/VREJVerejne/VerejneRozhrani.aspx');
$mech->form_id('form1'); $mech->form_id('form1');
mkdir 'html'; mkdir 'extra/html';
download_type('B'); # Základní školy download_type('B'); # Základní školy
download_type('C'); # Střední školy download_type('C'); # Střední školy
exit 0; exit 0;
...@@ -59,7 +59,7 @@ sub download_region { ...@@ -59,7 +59,7 @@ sub download_region {
sleep 1; sleep 1;
my $resp = $mech->click_button(id => 'btnVybrat'); my $resp = $mech->click_button(id => 'btnVybrat');
open my $f, '>:utf8', "html/$type-$nuts.html"; open my $f, '>:utf8', "extra/html/$type-$nuts.html";
print $f $resp->decoded_content; print $f $resp->decoded_content;
close $f; close $f;
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment