Google začal indexovat PDF dokumenty a texty obrázků

Gigant Google začal indexovat texty „naskenovaných“ PDF souborů. Můžete se tak přes vyhledávání Googlu dostat například k textům, které se nacházejí v obrázcích. Google pro to použil techniku OCR, která se využívá pro optické rozpoznávání znaků.

Google sponzoruje open-source OCR software zvaný OCRopus. Spekuluje se nad tím, že tento software právě využil pro vlastní převod a indexaci PDF dokumentů z webu. K dohledání tak budou vládní spisy, studijní materiály či různé písemnosti.

Jedná se o další významný krok vyhledávání ve prospěch Googlu. Před pár měsíci bylo oznámena indexace textů flashových souborů na webech. Také jsme se setkali s možností rozpoznávání obličejů při třídění fotografií. Tuto funkci naleznete v Google Picasa.

Zdroj: Google Operating System

Témata článku: Google, Web, Picasa

22 komentářů

Nejnovější komentáře

  • Jirka Vejrazka 7. 11. 2008 22:58:54
    To ze se da najit spatne implementovana (nebo prehistoricka) CAPTCHA jeste...
  • mandal 7. 11. 2008 17:12:45
    Například takovýto captach dokáže přečíst i...
  • Jirka Vejrazka 4. 11. 2008 13:41:18
    Ach jo. Zkus se zamyslet nad tim k cemu je urcena CAPTCHA a co je jeji...
Určitě si přečtěte

Operační systém běžným počítačům nedal Bill Gates, ale Gary Kildall

Operační systém běžným počítačům nedal Bill Gates, ale Gary Kildall

** Gary Kildall pochopil, že levné výpočetní čipy mohou posloužit jako univerzální počítače pro všechny ** Připravil pro ně proto první operační systém ** Později mu systém vyfoukl Microsoft a nazval ho MS DOS

23.  4.  2017 | Pavel Tronner | 56

Umělá inteligence je sice v plenkách, už teď ale přestáváme rozumět, jak vlastně funguje. To je problém

Umělá inteligence je sice v plenkách, už teď ale přestáváme rozumět, jak vlastně funguje. To je problém

** Už je to tady, lidé přestávají chápat počítače ** Systémy neuronových sítí začínají pracovat tak, že ani jejich tvůrci přesně neví, co se uvnitř děje ** Do budoucna to může být závažný problém

24.  4.  2017 | Jakub Čížek | 112

Před 35 lety měl premiéru legendární počítač ZX Spectrum. Připomeňte si „Gumáka“

Před 35 lety měl premiéru legendární počítač ZX Spectrum. Připomeňte si „Gumáka“

** Slavný osmibitový počítač Sinclair ZX Spectrum byl uveden právě před 35 lety ** Připomeňte si tento průkopnický počítač v tematických článcích ** Podívejte se, jak funguje dnes

23.  4.  2017 | Pavel Tronner | 13

Správný počítač má alespoň dva monitory. Anebo je to jinak?

Správný počítač má alespoň dva monitory. Anebo je to jinak?

** David si nedokáže představit práci bez dvou a více monitorů ** Kubovi naopak stačí jeden a ve více displejích se ztrácí ** Jaký přístup je lepší?

23.  4.  2017 | Jakub Čížek | 59

Brněnské soudy daly stop Uberu. Je to dobře, nebo krok zpět?

Brněnské soudy daly stop Uberu. Je to dobře, nebo krok zpět?

** Před několika měsíci začal Uber nabízet své služby i v Brně ** Nyní ale narazil, soudům se to totiž nelíbí ** Má sdílená ekonomika dostat zelenou?

22.  4.  2017 | Jakub Čížek | 28


Aktuální číslo časopisu Computer

Supertéma: moderní cestování

Kdy opravdu přijdou nové baterie?

Velké testy: 6 herních notebooků a 8 volantů

Recenze: AMD Ryzen řady 5