Izvlacenje linkova iz HTML fajla

poruka: 8
|
čitano: 1.236
|
moderatori: Lazarus Long, XXX-Man, vincimus
1
+/- sve poruke
ravni prikaz
starije poruke gore
15 godina
neaktivan
offline
Izvlacenje linkova iz HTML fajla

Potreban mi je savjet kako da izvucem linkove iz HTML fajla 

Postoje tri formata linkova u tom html dokumentu, a meni je potreban samo jedan i da se svi linkovi tog formata smjeste u jednu txt datoteku

1) http://www.nekisajt.com/en/img/5476706

2) http://www.nekisajt.com/radio/5476706

3)http://www.nekisajt.com/en/contact

 

Treba mi pomoc na koji bi nacin to mogao najlakse uraditi?

Moj PC  
0 0 hvala 0
15 godina
offline
Izvlacenje linkova iz HTML fajla

Možeš li malo precizirati razliku između te tri vrste linkova?

"Let us work without theorizing... 'tis the only way to make life endurable." - Voltaire
 
0 0 hvala 0
15 godina
neaktivan
offline
Izvlacenje linkova iz HTML fajla

Potrebno je samo da link posjeduje

http://www.nekisajt.com/en/img/ + taj ID 512364 koji se sastoji od 6  cifara

ako je http://www.nekisajt.com/doc/5476706 onda taj link nije taj koji mi je potreban

Moj PC  
0 0 hvala 0
13 godina
neaktivan
offline
Re: Izvlacenje linkova iz HTML fajla

Ja uopće nisam shvatio što ti želiš. Da li je na raspolaganju .NET, PHP?

15 godina
neaktivan
offline
Re: Izvlacenje linkova iz HTML fajla
royalhero kaže...

Ja uopće nisam shvatio što ti želiš. Da li je na raspolaganju .NET, PHP?

PHP, potrebno mi je da izvucem sve linkove ( prvog tipa , pogledaj prvi post) iz html fajla i smjestim ih u txt fajl.

13 godina
neaktivan
offline
Re: Izvlacenje linkova iz HTML fajla
Sk8eR kaže...

PHP, potrebno mi je da izvucem sve linkove ( prvog tipa , pogledaj prvi post) iz html fajla i smjestim ih u txt fajl.

Ok! Ne bavim se puno PHP-om tako da ne znam kako bi "izvadio" linkove iz HTML dokumenta, a kako bi ih zapisao u fajl sam objasnio ovdje.

15 godina
offline
Re: Izvlacenje linkova iz HTML fajla
Sk8eR kaže...
royalhero kaže...

Ja uopće nisam shvatio što ti želiš. Da li je na raspolaganju .NET, PHP?

PHP, potrebno mi je da izvucem sve linkove ( prvog tipa , pogledaj prvi post) iz html fajla i smjestim ih u txt fajl.

To si trebao odmah navesti na pocetku. Ja to ne znam izvesti u php-u, no napravio sam to pythonu:


import re
import urllib

url = raw_input("Enter web page url: ")
page = urllib.urlopen(url).read()
urls =  re.findall(r'http://.*/en/img/?[0-9]*',page)

urls = list(set(urls))
file = open("urls.txt",'w')
for item in urls:
    file.write("%s\n" % item)

 

Ovo pohranis u neki file s ekstenzijom .py i onda ga pokrenes pomocu pythona(moras imati instaliran python). Onda samo uneses puni url stranice iz koje zelis vaditi linkove, i ovo ce ti izvuci sve linkove ,tipa koji naveo, u file urls.txt.

"Let us work without theorizing... 'tis the only way to make life endurable." - Voltaire
15 godina
neaktivan
offline
Re: Izvlacenje linkova iz HTML fajla
captain_soap_McTawish kaže...
Sk8eR kaže...
royalhero kaže...

Ja uopće nisam shvatio što ti želiš. Da li je na raspolaganju .NET, PHP?

PHP, potrebno mi je da izvucem sve linkove ( prvog tipa , pogledaj prvi post) iz html fajla i smjestim ih u txt fajl.

To si trebao odmah navesti na pocetku. Ja to ne znam izvesti u php-u, no napravio sam to pythonu:


import re
import urllib

url = raw_input("Enter web page url: ")
page = urllib.urlopen(url).read()
urls =  re.findall(r'http://.*/en/img/?[0-9]*',page)

urls = list(set(urls))
file = open("urls.txt",'w')
for item in urls:
    file.write("%s\n" % item)

 

Ovo pohranis u neki file s ekstenzijom .py i onda ga pokrenes pomocu pythona(moras imati instaliran python). Onda samo uneses puni url stranice iz koje zelis vaditi linkove, i ovo ce ti izvuci sve linkove ,tipa koji naveo, u file urls.txt.

Hvala to je upravo to sto sam trazio, a nije bilo obavezno u PHP vazno samo da radi. A vec imam python instaliran tako da ce mi ovo biti od koristi. Hvala puno!

1
Nova poruka
E-mail:
Lozinka:
 
vrh stranice