[Okta Webinar] Learn how to a build a cloud-first strategyRegister Now

x
  • Status: Solved
  • Priority: Medium
  • Security: Public
  • Views: 337
  • Last Modified:

php regex

Hi,
I need to extract those info form a page like the attached code:

Only for "Partenze" table:

TERMINI IMENERESE, 13:11, ritardo 6 minuti
TRAPANI, 13:29, in orario
AGRIGENTO CENTRALE , 13:35, in orario
..
..

Could you give me the code to extract those info in that format?

Thanks!

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN" "http://www.wapforum.org/DTD/xhtml-mobile10.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
	<head>
		<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
		<title>Risultati ricerca</title>
		<link href="../css/mobile.css" rel="stylesheet" type="text/css" />
	</head>
 
	<body>
 
		<!-- TESTATA -->
		<div id="testata">
			<img src="../images/header_mobile.gif" alt="Viaggia Treno" width="148" height="22" />
		</div>
 
		<!-- TITOLO -->
		<h1>Stazione di  Palermo C.le</h1>
 
		<!-- CORPO SU BIANCO -->
		<div class="corpocentrale">
			<p><strong>Partenze</strong></p>
        </div>
 
		<!-- RISULTATI RICERCA - PARTENZE -->
        
            <div class="bloccorisultato">
			    <h2>REG 8818</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>13:11</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                                   
                                        
                                        
                                           
                                                
                                                    3    
                                                
                                                 
                                            
                                        
                                   
                            
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                               
						            
                                              <strong>3  </strong>
                                    
                                 
                               
                            
                            
                        
 
                     <br>
 
                    
                    
                        
                        
                            <img src="../images/pallinoRit1.png"/>
                        
                        
                        
                        
                    
                    ritardo  6 minuti
                    
                    
                </div>
				<a href="scheda?numeroTreno=8818&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 3847</h2>
				<div class="bloccotreno">
					Per <strong>TRAPANI</strong><br/>
					Delle ore <strong>13:29</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                                   
                                        
                                        
                                           
                                                
                                                    8    
                                                
                                                 
                                            
                                        
                                   
                            
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                               
						            
                                              <strong>8  </strong>
                                    
                                 
                               
                            
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=3847&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 3912</h2>
				<div class="bloccotreno">
					Per <strong>AGRIGENTO CENTRALE</strong><br/>
					Delle ore <strong>13:35</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                                   
                                        
                                        
                                           
                                                
                                                    4    
                                                
                                                 
                                            
                                        
                                   
                            
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                               
						            
                                              <strong>4  </strong>
                                    
                                 
                               
                            
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=3912&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 22751</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>13:39</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                                   
                                        
                                        
                                           
                                                
                                                    9    
                                                
                                                 
                                            
                                        
                                   
                            
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                               
						            
                                              <strong>9  </strong>
                                    
                                 
                               
                            
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=22751&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 8820</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>13:41</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                                   
                                        
                                        
                                           
                                                
                                                    1    
                                                
                                                 
                                            
                                        
                                   
                            
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                               
						            
                                              <strong>1  </strong>
                                    
                                 
                               
                            
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=8820&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 12774</h2>
				<div class="bloccotreno">
					Per <strong>S.AGATA M.</strong><br/>
					Delle ore <strong>14:05</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        2    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=12774&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 22723</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>14:09</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        10   
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=22723&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 8822</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>14:11</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        3    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=8822&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 8677</h2>
				<div class="bloccotreno">
					Per <strong>CASTELVETRANO</strong><br/>
					Delle ore <strong>14:29</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        9    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=8677&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>EXP 1940</h2>
				<div class="bloccotreno">
					Per <strong>TORINO P.NUOVA</strong><br/>
					Delle ore <strong>14:30</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        4    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                     <br>
 
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=1940&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 3914</h2>
				<div class="bloccotreno">
					Per <strong>AGRIGENTO CENTRALE</strong><br/>
					Delle ore <strong>14:35</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        1    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=3914&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 22725</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>14:39</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        10   
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=22725&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
            <div class="bloccorisultato">
			    <h2>REG 8824</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>14:41</strong><br/>
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        2    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                     <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario
                    
                </div>
				<a href="scheda?numeroTreno=8824&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
           
		<!-- CORPO SU BIANCO -->
		<div class="corpocentrale">
			<p><strong>Arrivi</strong></p>
        </div>
 
		<!-- RISULTATI RICERCA - ARRIVI -->
        
        <div class="bloccorisultato">
			    <h2>REG 3936</h2>
				<div class="bloccotreno">
					Per <strong>AGRIGENTO CENTRALE</strong><br/>
					Delle ore <strong>13:00</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                                   
                                        
                                        
                                           
                                                
                                                    2    
                                                
                                                 
                                            
                                        
                                   
                            
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                               
						            
                                              <strong>4  </strong>
                                    
                                 
                               
                            
                            
                        
 
                 <br>
 
                    
                    
                        
                        
                            <img src="../images/pallinoRit1.png"/>
                        
                        
                        
                        
                    
                    ritardo  9
                    
                    
           	</div>
				<a href="scheda?numeroTreno=3936&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 8815</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>13:24</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                                   
                                        
                                        
                                           
                                                
                                                    1    
                                                
                                                 
                                            
                                        
                                   
                            
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                               
						            
                                              <strong>1  </strong>
                                    
                                 
                               
                            
                            
                        
 
                 <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario 
                    
           	</div>
				<a href="scheda?numeroTreno=8815&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 22716</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>13:27</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                                   
                                        
                                        
                                           
                                                
                                                    9    
                                                
                                                 
                                            
                                        
                                   
                            
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                               
						            
                                              <strong>9  </strong>
                                    
                                 
                               
                            
                            
                        
 
                 <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario 
                    
           	</div>
				<a href="scheda?numeroTreno=22716&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 3844</h2>
				<div class="bloccotreno">
					Per <strong>CALTANISSETTA CENTRALE</strong><br/>
					Delle ore <strong>13:30</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                                   
                                        
                                        
                                           
                                                
                                                    3    
                                                
                                                 
                                            
                                        
                                   
                            
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                               
						            
                                              <strong>3  </strong>
                                    
                                 
                               
                            
                            
                        
 
                 <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario 
                    
           	</div>
				<a href="scheda?numeroTreno=3844&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 12765</h2>
				<div class="bloccotreno">
					Per <strong>S.AGATA M.</strong><br/>
					Delle ore <strong>13:55</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        5    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                 <br>
 
                    
                    
                        
                        
                            <img src="../images/pallinoRit1.png"/>
                        
                        
                        
                        
                    
                    ritardo  7
                    
                    
           	</div>
				<a href="scheda?numeroTreno=12765&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 22760</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>13:57</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        10   
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                 <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario 
                    
           	</div>
				<a href="scheda?numeroTreno=22760&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>EXP 1933</h2>
				<div class="bloccotreno">
					Per <strong>MESSINA CENTRALE</strong><br/>
					Delle ore <strong>14:15</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        6    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                 <br>
 
                    
                        
                        
                        
                            <img src="../images/pallinoRit2.png"/>
                        
                        
                        
                    
                    
                    ritardo  59
                    
                    
           	</div>
				<a href="scheda?numeroTreno=1933&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 8817</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>14:25</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        2    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                 <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario 
                    
           	</div>
				<a href="scheda?numeroTreno=8817&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 22718</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>14:27</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        10   
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                 <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario 
                    
           	</div>
				<a href="scheda?numeroTreno=22718&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 8819</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>14:54</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        4    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                 <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario 
                    
           	</div>
				<a href="scheda?numeroTreno=8819&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 22720</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>14:57</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        9    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                 <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario 
                    
           	</div>
				<a href="scheda?numeroTreno=22720&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
        <div class="bloccorisultato">
			    <h2>REG 8611</h2>
				<div class="bloccotreno">
					Per <strong>CEFALU`</strong><br/>
					Delle ore <strong>15:00</strong><br/>
 
 
                    Binario
                    Previsto:
                        
                            
                            
                                
                                    
                                        6    
                                    
                                     
                                
                            
                        
                <br>
                       Binario
                       Reale:
                          
                            
                            
                                   --
                            
                        
 
                 <br>
 
                    
                    
                        
                            <img src="../images/pallinoRit0.png"/>
                        
                        
                        
                        
                        
                    
                    
                    in orario 
                    
           	</div>
				<a href="scheda?numeroTreno=8611&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
        
		<!-- FOOTER + LINK -->
		<div id="footer">
            <a href="/viaggiatreno/mobile/stazione?lang=IT">» Nuova ricerca </a><br/>
            <a href="/viaggiatreno/mobile/numero?lang=IT">» Cerca Treno per numero</a><br/>
            <a href="/viaggiatreno/mobile/tragitto?lang=IT">» Cerca per dati di viaggio</a><br/>
            <p><img src="../images/iconaRicerca.png" style="vertical-align: middle;"/><a href="/viaggiatreno/mobile/programmato?lang=IT">Orario Treni</a></p>
            <p id="copynote">Copyright Trenitalia S.p.A. 2006.<br />Tutti i diritti riservati.</p>
		    </div>
	</body>
</html>

Open in new window

0
cellomania
Asked:
cellomania
  • 6
  • 5
1 Solution
 
Ray PaseurCommented:
Let's see... You posted 1345 lines of code and a 50 point question.  We are experts who answer questions for points.  So with very low points, you're not likely to attract much attention to your question.  And with 1345 lines of code, it kind of looks like you have an application development requirement instead of a question.

My suggestions:  Pare down the question to an example.  Show us the input strings and the outputs you want, and ask how to do that.  It's not up to us to remediate your application code - that is your job, but we are glad to answer questions, for points, when the questions reflect some consolidation of thought.

Good luck, ~Ray
0
 
cellomaniaAuthor Commented:
Hi!
Sorry! Now I added those point.
I hope they are enought.

Thanks
0
 
Ray PaseurCommented:
More points are always a good idea, but the sheer amount of code is unwieldy.  Can you give us a more concise example of what you want to achieve, please?  Just show a few lines of the input fields, and tell us what you want for output fields.  That is the best way to get a quick and accurate answer.

Best regards, ~Ray
0
VIDEO: THE CONCERTO CLOUD FOR HEALTHCARE

Modern healthcare requires a modern cloud. View this brief video to understand how the Concerto Cloud for Healthcare can help your organization.

 
cellomaniaAuthor Commented:
Hi,
 I only need a regular expression to extract

Partenze
TERMINI IMENERESE, 13:11, ritardo 6 minuti
TRAPANI, 13:29, in orario
AGRIGENTO CENTRALE , 13:35, in orario
...
..
from the html attached code.

I hope anyone could help me.
Thanks
0
 
Ray PaseurCommented:
cellomania: A REGEX might or might not be the best solution, but we would need to know something about what we are looking for in there.  Are there some guidelines, such as XML tags, that would help us find these fields?

I will try to see what can be done with it, however you need to be aware that while it ways it is XML, the content is malformed and cannot be parsed without modification.  That always worries me, because I do not like to run the risk of changing the input values -- I prefer to find consistent rules that will work with the patterns in the input.  In this case, however, that seems impossible.

Best regards, ~Ray
0
 
cellomaniaAuthor Commented:
hi,
i found a lot of questions about regex with long codes here in experte exchange where the expertes replied with a code.

I don't know why my question is so diseregarded.

It think a good way is create the question again and select immediately 500 points.
But i'm not sure.

The code added is a normal html page, and i need to extract some code with regexp. I need only an exprert on regular expression.


0
 
Ray PaseurCommented:
Your question is not being "disregarded" and you're missing the point.  The data is malformed.  You can write REGEX expressions forever, but if you can't write out the rules for what you're trying to extract, you can't depend on the REGEX, no matter how "long and complicated" it looks.

If you can tell us the rules for finding these data fields, we can help.  If we have to read the HTML code and guess, you are almost certain to get a REGEX or similar data extraction solution that will work once on the test data and fail immediately in production.

Here are the sort of problems I had when trying to help you.  There are eight occurrences of TERMINI but zero occurrences of IMENERESE -- how do you expect us to extract information that is not there?  There is one TRAPANI and three AGRIGENTO CENTRALE - what are the rules for separating those and presenting them?  Without some clarity on these issues, you're not likely to get a good solution.

Have you contacted the organization that generates this input file and asked them about an API to get the data?  That may be a much more dependable way of getting the data, rather than relying on our guesses about how to scrape the XML / HTML

Best regards, ~Ray
0
 
cellomaniaAuthor Commented:
Ok, i try to explain better.
If you put the code to html, and you see it with internet explorer you will see:

<<-clip-->>
Stazione di Palermo C.le
Partenze

REG 8818
Per TERMINI IMERESE
Delle ore 13:11
Binario Previsto: 3
Binario Reale: 3
 ritardo 6 minuti
? Vedi scheda
REG 3847
Per TRAPANI
Delle ore 13:29
Binario Previsto: 8
Binario Reale: 8
 in orario
? Vedi scheda
REG 3912
Per AGRIGENTO CENTRALE
Delle ore 13:35
Binario Previsto: 4
Binario Reale: 4
 in orario
? Vedi scheda
REG 22751
Per PUNTA RAISI
Delle ore 13:39
Binario Previsto: 9
Binario Reale: 9
 in orario
? Vedi scheda
REG 8820
Per TERMINI IMERESE
Delle ore 13:41
Binario Previsto: 1
Binario Reale: 1
 in orario
? Vedi scheda
REG 12774
Per S.AGATA M.
Delle ore 14:05
Binario Previsto: 2
Binario Reale: --
 in orario
? Vedi scheda
REG 22723
Per PUNTA RAISI
Delle ore 14:09
Binario Previsto: 10
Binario Reale: --
 in orario
? Vedi scheda
REG 8822
Per TERMINI IMERESE
Delle ore 14:11
Binario Previsto: 3
Binario Reale: --
 in orario
? Vedi scheda
REG 8677
Per CASTELVETRANO
Delle ore 14:29
Binario Previsto: 9
Binario Reale: --
 in orario
? Vedi scheda
EXP 1940
Per TORINO P.NUOVA
Delle ore 14:30
Binario Previsto: 4
Binario Reale: --
 in orario
? Vedi scheda
REG 3914
Per AGRIGENTO CENTRALE
Delle ore 14:35
Binario Previsto: 1
Binario Reale: --
 in orario
? Vedi scheda
REG 22725
Per PUNTA RAISI
Delle ore 14:39
Binario Previsto: 10
Binario Reale: --
 in orario
? Vedi scheda
REG 8824
Per TERMINI IMERESE
Delle ore 14:41
Binario Previsto: 2
Binario Reale: --
 in orario
? Vedi scheda
Arrivi

REG 3936
Per AGRIGENTO CENTRALE
Delle ore 13:00
Binario Previsto: 2
Binario Reale: 4
 ritardo 9
? Vedi scheda
REG 8815
Per TERMINI IMERESE
Delle ore 13:24
Binario Previsto: 1
Binario Reale: 1
 in orario
? Vedi scheda
REG 22716
Per PUNTA RAISI
Delle ore 13:27
Binario Previsto: 9
Binario Reale: 9
 in orario
? Vedi scheda
REG 3844
Per CALTANISSETTA CENTRALE
Delle ore 13:30
Binario Previsto: 3
Binario Reale: 3
 in orario
? Vedi scheda
REG 12765
Per S.AGATA M.
Delle ore 13:55
Binario Previsto: 5
Binario Reale: --
 ritardo 7
? Vedi scheda
REG 22760
Per PUNTA RAISI
Delle ore 13:57
Binario Previsto: 10
Binario Reale: --
 in orario
? Vedi scheda
EXP 1933
Per MESSINA CENTRALE
Delle ore 14:15
Binario Previsto: 6
Binario Reale: --
 ritardo 59
? Vedi scheda
REG 8817
Per TERMINI IMERESE
Delle ore 14:25
Binario Previsto: 2
Binario Reale: --
 in orario
? Vedi scheda
REG 22718
Per PUNTA RAISI
Delle ore 14:27
Binario Previsto: 10
Binario Reale: --
 in orario
? Vedi scheda
REG 8819
Per TERMINI IMERESE
Delle ore 14:54
Binario Previsto: 4
Binario Reale: --
 in orario
? Vedi scheda
REG 22720
Per PUNTA RAISI
Delle ore 14:57
Binario Previsto: 9
Binario Reale: --
 in orario
? Vedi scheda
REG 8611
Per CEFALU`
Delle ore 15:00
Binario Previsto: 6
Binario Reale: --
 in orario
? Vedi scheda
? Nuova ricerca
? Cerca Treno per numero
? Cerca per dati di viaggio

Orario Treni

Copyright Trenitalia S.p.A. 2006.
Tutti i diritti riservati.
<---clip--->>

And i need to extract this data:
Partenze

8818, TERMINI IMERESE, 13:11, ritardo 6 minuti
3847, TRAPANI, 13:29, in orario
3912, AGRIGENTO CENTRALE, 13:35, in orario
..
..
8824 TERMINI IMERESE, 14:41, in orario

.
Is it possible?
0
 
Ray PaseurCommented:
Yes, I think I understand better now.  I still recommend you ask for an API to get the information because the "XML" is malformed - it is a combination of XML and HTML that is not easy to parse.  But I will have a look trying to find these fields.
0
 
Hube02Commented:
From what I can see/make out in the HTML, each block consists, roughly, of the following, and the data that you want is bold and underlined: (I also took out all the extra whitespace). Let us know if this is correct, this will more precisely define what you are looking for.

Question: Can every block be expected to be the same as this (not including all the extra white space)? Would you expect any deviations from this basic block of data?

 <div class="bloccorisultato">
    <h2>REG 3847</h2>
    <div class="bloccotreno">
        Per <strong>TRAPANI</strong><br/>
        Delle ore <strong>13:29</strong><br/>
        Binario        Previsto:        8    
                                                       <br>
        Binario
        Reale:
        <strong>8  </strong>
                                           <br>
        <img src="../images/pallinoRit0.png"/>
                               in orario
    </div>
    <a href="scheda?numeroTreno=3847&tipoRicerca=stazione" >» Vedi scheda</a>
</div>


0
 
cellomaniaAuthor Commented:
Yes, the blocks are correct.
It's ok also if you don't add spaces anc commas, and you extract all fields without modifing theme. I will modify that in my script.

Thanks

I need this blocks only between Partenze to Arrivi.  I don't need the blocks under  "Arrivi".
0
 
Ray PaseurCommented:

<?php // RAY_temp_rails.php
 
// EXTRACT OBJECTIVES
/* *
 * And i need to extract this data:
 * Partenze
 * 8818, TERMINI IMERESE, 13:11, ritardo 6 minuti
 * 3847, TRAPANI, 13:29, in orario
 * 3912, AGRIGENTO CENTRALE, 13:35, in orario
 * ..
 * 8824 TERMINI IMERESE, 14:41, in orario
 *
 * Is it possible?
 *
 */ // END OBJECTIVES
 
 
echo "<pre>";
error_reporting(E_ALL);
 
 
// TEST DATA
$xml = '<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN" "http://www.wapforum.org/DTD/xhtml-mobile10.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
	<head>
		<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
		<title>Risultati ricerca</title>
		<link href="../css/mobile.css" rel="stylesheet" type="text/css" />
	</head>
 
	<body>
 
		<!-- TESTATA -->
		<div id="testata">
			<img src="../images/header_mobile.gif" alt="Viaggia Treno" width="148" height="22" />
		</div>
 
		<!-- TITOLO -->
		<h1>Stazione di  Palermo C.le</h1>
 
		<!-- CORPO SU BIANCO -->
		<div class="corpocentrale">
			<p><strong>Partenze</strong></p>
        </div>
 
		<!-- RISULTATI RICERCA - PARTENZE -->
 
            <div class="bloccorisultato">
			    <h2>REG 8818</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>13:11</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
 
 
                                                    3
 
 
 
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
 
                                              <strong>3  </strong>
 
 
 
 
 
 
 
                     <br>
 
 
 
 
 
                            <img src="../images/pallinoRit1.png"/>
 
 
 
 
 
                    ritardo  6 minuti
 
 
                </div>
				<a href="scheda?numeroTreno=8818&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 3847</h2>
				<div class="bloccotreno">
					Per <strong>TRAPANI</strong><br/>
					Delle ore <strong>13:29</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
 
 
                                                    8
 
 
 
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
 
                                              <strong>8  </strong>
 
 
 
 
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=3847&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 3912</h2>
				<div class="bloccotreno">
					Per <strong>AGRIGENTO CENTRALE</strong><br/>
					Delle ore <strong>13:35</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
 
 
                                                    4
 
 
 
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
 
                                              <strong>4  </strong>
 
 
 
 
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=3912&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 22751</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>13:39</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
 
 
                                                    9
 
 
 
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
 
                                              <strong>9  </strong>
 
 
 
 
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=22751&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 8820</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>13:41</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
 
 
                                                    1
 
 
 
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
 
                                              <strong>1  </strong>
 
 
 
 
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=8820&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 12774</h2>
				<div class="bloccotreno">
					Per <strong>S.AGATA M.</strong><br/>
					Delle ore <strong>14:05</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        2
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=12774&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 22723</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>14:09</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        10
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=22723&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 8822</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>14:11</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        3
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=8822&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 8677</h2>
				<div class="bloccotreno">
					Per <strong>CASTELVETRANO</strong><br/>
					Delle ore <strong>14:29</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        9
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=8677&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>EXP 1940</h2>
				<div class="bloccotreno">
					Per <strong>TORINO P.NUOVA</strong><br/>
					Delle ore <strong>14:30</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        4
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                     <br>
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=1940&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 3914</h2>
				<div class="bloccotreno">
					Per <strong>AGRIGENTO CENTRALE</strong><br/>
					Delle ore <strong>14:35</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        1
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=3914&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 22725</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>14:39</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        10
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=22725&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
            <div class="bloccorisultato">
			    <h2>REG 8824</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>14:41</strong><br/>
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        2
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                     <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
                </div>
				<a href="scheda?numeroTreno=8824&tipoRicerca=stazione" >» Vedi scheda</a>
			</div>
 
		<!-- CORPO SU BIANCO -->
		<div class="corpocentrale">
			<p><strong>Arrivi</strong></p>
        </div>
 
		<!-- RISULTATI RICERCA - ARRIVI -->
 
        <div class="bloccorisultato">
			    <h2>REG 3936</h2>
				<div class="bloccotreno">
					Per <strong>AGRIGENTO CENTRALE</strong><br/>
					Delle ore <strong>13:00</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
 
 
                                                    2
 
 
 
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
 
                                              <strong>4  </strong>
 
 
 
 
 
 
 
                 <br>
 
 
 
 
 
                            <img src="../images/pallinoRit1.png"/>
 
 
 
 
 
                    ritardo  9
 
 
           	</div>
				<a href="scheda?numeroTreno=3936&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 8815</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>13:24</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
 
 
                                                    1
 
 
 
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
 
                                              <strong>1  </strong>
 
 
 
 
 
 
 
                 <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
           	</div>
				<a href="scheda?numeroTreno=8815&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 22716</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>13:27</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
 
 
                                                    9
 
 
 
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
 
                                              <strong>9  </strong>
 
 
 
 
 
 
 
                 <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
           	</div>
				<a href="scheda?numeroTreno=22716&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 3844</h2>
				<div class="bloccotreno">
					Per <strong>CALTANISSETTA CENTRALE</strong><br/>
					Delle ore <strong>13:30</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
 
 
                                                    3
 
 
 
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
 
                                              <strong>3  </strong>
 
 
 
 
 
 
 
                 <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
           	</div>
				<a href="scheda?numeroTreno=3844&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 12765</h2>
				<div class="bloccotreno">
					Per <strong>S.AGATA M.</strong><br/>
					Delle ore <strong>13:55</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        5
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                 <br>
 
 
 
 
 
                            <img src="../images/pallinoRit1.png"/>
 
 
 
 
 
                    ritardo  7
 
 
           	</div>
				<a href="scheda?numeroTreno=12765&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 22760</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>13:57</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        10
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                 <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
           	</div>
				<a href="scheda?numeroTreno=22760&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>EXP 1933</h2>
				<div class="bloccotreno">
					Per <strong>MESSINA CENTRALE</strong><br/>
					Delle ore <strong>14:15</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        6
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                 <br>
 
 
 
 
 
                            <img src="../images/pallinoRit2.png"/>
 
 
 
 
 
                    ritardo  59
 
 
           	</div>
				<a href="scheda?numeroTreno=1933&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 8817</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>14:25</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        2
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                 <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
           	</div>
				<a href="scheda?numeroTreno=8817&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 22718</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>14:27</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        10
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                 <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
           	</div>
				<a href="scheda?numeroTreno=22718&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 8819</h2>
				<div class="bloccotreno">
					Per <strong>TERMINI IMERESE</strong><br/>
					Delle ore <strong>14:54</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        4
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                 <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
           	</div>
				<a href="scheda?numeroTreno=8819&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 22720</h2>
				<div class="bloccotreno">
					Per <strong>PUNTA RAISI</strong><br/>
					Delle ore <strong>14:57</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        9
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                 <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
           	</div>
				<a href="scheda?numeroTreno=22720&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
        <div class="bloccorisultato">
			    <h2>REG 8611</h2>
				<div class="bloccotreno">
					Per <strong>CEFALU`</strong><br/>
					Delle ore <strong>15:00</strong><br/>
 
 
                    Binario
                    Previsto:
 
 
 
 
 
                                        6
 
 
 
 
 
                <br>
                       Binario
                       Reale:
 
 
 
                                   --
 
 
 
                 <br>
 
 
 
 
                            <img src="../images/pallinoRit0.png"/>
 
 
 
 
 
 
 
                    in orario
 
           	</div>
				<a href="scheda?numeroTreno=8611&tipoRicerca=stazione&lang=IT" >» Vedi scheda</a>
			</div>
 
		<!-- FOOTER + LINK -->
		<div id="footer">
            <a href="/viaggiatreno/mobile/stazione?lang=IT">» Nuova ricerca </a><br/>
            <a href="/viaggiatreno/mobile/numero?lang=IT">» Cerca Treno per numero</a><br/>
            <a href="/viaggiatreno/mobile/tragitto?lang=IT">» Cerca per dati di viaggio</a><br/>
            <p><img src="../images/iconaRicerca.png" style="vertical-align: middle;"/><a href="/viaggiatreno/mobile/programmato?lang=IT">Orario Treni</a></p>
            <p id="copynote">Copyright Trenitalia S.p.A. 2006.<br />Tutti i diritti riservati.</p>
		    </div>
	</body>
</html>';
 
// ATTEMPT TO PARSE XML
ob_start();
$obj = SimpleXML_Load_String($xml);
var_dump($obj);
$parse_results = ob_get_clean();
 
// SINCE THE DATA CANNOT BE PARSED AND ITERATED, TRY A DIFFERENT METHOD
// STRIP UNNECESSARY WHITESPACE
$str = preg_replace('/\s\s+/', ' ', $xml);
// STANDARDIZE MALFORMED BREAK TAGS
$str = ereg_replace('<br/?>', '<br>', $str);
$c1     = '<div class="corpocentrale">';
$c2     = '<div class="bloccorisultato">';
$arr    = explode($c1, $str);
$parten = explode($c2, $arr[1]);
$arrivi = explode($c2, $arr[2]);
 
// VISUALIZE THE DATA
// var_dump($parten);
// var_dump($arrivi);
 
// EXTRACT THE TITLE FOR THIS BLOCK AND DISCARD THAT ELEMENT
$p_title  = strip_tags($parten[0]);
unset ($parten[0]);
 
// ITERATE OVER DATA REMOVING UNNECESSARY HTML
foreach ($parten as $pointer => $p)
{
   $p = strip_tags($p, '<div><br>');
   $p = ereg_replace(' ?REG ?', '', $p);
   $p = ereg_replace(' ?EXP ?', '', $p);
   $p = str_replace(' <div class="bloccotreno"> Per ', ',', $p);
   $p = str_replace('<br> Delle ore ', ',', $p);
   $x = explode('<br>', $p);
   $p = $x[0] . ',' . trim($x[3]);
   $x = strpos($p, '</div>');
   if ($x !== FALSE) $p = trim(substr($p,0,$x));
   $parten[$pointer] = $p;
}
// SHOW THE RESULTING FIELDS - CAN EXPLODE ON COMMA TO ISOLATE EACH ELEMENT OF THE ARRAY
echo "\n$p_title";
print_r($parten);
 
// EXTRACT THE TITLE FOR THIS BLOCK AND DISCARD THAT ELEMENT
$a_title  = strip_tags($arrivi[0]);
unset ($arrivi[0]);
 
// ITERATE OVER DATA REMOVING UNNECESSARY HTML
foreach ($arrivi as $pointer => $a)
{
   $a = strip_tags($a, '<div><br>');
   $a = ereg_replace(' ?REG ?', '', $a);
   $a = ereg_replace(' ?EXP ?', '', $a);
   $a = str_replace(' <div class="bloccotreno"> Per ', ',', $a);
   $a = str_replace('<br> Delle ore ', ',', $a);
   $x = explode('<br>', $a);
   $a = $x[0] . ',' . trim($x[3]);
   $x = strpos($a, '</div>');
   if ($x !== FALSE) $a = trim(substr($a,0,$x));
   $arrivi[$pointer] = $a;
}
// SHOW THE RESULTING FIELDS - CAN EXPLODE ON COMMA TO ISOLATE EACH ELEMENT OF THE ARRAY
echo "\n$a_title";
print_r($arrivi);

Open in new window

0

Featured Post

Free Tool: Port Scanner

Check which ports are open to the outside world. Helps make sure that your firewall rules are working as intended.

One of a set of tools we are providing to everyone as a way of saying thank you for being a part of the community.

  • 6
  • 5
Tackle projects and never again get stuck behind a technical roadblock.
Join Now