?
Solved

Remove Invalid Characters

Posted on 2010-09-16
4
Medium Priority
?
788 Views
Last Modified: 2013-12-26
Hi,

I have a file with with bad characters which includes foreign characters which I need to remove from a file. Below is list of characters that appear in my file. I need to remove all non-standard characers. Thanks in advance

¿¿¿ ¿¿ ¿¿¿
¿¿¿¿¿ ¿¿¿¿¿
¿¿¿¿¿ ¿¿¿¿¿ ¿¿ ¿¿¿¿¿¿
¿¿¿¿¿ ¿¿¿¿¿ ¿¿¿¿¿¿¿¿
¿¿¿¿¿ ¿¿¿¿¿¿
¿¿¿¿ ¿¿¿¿¿ ¿¿¿
¿¿¿ ¿¿¿¿¿¿¿
¿¿¿¿¿ ¿¿¿¿¿¿¿¿
¿¿¿¿¿ ¿¿¿¿¿¿¿¿ ¿¿¿¿¿¿¿¿
¿¿¿¿¿ ¿¿¿¿¿¿¿¿¿¿¿¿¿
¿¿
¿¿¿¿¿¿ ¿
¿¿¿¿¿¿ ¿ ¿
¿¿¿¿¿¿ ¿ ¿ ¿¿
¿¿¿¿¿¿ ¿ ¿¿¿¿ ¿¿¿¿¿¿¿¿¿
¿¿¿¿¿ ¿¿
¿¿¿¿¿¿ ¿¿ ¿¿¿
¿¿¿¿¿¿ ¿ ¿¿¿¿
¿¿  
¿¿    
 ¿ ¿ ¿ ¿
¿¿ ¿ ¿   ¿¿
¿¿ ¿ ¿ ¿ ¿¿¿ ¿¿¿¿ ¿¿ ¿ ¿¿ ¿¿ ¿¿
¿¿ ¿ ¿ ¿¿
¿¿ ¿ ¿ ¿¿ ¿¿¿¿¿ ¿
¿¿ ¿ ¿ ¿¿¿¿¿
¿¿ ¿ ¿ ¿¿¿¿¿¿¿ ¿¿¿¿¿¿¿¿¿¿¿¿¿¿
¿¿ ¿ ¿ ¿¿¿¿¿¿¿¿ ¿¿¿¿¿¿¿¿
¿¿ ¿ ¿  
¿¿ ¿ ¿¿ ¿
¿¿ ¿ ¿¿ ¿ ¿¿
¿¿ ¿ ¿¿ ¿ ¿¿¿
¿¿ ¿ ¿¿ ¿¿
¿¿ ¿ ¿¿ ¿¿ ¿¿
¿¿ ¿ ¿¿ ¿¿ ¿¿¿
¿¿ ¿ ¿¿ ¿¿ ¿¿¿ ¿¿
¿¿ ¿ ¿¿ ¿¿¿
¿¿ ¿ ¿¿ ¿¿¿ ¿¿¿¿ ¿¿¿¿¿¿
¿¿ ¿ ¿¿ ¿¿¿¿
¿¿ ¿ ¿¿¿
¿¿ ¿ ¿¿¿ ¿¿
¿¿ ¿ ¿¿¿ ¿¿¿¿
¿¿ ¿ ¿¿¿ ¿¿¿¿ ¿¿ ¿¿¿¿
¿¿ ¿ ¿¿¿¿
¿¿ ¿ ¿¿¿¿ ¿¿¿ ¿¿
¿¿ ¿ ¿¿¿¿¿
¿¿ ¿ ¿¿¿¿¿ ¿¿¿
¿¿ ¿ ¿¿¿¿¿¿
¿¿ ¿ ¿¿¿¿¿¿ ¿¿¿¿¿¿¿¿
¿¿ ¿ ¿¿¿¿¿¿ ¿¿¿¿¿¿¿¿¿¿ ¿¿¿ ¿¿¿¿¿¿ ¿ ¿¿¿¿¿¿ ¿ ¿¿¿¿¿¿¿
¿¿ ¿ ¿¿¿¿¿¿¿ ¿¿¿¿¿¿¿¿
¿¿ ¿ ¿¿¿¿¿¿¿¿ ¿ ¿
¿¿¿¿¿¿ ¿¿¿¿
¿¿¿¿¿¿ ¿¿¿¿ ¿¿ ¿¿
¿¿¿¿¿¿ ¿¿¿¿ ¿¿¿¿¿¿¿¿¿
¿¿¿¿¿¿ ¿¿¿¿¿
¿¿¿¿¿¿ ¿¿¿¿¿ ¿¿¿¿
¿¿¿¿¿¿ ¿¿¿¿¿ ¿¿¿¿¿ ¿¿¿¿¿¿¿
¿¿¿¿¿¿ ¿¿¿¿¿ ¿¿¿¿¿¿
¿¿¿¿¿¿ ¿¿¿¿¿ ¿¿¿¿¿
¿¿ ¿¿
¿¿¿¿¿¿ ¿¿¿¿ ¿¿
¿¿ ¿¿ ¿
¿¿ ¿    ¿
¿¿ ¿¿   ¿ ¿
¿¿ ¿¿ ¿ ¿ ¿¿ ¿ ¿¿
¿¿ ¿¿ ¿ ¿¿
¿¿ ¿¿ ¿ ¿¿ ¿
¿¿ ¿¿ ¿ ¿¿ ¿¿
¿¿ ¿¿ ¿ ¿¿ ¿¿¿ ¿¿¿
¿¿ ¿¿ ¿ ¿¿¿¿
¿¿¿¿¿¿ ¿¿¿¿¿¿ ¿¿¿¿
¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿
¿¿ ¿¿ ¿¿ ¿ ¿
¿¿ ¿¿ ¿¿ ¿ ¿¿
¿¿ ¿¿ ¿¿ ¿ ¿¿ ¿¿¿
¿¿ ¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿¿ ¿¿¿¿ ¿¿ ¿¿¿¿¿ ¿¿¿ ¿¿¿¿¿
¿¿ ¿¿ ¿¿ ¿¿ ¿¿¿¿¿
¿¿ ¿¿ ¿¿ ¿¿¿
¿¿ ¿¿ ¿¿ ¿¿¿ ¿
¿¿ ¿¿ ¿¿ ¿¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿¿¿ ¿¿ ¿¿¿ ¿¿¿¿¿¿
¿¿ ¿¿ ¿¿ ¿¿¿ ¿¿¿
¿¿ ¿¿ ¿¿ ¿¿¿ ¿¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿¿¿ ¿¿¿¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿¿¿¿
¿¿ ¿¿ ¿¿ ¿¿¿¿ ¿¿ ¿¿ ¿¿¿
¿¿ ¿¿ ¿¿ ¿¿¿¿ ¿¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿¿¿¿ ¿¿¿¿¿¿
¿¿ ¿¿ ¿¿ ¿¿¿¿¿ ¿¿
¿¿ ¿¿ ¿¿ ¿¿¿¿¿¿
¿¿ ¿¿ ¿¿ ¿¿¿¿¿¿¿¿¿¿¿¿
¿¿ ¿¿ ¿¿¿
¿¿ ¿¿ ¿¿¿ ¿
¿¿ ¿¿ ¿¿¿ ¿ ¿¿
¿¿ ¿¿ ¿¿¿ ¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿¿ ¿¿
¿¿ ¿¿ ¿¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿¿ ¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿¿ ¿¿ ¿¿¿
¿¿ ¿¿ ¿¿¿ ¿¿ ¿¿¿¿
¿¿ ¿¿ ¿¿¿ ¿¿¿
¿¿ ¿¿ ¿¿¿ ¿¿¿ ¿¿
¿¿ ¿¿ ¿¿¿ ¿¿¿ ¿¿¿¿ ¿¿¿
¿¿ ¿¿ ¿¿¿ ¿¿¿¿
¿¿ ¿¿ ¿¿¿ ¿¿¿¿¿
¿¿ ¿¿ ¿¿¿¿
¿¿ ¿¿ ¿¿¿¿ ¿¿
¿¿ ¿¿ ¿¿¿¿ ¿¿ ¿¿¿
¿¿ ¿¿ ¿¿¿¿ ¿¿¿
¿¿ ¿¿ ¿¿¿¿ ¿¿¿ ¿¿ ¿¿¿
¿¿ ¿¿ ¿¿¿¿ ¿¿¿ ¿¿¿ ¿¿¿
¿¿ ¿¿ ¿¿¿¿ ¿¿¿¿ ¿¿
¿¿ ¿¿ ¿¿¿¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿ ¿¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿ ¿¿¿ ¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿ ¿¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿¿ ¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿¿ ¿¿ ¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿¿¿ ¿¿¿ ¿¿ ¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿¿¿¿¿¿
¿¿ ¿¿ ¿¿¿¿¿ ¿¿¿¿¿¿¿¿¿¿¿
¿¿ ¿¿ ¿¿¿¿¿¿
¿¿ ¿¿ ¿¿¿¿¿¿¿
¿¿ ¿¿ ¿¿¿¿¿¿¿¿¿¿
¿¿¿¿¿¿ ¿¿¿¿¿¿¿
¿¿ ¿¿¿
¿¿ ¿¿¿ ¿
¿¿ ¿¿¿ ¿ ¿¿
0
Comment
Question by:faithless1
[X]
Welcome to Experts Exchange

Add your voice to the tech community where 5M+ people just like you are talking about what matters.

  • Help others & share knowledge
  • Earn cash & points
  • Learn & ask questions
  • 2
4 Comments
 

Author Comment

by:faithless1
ID: 33698722
File with special characters included
file.txt
0
 
LVL 6

Expert Comment

by:LeeeRussell
ID: 33699078
I suspect it would be easier to search for all allowable characters.  Do all allowable characters make up a simple set?  Such as ascii, latin-1, etc.?

What encoding have you used for the text file you supplied?
0
 
LVL 14

Expert Comment

by:Dushyant Sharma
ID: 33699327
You can process each character using the script below

for line in $(cat file.txt)
do
      lln=`expr length $line`
      for ((c=1; c<=$lln; c++))
      do
            chrr= $(echo $line | cut -c$c)
            echo "${chrr}"
      done
done

now at echo "${chrr}" you can replace it with the some character identified mechanism. I believe you can check every character if it falls in some allowable range then use it else discard the character.

something like below
if [ $chrr -gt 31 -a $chrr -lt 125 ]


0
 
LVL 14

Accepted Solution

by:
Dushyant Sharma earned 2000 total points
ID: 33699591
i believe this should work. you can refine the character range.

for line in $(cat file.txt)
do
      lln=`expr length $line`
      for ((i=1; i<=$lln; i++))
      do
            chrr=`echo  $line | cut -c $i`
            testt=`printf "%d" "'$chrr"`
            if [ $testt -gt 31 -a $testt -lt 125 ]
            then
                  echo "accepted character"
            fi
      done
done

0

Featured Post

Free Tool: Subnet Calculator

The subnet calculator helps you design networks by taking an IP address and network mask and returning information such as network, broadcast address, and host range.

One of a set of tools we're offering as a way of saying thank you for being a part of the community.

Question has a verified solution.

If you are experiencing a similar issue, please ask a related question

Over the years I've spent many an hour playing on hardened, DMZ'd servers, with only a sub-set of the usual GNU toy's to keep me company; frequently I've needed to save and send log or data extracts from these server back to my PC, or to others, and…
Recently, an awarded photographer, Selina De Maeyer (http://www.selinademaeyer.com/), completed a photo shoot of a beautiful event (http://www.sintjacobantwerpen.be/verslag-en-fotoreportage-van-de-sacramentsprocessie-door-antwerpen#thumbnails) in An…
Learn several ways to interact with files and get file information from the bash shell. ls lists the contents of a directory: Using the -a flag displays hidden files: Using the -l flag formats the output in a long list: The file command gives us mor…
In a recent question (https://www.experts-exchange.com/questions/29004105/Run-AutoHotkey-script-directly-from-Notepad.html) here at Experts Exchange, a member asked how to run an AutoHotkey script (.AHK) directly from Notepad++ (aka NPP). This video…

719 members asked questions and received personalized solutions in the past 7 days.

Join the community of 500,000 technology professionals and ask your questions.

Join & Ask a Question