# Python intermedi√°rio - III

## Entrada e sa√≠da de dados 

O fluxo de informa√ß√µes que ocorre entre o disco r√≠gido de nosso computador e o que vemos impresso na tela, ou entre um ponto de comunica√ß√£o remoto e o nosso computador local √© geralmente realizado por meio de _objetos-tipo arquivo_ (_file objects_). A esses objetos d√°-se tamb√©m o nome de _input/output stream_, de onde segue o termo _I/O stream_. 

### Tipos de arquivo

Para entendimento pr√°tico, _streams_ s√£o os tradicionais "arquivos" que transitam em nossas m√°quinas. Os dois tipos principais de arquivo s√£o: 

- _Texto formatado_ (_Text file_). Arquivos de texto recebem e produzem objetos _str_. Isto significa que um processo de codifica√ß√£o/decodifica√ß√£o dos dados ocorre durante o fluxo. 
- _Bin√°rio_ (_Binary file_). Arquivos bin√°rios lidam com a objetos na forma de _bytes_. Isto significa que nenhum processo de codifica√ß√£o/decodifica√ß√£o dos dados ocorre durante o fluxo e que o texto √© _n√£o formatado_.

## Opera√ß√µes com arquivos

Podemos realizar diversas opera√ß√µes com arquivos, tais como _modo de apenas leitura_ (_read-only_), _modo de escrita_ (_write_) e modo de escrita e leitura (_read-write_). Neste cap√≠tulo, aprenderemos a manipular o fluxo de entrada e sa√≠da de diversos tipos de arquivo. A forma mais f√°cil de criar uma _stream_ √© usando a fun√ß√£o predefinida `open`.

**Exemplo:** ler arquivo de texto.

In [1]:
f = open('../etc/icd.yml')
f

<_io.TextIOWrapper name='../etc/icd.yml' mode='r' encoding='UTF-8'>

Coment√°rios:
- Por padr√£o, `open` abre um arquivo em modo de leitura.
- O arquivo √© especificado pelo seu caminho no disco.
- `f` √© um objeto abstrato que mostra o esquema de codifica√ß√£o usado para decodificar arquivo. Quando n√£o especificado, o `encoding` padr√£o do sistema √© utilizado.
- Percebe-se que o encoding padr√£o do sistema √© `UTF-8`.

**Exemplo:** ler arquivo de texto com especifica√ß√£o de modo.

In [2]:
# o arquivo aqui √© uma imagem PNG
o = open('../database/eyes/SyntEyeKTC-106_a-net.png',mode='r')
o

<_io.TextIOWrapper name='../database/eyes/SyntEyeKTC-106_a-net.png' mode='r' encoding='UTF-8'>

Coment√°rios:

- O segundo argumento de `open` √© `mode`, no qual especificamos o modo com que o arquivo ser√° tratado.
- Para modo de leitura, usamos `'r'`; para modo de escrita, usamos `'w'`; para modo de apensamento, usamos `'a'` e, para modo bin√°rio, usamos `'b'`. A seguir, veremos mais exemplos.
- √â importante notar que tanto `f` quanto `o` est√£o "abertos" e devem ser fechadas imediatamente ap√≥s o uso para evitar consumo desnecess√°rio de mem√≥ria e outros problemas.

In [3]:
# as streams 'f' e 'o' est√£o abertas 
f.closed,o.closed

(False, False)

In [4]:
# fechando streams
f.close(), o.close()

# verifica novamente que foram fechadas
f.closed,o.closed

(True, True)

**Exemplo:** Ler arquivo e armazenar conte√∫do.

In [5]:
with open('../etc/icd.yml') as f:
    content = f.read()

# imprime conte√∫do do arquivo
print(content)

# Arquivo YAML para construir o ambiente 'icd'

name: icd # nome do ambiente
channels: # lista de canais a utilizar
  - defaults # canais padr√£o
  - conda-forge
dependencies: # pacotes dependentes
  - numpy
  - scipy
  - sympy
  - matplotlib
  - pandas
  - seaborn  


In [6]:
# n√£o √© necess√°rio fechar!
f.closed

True

Coment√°rios:

- A _keyword_ `with` possibilita que o fluxo de arquivos seja facilitado.
- Com a _keyword_ `with` o arquivo √© automaticamente fechado.
- √â poss√≠vel gerir a abertura de mais de um arquivo com apenas uma chamada de `with` usando a seguinte instru√ß√£o 

```python
with open() as a, open() as b:
```

```{note}
Para saber mais acerca de `with`, consulte o [PEP 343](https://www.python.org/dev/peps/pep-0343/#motivation-and-summary).
```

In [7]:
with open('../etc/icd.yml','r') as f, open('../database/bras-cubas.txt') as g:
    content_f = f.read()
    content_g = g.read()

# opera sobre conte√∫dos
len(content_f),type(content_g)    

(266, str)

#### Modos de opera√ß√£o de arquivos 

Antes de prosseguirmos, vamos resumir os principais modos com os quais um arquivo √© operado em Python. 

|Caracter|Significado|
|---|---|
|`'r'`| abre para leitura (padr√£o)|
|`'w'`| abre para escrita, truncando o arquivo|
|`'x'`| cria um novo arquivo e o abre para escrita|
|`'a'`| abre para escrita apensando conte√∫do no fim do arquivo|
|`'b'`| abre em modo bin√°rio|
|`'t'`| abre em modo texto (padr√£o)|

Para uma discuss√£o mais ampla sobre todas as possibilidades, consulte este [post](https://tutorial.eyehunts.com/python/python-file-modes-open-write-append-r-r-w-w-x-etc/) e [este](https://riptutorial.com/python/example/978/file-modes).


**Exemplo:** Ler arquivo linha por linha.

In [8]:
with open('../database/bras-cubas.txt','rt',encoding='utf-8') as f:
    for linha in f:
        print(linha.lower())

n√£o durou muito a evoca√ß√£o; a realidade dominou logo; o presente expeliu o passado. talvez eu exponha ao leitor, em algum canto deste livro, a minha teoria das edi√ß√µes humanas. o que por agora importa saber √© que virg√≠lia ‚Äî chamava-se virg√≠lia ‚Äî entrou na alcova, firme, com a gravidade que lhe davam as roupas e os anos, e veio at√© o meu leito. o estranho levantou-se e saiu. era um sujeito, que me visitava todos os dias para falar do c√¢mbio, da coloniza√ß√£o e da necessidade de desenvolver a via√ß√£o f√©rrea; nada mais interessante para um moribundo. saiu; virg√≠lia deixou-se estar de p√©; durante algum tempo ficamos a olhar um para o outro, sem articular palavra. quem diria? de dois grandes namorados, de duas paix√µes sem freio, nada mais havia ali, vinte anos depois; havia apenas dois cora√ß√µes murchos, devastados pela vida e saciados dela, n√£o sei se em igual dose, mas enfim saciados. virg√≠lia tinha agora a beleza da velhice, um ar austero e maternal; estava menos ma

Discuss√£o:
- Note que especificar o modo `'rt'` √© totalmente decorativo, j√° que s√£o as op√ß√µes padr√£o.
- O par√¢metro `encoding` indica a codifica√ß√£o na qual o texto deve ser lido. `UTF-8` √© o padr√£o. Entretanto, veremos adiante outros sistemas de _encoding_ de caracteres.

### Escrita de arquivos de texto

Escrever conte√∫do para arquivos √© uma das tarefas mais frequentes do processamento de dados. Para escrever conte√∫do em um arquivo, devemos assumir ou que ele √© inexistente e precisa ser criado, ou que ele existe e queremos adicionar informa√ß√µes nele.

**Exemplo:** escrever um simulacro de "jogo da velha" com caracteres em um arquivo `.txt`.

In [9]:
def velha(n):
    '''Simula um jogo da velha fict√≠cio.'''
    
    from random import sample
    
    c = ['o','x']            
    l = f'  -   -   -  \n'
    ll = l
    
    for _ in range(3):
        l += f'| {sample(c,1)[0]} | {sample(c,1)[0]} | {sample(c,1)[0]} |\n'
    l += ll # sobrecarga de +
    
    l = f'Game: #{n}\n' + l + '\n' 
    
    return l


# cria log de n partidas
def n_games_log(n):
    
    with open('../etc/velha-log.txt','w') as v:
        for i in range(1,n+1):
            v.write(velha(i)) # escreve em arquivo
            
# executa fun√ß√£o para 4 partidas            
n_games_log(4)            

Para visualizarmos o conte√∫do do arquivo podemos usar a fun√ß√£o `cat` via terminal ou abrir uma nova _stream_ de leitura (exerc√≠cio): 

In [10]:
!cat '../etc/velha-log.txt'

Game: #1
  -   -   -  
| x | o | o |
| x | x | o |
| o | o | o |
  -   -   -  

Game: #2
  -   -   -  
| x | x | o |
| x | o | x |
| o | o | x |
  -   -   -  

Game: #3
  -   -   -  
| o | o | x |
| x | x | x |
| o | o | x |
  -   -   -  

Game: #4
  -   -   -  
| o | o | x |
| o | x | o |
| x | o | o |
  -   -   -  



**Exemplo:** escrever arquivo e apensar dados.

In [11]:
# escreve
with open('../etc/lista.txt','w') as f:
    f.write( str(list(range(5))).strip('[]')) # escreve str e purga '[' e ']'

!cat ../etc/lista.txt

0, 1, 2, 3, 4

In [12]:
# abre para apensar
with open('../etc/lista.txt','a') as f:
    f.write(', ') # o que temos sem isto?
    f.write(str(list(range(5,11))).strip('[]'))

!cat ../etc/lista.txt    

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10

Coment√°rios:

- No modo de apensamento, o arquivo original n√£o √© sobrescrito, mas alterado em seu final.
- No exemplo anterior, inclu√≠mos a complementaridade da sequ√™ncia de inteiros de 5 a 10 que n√£o estava no arquivo anterior.

**Exemplo:** apensar em arquivo redirecionando a sa√≠da de `print`.

In [13]:
with open('../etc/lista.txt','a') as f:
    print('!!!',file=f) # mesmo objeto f

!cat ../etc/lista.txt 

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10!!!


Coment√°rio:
- Neste exemplo, a string `'!!!'`, que seria impressa na tela por `print`, √© apensada no arquivo `lista.txt` via _redirecionamento_. 

```{hint}
Em ambiente UNIX, o redirecionamento pode ser feito via Terminal com o operador `>` e o apensamento, com `>>`. Por exemplo, o comando `cat > lista.txt` cria um arquivo vazio e redireciona as linhas digit√°veis em tela para o arquivo. O comando `cat >> lista.txt`, por outro lado, permite que mais linhas digit√°veis  em tela sejam adicionadas ao arquivo. Veja um exemplo [aqui](https://www.gotothings.com/unix/unix-redirection-and-pipes.htm).
```

**Exemplo:** escrever para arquivo com redirecionamento, _star expression_ e sem `with`.

In [14]:
dado = ('graus C',16,22.5) # tupla com diferentes dados

f = open('../etc/lista-2.txt','w')
print(*dado,sep=',',file=f) 
f.close() # sem 'with', √© necess√°rio fechar a stream 

!cat ../etc/lista-2.txt

graus C,16,22.5


Discuss√£o:
- Neste exemplo, `*dado` desempacota a tupla ‚Äì que tem tipos de dado diferentes ‚Äì, separa os elementos por `,`, imprime na tela e redireciona para o arquivo de texto `lista-2.txt`.
- Observe que o arquivo √© aberto em modo de escrita.

### Escrita de arquivos bin√°rios

**Exemplo:** pr√©-visualizar um arquivo PDF no _Jupyter Notebook_.

In [15]:
from IPython.display import IFrame
IFrame('../etc/logo-icd.pdf',width=500,height=500)

Coment√°rios:
- Arquivos PDF, assim como √°udios, imagens e execut√°veis, possuem conte√∫do em formato bin√°rio. O que visualizamos acima √© compreens√≠vel por humanos. 
- O exemplo a seguir mostra o real conte√∫do do arquivo PDF em termos de _bytes_.


```{warning}
Tente reproduzir este exemplo com o Jupyter Notebook executando localmente em sua m√°quina. Em alguns navegadores, o livro _online_ pode n√£o reproduzir esta pr√©-visualiza√ß√£o.
```

**Exemplo:** ler arquivo bin√°rio e imprimir seu conte√∫do.

In [16]:
# modo 'rb'
with open('../etc/logo-icd.pdf','rb') as f:
    pdf = f.read()

# 200 primeiros caracteres
pdf[:200]

b'%PDF-1.3\n%\xc4\xe5\xf2\xe5\xeb\xa7\xf3\xa0\xd0\xc4\xc6\n3 0 obj\n<< /Filter /FlateDecode /Length 87 >>\nstream\nx\x01+T\x08T(T0\x00BSKS\x05\x0b\x13#\x85\xa2T\x85p\x85<\x05\xfd\x80\xd4\xa2\xe4\xd4\x82\x92\xd2\xc4\x1c\x85\xa2L\xa0\x1acCc=S\xb0Jc\x03K=sS\x05C\x13\x03\x10edf\xa6ghd\xca\x95\x9c\xab\xa0\xef\x99k\xa8\xe0\x92\x0f42\x10\x00\xc7\xbe\x15)\nendstream\nendobj\n1 0 obj\n<< /Type /Pa'

In [17]:
# verifica tipo da vari√°vel
type(pdf)

bytes

Coment√°rios:
- A vari√°vel `pdf` guarda dados em formato **bin√°rio**.
- O prefixo `'b'` sugere que o tipo de dado √© bin√°rio e est√° "codificado" em linguagem de _bytes_.
- Perceba que n√≥s, humanos, enxergamos caracteres, mas **o computador enxerga apenas _bytes_**.

**Exemplo:** escrever arquivo bin√°rio.

In [18]:
# modo 'wb'
with open('../etc/logo-icd-part.pdf','wb') as f:
    f.write(pdf[:200])    

In [19]:
from IPython.display import IFrame
IFrame('../etc/logo-icd-part.pdf',width=500,height=500)

Discuss√£o:
- O conte√∫do parcial tomado da string de _bytes_ `'pdf'` √© escrito em um segundo arquivo.
- Ao ler o conte√∫do e tentar visualiz√°-lo, um erro ser√° lan√ßado. Isto √© naturalmente esperado, visto que a sequ√™ncia de bytes foi, propositalmente, danificada.

```{warning}
Tente reproduzir este exemplo com o Jupyter Notebook executando localmente em sua m√°quina. Em alguns navegadores, o livro _online_ pode n√£o reproduzir esta pr√©-visualiza√ß√£o.
```

### Como evitar sobrescri√ß√£o acidental 

Quando temos um arquivo existente no disco e operamos com escrita de arquivos com nomes similares, √© altamente prov√°vel que sobrescrevamos o conte√∫do daquele arquivo acidentalmente. Para evitar este problema, podemos usar o modo `'x'`, que garante a "exclusividade" do arquivo existente.

**Exemplo:** escrever arquivo em modo de "exclusividade".

In [20]:
with open('../etc/lista.txt','x') as f:
    print('???',file=f) # mesmo objeto f

FileExistsError: [Errno 17] File exists: '../etc/lista.txt'

Discuss√£o:
- Tentamos escrever outro conte√∫do para o arquivo `lista.txt`, o que geraria uma sobrescri√ß√£o de seu conte√∫do original. 
- Utilizando o modo `'x'`, o interpretador se encarrega de verificar se o arquivo existe e s√≥ permite que a opera√ß√£o seja conclu√≠da em caso negativo.
- Como o arquivo existe no disco, um erro de `FileExistsError` √© lan√ßado.
- O pr√≥ximo exemplo √© bem-sucedido, visto que `lista-3.txt` n√£o existe ainda no disco.

In [21]:
with open('../etc/lista-3.txt','x') as f:
    print('OK!',file=f) # mesmo objeto f
    
!cat ../etc/lista-3.txt    

OK!


In [22]:
# remove o arquivo para reproduzir teste
!rm ../etc/lista-3.txt

In [23]:
# verifica remo√ß√£o
!cat ../etc/lista-3.txt   

cat: ../etc/lista-3.txt: No such file or directory


#### Testando a exist√™ncia de arquivos

Uma forma de verificar a exist√™ncia de arquivos no disco √© valer-se do m√≥dulo `os` ‚Äì discutiremos um pouco sobre este m√≥dulo √† frente ‚Äì. O exemplo a seguir praticamente alcan√ßa o mesmo objetivo que o modo `'x'` ao checar a pr√©-exist√™ncia de arquivos.

In [24]:
from os.path import exists

if exists('../etc/lista-3.txt'):
    print('O arquivo existe... P√© no freio... :( ')
else:
    print('O arquivo n√£o existe! P√© na t√°bua! 8) ')

O arquivo n√£o existe! P√© na t√°bua! 8) 


```{note}
O m√≥dulo [`os`](https://docs.python.org/3/library/os.html?highlight=os%20module#module-os) fornece meios poderosos para navegar pelo sistema operacional e √© bastante √∫til na leitura e escrita de arquivos.
```

### Leitura e escrita de arquivos comprimidos

A [compress√£o de dados](https://en.wikipedia.org/wiki/Data_compression) baseia-se em reduzir a quantidade de _bits_ utilizadas para armazenar os dados, mas assegurar a sua integridade genu√≠na. 

Em Python, temos √† disposi√ß√£o, por exemplo, os m√≥dulos [`bz2`](https://docs.python.org/3/library/bz2.html) e [`gzip`](https://docs.python.org/3/library/gzip.html) para operar com arquivos comprimidos. Ambos s√£o baseados na biblioteca [zlib](https://www.zlib.net). A seguir, veremos exemplos de como podemos manipular arquivos comprimidos.

**Exemplo:** escrever arquivos comprimidos.

In [1]:
# sem compress√£o
with open('../etc/texto.txt','w') as f:
    f.write('[]'*500000)

# compress√£o com bz2
import bz2
with bz2.open('../etc/texto.bz2','w') as f:
    f.write(b'[]'*500000) # deve ser string de bytes
    
# compress√£o com gzip
import gzip
with gzip.open('../etc/texto.gz','w') as f:
    f.write(b'[]'*500000) # deve ser string de bytes      

In [2]:
! ls -l ../etc/texto.*

-rw-r--r--@ 1 gustavo  staff       73 Sep  2 12:36 ../etc/texto.bz2
-rw-r--r--@ 1 gustavo  staff     1011 Sep  2 12:36 ../etc/texto.gz
-rw-r--r--@ 1 gustavo  staff  1000000 Sep  2 12:36 ../etc/texto.txt


Coment√°rios:
- Note a diferen√ßa no tamanho dos arquivos. A taxa de compress√£o √© gigantesca! Os arquivos comprimidos por `bz2` e `gzip` possuem 73 e 1011 _bytes_ de tamanho, nesta ordem, ao passo que o n√£o comprimido possui 1.000.000 de _bytes_ (1 MB) de tamanho.
- Para realizarmos a leitura dos arquivos, basta alterar o modo de `'w'` para `'r'`.

## O m√≥dulo `os`

Ao trabalharmos com leitura e escrita de arquivos, √© importante saber navegar pelo sistema operacional, ou listando diret√≥rios, seja criando arquivos em lote, seja buscando por extens√µes espec√≠ficas. Com o m√≥dulo [`os`](https://docs.python.org/3/library/os.html?highlight=os%20module#module-os), podemos realizar uma s√©rie de opera√ß√µes para manipular caminhos de arquivos. Abaixo, discutimos algumas  fun√ß√µes desse m√≥dulo.

**Exemplo:** manipular caminhos para coletar informa√ß√µes de diret√≥rios.

In [27]:
import os

arq = '../database/bras-cubas.txt'

In [28]:
# √∫ltima parte do caminho
os.path.basename(arq)

'bras-cubas.txt'

In [29]:
# diret√≥rio
os.path.dirname(arq)

'../database'

In [30]:
# cria caminho unindo partes
os.path.join('pasta','subpasta',os.path.basename(arq))

'pasta/subpasta/bras-cubas.txt'

In [31]:
# separa basename e extens√£o
os.path.splitext(arq)

('../database/bras-cubas', '.txt')

In [32]:
# separa pasta e nome
os.path.split(arq)

('../database', 'bras-cubas.txt')

**Exemplo:** realizar testes para verificar tipos de arquivo.

In [33]:
# testa se √© arquivo
os.path.isfile('../etc/velha-log.txt')

True

In [34]:
# testa se √© diret√≥rio
os.path.isdir('../etc/icd.yml')

False

Coment√°rios:
- Com o subm√≥dulo `os.path`, podemos acessar praticamente toda a hierarquia de arquivos e diret√≥rios no sistema operacional.

#### Coletando metadados de arquivos

Metadados dos arquivos, tais como tamanho e data de modifica√ß√£o, podem ser obtidos por meio do m√≥dulo `os` tamb√©m.

**Exemplo:** obtendo tamanho do arquivo.

In [35]:
# no. de bytes
os.path.getsize('../etc/logo-icd.pdf') 

23496

In [36]:
import time
time.ctime(os.path.getmtime('../etc/logo-icd.pdf'))

'Fri Aug 27 23:26:13 2021'

Discuss√£o:
- A fun√ß√£o `getmtime` retorna a informa√ß√£o temporal da √∫ltima modifica√ß√£o do arquivo especificado. 
- O m√≥dulo `time` fornece fun√ß√µes para manipular quantidades em unidade de tempo.
- A fun√ß√£o `ctime` converte uma medida de tempo em segundos para uma _string_ de data/hora de acordo com as configura√ß√µes locais da m√°quina. 

**Exemplo:** listar diret√≥rios.

In [37]:
os.listdir('../etc/')

['velha-log.txt',
 'texto.bz2',
 'texto.txt',
 'icd.yml',
 'texto.gz',
 'logo-icd-part.pdf',
 '.ipynb_checkpoints',
 'lista-2.txt',
 'lista.txt',
 'logo-icd.pdf']

**Exemplo:** buscar por todos os arquivos comuns em um diret√≥rio.

In [38]:
pasta = '../etc/'
arqs = [a for a in os.listdir(pasta)
       if os.path.isfile(os.path.join(pasta,a))]
arqs

['velha-log.txt',
 'texto.bz2',
 'texto.txt',
 'icd.yml',
 'texto.gz',
 'logo-icd-part.pdf',
 'lista-2.txt',
 'lista.txt',
 'logo-icd.pdf']

**Exemplo:** buscar por todos os diret√≥rios.

In [39]:
pasta = '../'
dirs = [a for a in os.listdir(pasta)
       if os.path.isdir(os.path.join(pasta,a))]
dirs

['database',
 'papers',
 'figs',
 'etc',
 'ipynb',
 'todo',
 '_build',
 '.ipynb_checkpoints',
 '.git',
 'rise']

**Exemplo:** buscar por todos os arquivos de uma dada extens√£o.

In [40]:
# lista apenas .txt
txts = [a for a in os.listdir('../etc/')
       if a.endswith('.txt')]
txts

['velha-log.txt', 'texto.txt', 'lista-2.txt', 'lista.txt']

## Codifica√ß√£o e decodifica√ß√£o de caracteres

Os caracteres que vemos impressos na tela de um dispositivo digital s√£o apenas s√≠mbolos renderizados, isto √© "marcas". Como sabemos, um computador entende apenas uma linguagem bin√°ria. Isto significa que antes de um caracter ser mostrado exatamente como esperamos, digamos, em uma "tela", √© necess√°rio que ele seja processado, grosso modo, por duas "camadas abstratas". Uma √© a camada de armazenamento, que associa um n√∫mero bin√°rio ao caracter; a outra, √© a camada textual, que usa _pontos de c√≥digo_.

Existem v√°rios sistemas de codifica√ß√£o de caracteres. Alguns bem conhecidos s√£o ASCII, ISO-8859, CP-1252 e UTF-8. Entretanto, atualmente, o sistema UTF-8 se destaca pelo uso largamente difundido. No passado, devido √† diferen√ßa de sistemas de codifica√ß√£o, o n√∫mero que representava um caracter em um sistema n√£o era o mesmo em outro sistema. Por isso, o padr√£o [[Unicode]](https://home.unicode.org) prop√¥s a defini√ß√£o de um √∫nico n√∫mero para cada caracter, permanente, e que valesse independentemente de plataforma, programa ou linguagem. Assim, hoje em dia, a melhor defini√ß√£o de caracter que existe √© a de um _caracter Unicode_.

A identidade de um caracter Unicode √© o seu _ponto de c√≥digo_ (_code point_), um n√∫mero de 0 a 1.114.111 (em base 10) mostrado no padr√£o Unicode. O padr√£o Unicode √© formado por 4 a 6 d√≠gitos hexadecimais seguidos do prefixo "U+". A tabela abaixo mostra alguns exemplos de caracteres, seu ponto de c√≥digo e nome no padr√£o Unicode.

|Caracter|Ponto de c√≥digo|Nome Unicode|
|---|---|---|
|√¢|U+00E2|LATIN SMALL LETTER A WITH CIRCUMFLEX|
|›î|U+0754|ARABIC LETTER BEH WITH TWO DOTS BELOW AND DOT ABOVE|
|üòõ|U+1F61B|FACE WITH STUCK-OUT TONGUE|
|„Åé|U+304E|HIRAGANA LETTER GI|

Para imprimir em tela caracteres Unicode como os da tabela acima, temos duas maneiras:

- usando uma _string Unicode_ hexadecimal de 32-bits, em cujo caso escrevemos uma string iniciada por `\U` acompanhada de 8 caracteres. Os √∫ltimos caracteres correspondem ao ponto de c√≥digo e as posi√ß√µes anteriores s√£o preenchidas com 0. Neste caso, os caracteres acima poderiam ser impressos com:

```python
'\U000000E2','\U00000754','\U0001f61b','\U0000304e'
```

- usando o nome Unicode do caracter, em cujo caso escrevemos uma string iniciada por `\N` acompanhada do nome exato do caracter confinado entre chaves. Neste caso, os caracteres acima poderiam ser impressos com:

```python
'\N{LATIN SMALL LETTER A WITH CIRCUMFLEX}',
'\N{ARABIC LETTER BEH WITH TWO DOTS BELOW AND DOT ABOVE}',
'\N{FACE WITH STUCK-OUT TONGUE}',
'\N{HIRAGANA LETTER GI}'
```

Todos os caracteres Unicode s√£o encontrados em tabelas separadas por classes (_planes_), as chamadas [[_Code Charts_]](https://www.unicode.org/charts/).

### _bytes_ x texto

A convers√£o de pontos de c√≥digo em _bytes_ √© chamada de _codifica√ß√£o_, ou _encoding_, ao passo que  a convers√£o de _bytes_ em pontos de c√≥digo √© chamada de _decodifica√ß√£o_, ou _decoding_.

**Exemplo:** codifica√ß√£o e decodifica√ß√£o.

In [41]:
s = 'bal√©'
len(s)

4

In [42]:
b = s.encode('utf8')
b

b'bal\xc3\xa9'

In [43]:
# caracter '√©' representado por dois bytes
# \xc3 e \xa9
len(b)

5

In [44]:
b.decode('utf8')

'bal√©'

Discuss√£o:

- `encode` leva o texto para _bytes_.
- `b'` indica uma string literal de _bytes_.
- `bal` est√° no intervalo ASCII imprim√≠vel, enquanto que `\xc3` e `\xa9` n√£o est√£o.
- `decode` leva de _bytes_ para texto.

Coment√°rios:

- O pr√≥prio caracter ASCII √© usado para _bytes_ no intevalo imprim√≠vel.
- Para _bytes_ correspondendo ao TAB, _newline_, _carriage return_ e contrabarra, as sequ√™ncias de escape `\t`, `\n`, `\r` e `\\` s√£o usadas.
- Para qualquer outro _byte_, usa-se uma sequ√™ncia de escape hexadecimal.

**Exemplo**: decodifica√ß√£o para outros sistemas.

In [45]:
# erro! 
# '√©' n√£o √© ASCII
s.encode().decode('ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 3: ordinal not in range(128)

In [46]:
s.encode().decode('iso8859')

'bal√É¬©'

In [47]:
s.encode().decode('cp1252')

'bal√É¬©'

## Refer√™ncias complementares

- [M√≥dulo `os`](https://docs.python.org/3/library/os.html?highlight=os%20module#module-os)
- [Unicode HOWTO](https://docs.python.org/3/howto/unicode.html)
- [Nam & Fischer, Character Encoding & Unicode - How to (‚ïØ¬∞‚ñ°¬∞Ôºâ‚ïØÔ∏µ ‚îª‚îÅ‚îª with dignity](https://www.slideshare.net/fischertrav/character-encoding-unicode-how-to-with-dignity-33352863)