Hoang Tran

Hoang Tran

1661354280

10 Công Cụ Kỹ Thuật Dữ Liệu Hiện Đại Hàng Đầu

Tìm hiểu về các công cụ hiện đại để điều phối dữ liệu, lưu trữ dữ liệu, kỹ thuật phân tích, xử lý hàng loạt và truyền dữ liệu.

dbt

dbt

dbt cho phép các kỹ sư dữ liệu mô hình hóa và chuyển đổi dữ liệu trong kho bằng SQL. Nó chịu trách nhiệm về phần chuyển đổi của ETL .  

Bạn có thể phát triển các mô hình bằng cách sử dụng các lệnh SQL select, kiểm tra và lập tài liệu và triển khai bằng cách sử dụng môi trường dev an toàn. dbt thúc đẩy kiểm soát phiên bản hỗ trợ Git và cộng tác nhóm.

Airflow

Luồng không khí

Apache Airflow là một nền tảng cho phép các kỹ sư dữ liệu tạo, lên lịch và theo dõi quy trình làm việc. Quy trình công việc có thể là các đường ống dẫn dữ liệu phức tạp bao gồm các nhiệm vụ Đồ thị vòng được hướng dẫn (DAG). Luồng không khí sẽ đảm bảo mỗi công việc được thực hiện theo đúng thứ tự tại một thời điểm cụ thể và nhận được các tài nguyên cần thiết. Bạn cũng có thể theo dõi và khắc phục sự cố bằng giao diện người dùng đồ họa (GUI).

Snowflake

Bông tuyết

Snowflake là kho dữ liệu đám mây sẵn sàng cho doanh nghiệp. Nó cho phép các kỹ sư dữ liệu lưu trữ dữ liệu và thực hiện các tác vụ phân tích như ETL. Nó tự động tăng và giảm kích thước tài nguyên để tối ưu hóa chi phí mà không làm giảm hiệu suất. 

Snowflake bao gồm cơ sở hạ tầng được quản lý, khả năng mở rộng, phân cụm tự động và tích hợp với các ngôn ngữ lập trình nổi tiếng như Javascript, Python và R. Nó đi kèm với kiến ​​trúc ba lớp: lưu trữ cơ sở dữ liệu, xử lý truy vấn và các dịch vụ đám mây.

BigQuery

BigQuery

BigQuery là kho dữ liệu đám mây không máy chủ được thiết kế cho các tập dữ liệu lớn. Việc xây dựng các hồ dữ liệu trong BigQuery đã trở nên đơn giản, nhanh chóng và tiết kiệm chi phí. Việc tích hợp với Data studio cho phép các kỹ sư dữ liệu trực quan hóa các bảng dữ liệu đã xử lý một cách đơn giản và nhanh chóng. Nó đi kèm với BigQuery ML , phân tích không gian địa lý , công cụ BigQuery BIGoogle Trang tính được kết nối .

BigQuey cho phép bạn chạy các truy vấn phân tích SQL quy mô petabyte để có được thông tin chi tiết quan trọng về doanh nghiệp.

Metabase

Siêu dữ liệu

Metabase là một công cụ BI (Business Intelligence) mã nguồn mở cho phép nhóm của bạn đặt câu hỏi và học hỏi từ dữ liệu. Bạn có thể chạy các truy vấn SQL phức tạp, xây dựng trang tổng quan tương tác, tạo mô hình dữ liệu và thiết lập cảnh báo và đăng ký trang tổng quan. Nó cũng cho phép bạn phân tích dữ liệu trong kho dữ liệu. Metabase khá phổ biến trong giới phát triển với 29k sao trên GitHub.

Google Cloud Storage (GCS)

Google Cloud Storage (GCS)

Google Cloud Storage là bộ lưu trữ đối tượng an toàn và có thể mở rộng cho phép bạn lưu hình ảnh, tài liệu, bảng tính, âm thanh, video hoặc thậm chí cả trang web. Bạn có thể tận hưởng không gian lưu trữ không giới hạn và giá cả tùy thuộc vào mức sử dụng của bạn. Nó khá có lợi cho các công ty khởi nghiệp và doanh nghiệp vừa và nhỏ. Đối tượng là một tệp không thay đổi được lưu trữ trong một vùng chứa được gọi là thùng. Các nhóm được liên kết với các dự án và bạn có thể nhóm các dự án vào tổ chức.  

PostgreSQL

PostgreSQL

PostgreSQL là một cơ sở dữ liệu mã nguồn mở vừa đáng tin cậy vừa linh hoạt. Nó hỗ trợ cả cơ sở dữ liệu quan hệ và không quan hệ. PostgreSQL là cơ sở dữ liệu quan hệ hoàn thiện, ổn định và tuân thủ nhất. Nó đi kèm với tối ưu hóa hiệu suất và khả năng mở rộng, đồng thời, hỗ trợ nhiều ngôn ngữ lập trình, quản lý thảm họa và khôi phục.

Terraform

Terraform

Terraform của HashiCorp là một công cụ IaC (Cơ sở hạ tầng dưới dạng mã) nguồn mở cho phép bạn xác định tài nguyên đám mây và tài nguyên tại chỗ bằng cách sử dụng tệp cấu hình. Các tệp này có thể được tạo phiên bản, sử dụng lại và chia sẻ. Nó cho phép các kỹ sư dữ liệu mã hóa cơ sở hạ tầng và thực hiện các phương pháp DevOps tốt nhất như kiểm soát phiên bản, tích hợp liên tục và phát triển liên tục. 

Các kỹ sư dữ liệu có thể xác định tài nguyên trên nhiều nền tảng đám mây, tạo và giám sát các kế hoạch thực thi và cuối cùng, thực hiện các hoạt động theo đúng thứ tự.

Kafka

Kafka

Apache Kafka là một nền tảng phát trực tuyến sự kiện mã nguồn mở cho phép các kỹ sư dữ liệu tạo đường ống dữ liệu hiệu suất cao, phân tích phát trực tuyến và tích hợp dữ liệu. Hơn 80% tài sản 100 công ty sử dụng nó để xây dựng các ứng dụng và đường ống dẫn dữ liệu trực tuyến theo thời gian thực. Kafka cho phép các ứng dụng xuất bản và sử dụng một lượng lớn các luồng bản ghi một cách hiệu quả và lâu dài. Nó có thông lượng cao, độ trễ thấp và khả năng chịu lỗi.

Spark

Tia lửa

Apache Spark ™ là một công cụ xử lý dữ liệu đa ngôn ngữ mã nguồn mở dành cho các tập dữ liệu lớn. Nó cho phép bạn chạy các quy trình kỹ thuật dữ liệu, khoa học dữ liệu và học máy trên một nút hoặc cụm duy nhất. 

Các tính năng chính của Sparks:

  • Dữ liệu hàng loạt / phát trực tuyến bằng các ngôn ngữ lập trình ưa thích (Scala, Java, Python và R)
  • Phân tích SQL nhanh
  • Phân tích dữ liệu khám phá trên dữ liệu quy mô petabyte
  • Phát triển và triển khai các giải pháp học máy có thể mở rộng

Sự kết luận

Kỹ thuật dữ liệu là nghề phát triển nhanh nhất và được trả lương cao. Các công ty công nghệ hàng đầu ở Hoa Kỳ trả 177 nghìn USD + mỗi năm cho các kỹ sư dữ liệu đủ điều kiện - thực sự.com . Để phát triển trong lĩnh vực kỹ thuật dữ liệu, bạn phải học và làm chủ các công cụ theo yêu cầu. 

Tôi vẫn đang tìm hiểu về kỹ thuật dữ liệu và tầm quan trọng của nó đối với các công ty dựa trên dữ liệu. Danh sách các công cụ tôi đã đề cập được sử dụng bởi các kỹ sư dữ liệu có kinh nghiệm cao, những người làm việc cho các công ty công nghệ hàng đầu. 

Nếu bạn chưa quen với kỹ thuật dữ liệu, hãy hoàn thành zoomcamp kỹ thuật dữ liệu để hiểu các công cụ, phương pháp hay nhất và lý thuyết. Zoomcamp sẽ giúp bạn hiểu cách các công cụ này hoạt động cùng nhau trong một dự án kỹ thuật dữ liệu điển hình.

Nguồn:  https://www.kdnuggets.com

#dataengineering 

What is GEEK

Buddha Community

10 Công Cụ Kỹ Thuật Dữ Liệu Hiện Đại Hàng Đầu
Hoang Tran

Hoang Tran

1661354280

10 Công Cụ Kỹ Thuật Dữ Liệu Hiện Đại Hàng Đầu

Tìm hiểu về các công cụ hiện đại để điều phối dữ liệu, lưu trữ dữ liệu, kỹ thuật phân tích, xử lý hàng loạt và truyền dữ liệu.

dbt

dbt

dbt cho phép các kỹ sư dữ liệu mô hình hóa và chuyển đổi dữ liệu trong kho bằng SQL. Nó chịu trách nhiệm về phần chuyển đổi của ETL .  

Bạn có thể phát triển các mô hình bằng cách sử dụng các lệnh SQL select, kiểm tra và lập tài liệu và triển khai bằng cách sử dụng môi trường dev an toàn. dbt thúc đẩy kiểm soát phiên bản hỗ trợ Git và cộng tác nhóm.

Airflow

Luồng không khí

Apache Airflow là một nền tảng cho phép các kỹ sư dữ liệu tạo, lên lịch và theo dõi quy trình làm việc. Quy trình công việc có thể là các đường ống dẫn dữ liệu phức tạp bao gồm các nhiệm vụ Đồ thị vòng được hướng dẫn (DAG). Luồng không khí sẽ đảm bảo mỗi công việc được thực hiện theo đúng thứ tự tại một thời điểm cụ thể và nhận được các tài nguyên cần thiết. Bạn cũng có thể theo dõi và khắc phục sự cố bằng giao diện người dùng đồ họa (GUI).

Snowflake

Bông tuyết

Snowflake là kho dữ liệu đám mây sẵn sàng cho doanh nghiệp. Nó cho phép các kỹ sư dữ liệu lưu trữ dữ liệu và thực hiện các tác vụ phân tích như ETL. Nó tự động tăng và giảm kích thước tài nguyên để tối ưu hóa chi phí mà không làm giảm hiệu suất. 

Snowflake bao gồm cơ sở hạ tầng được quản lý, khả năng mở rộng, phân cụm tự động và tích hợp với các ngôn ngữ lập trình nổi tiếng như Javascript, Python và R. Nó đi kèm với kiến ​​trúc ba lớp: lưu trữ cơ sở dữ liệu, xử lý truy vấn và các dịch vụ đám mây.

BigQuery

BigQuery

BigQuery là kho dữ liệu đám mây không máy chủ được thiết kế cho các tập dữ liệu lớn. Việc xây dựng các hồ dữ liệu trong BigQuery đã trở nên đơn giản, nhanh chóng và tiết kiệm chi phí. Việc tích hợp với Data studio cho phép các kỹ sư dữ liệu trực quan hóa các bảng dữ liệu đã xử lý một cách đơn giản và nhanh chóng. Nó đi kèm với BigQuery ML , phân tích không gian địa lý , công cụ BigQuery BIGoogle Trang tính được kết nối .

BigQuey cho phép bạn chạy các truy vấn phân tích SQL quy mô petabyte để có được thông tin chi tiết quan trọng về doanh nghiệp.

Metabase

Siêu dữ liệu

Metabase là một công cụ BI (Business Intelligence) mã nguồn mở cho phép nhóm của bạn đặt câu hỏi và học hỏi từ dữ liệu. Bạn có thể chạy các truy vấn SQL phức tạp, xây dựng trang tổng quan tương tác, tạo mô hình dữ liệu và thiết lập cảnh báo và đăng ký trang tổng quan. Nó cũng cho phép bạn phân tích dữ liệu trong kho dữ liệu. Metabase khá phổ biến trong giới phát triển với 29k sao trên GitHub.

Google Cloud Storage (GCS)

Google Cloud Storage (GCS)

Google Cloud Storage là bộ lưu trữ đối tượng an toàn và có thể mở rộng cho phép bạn lưu hình ảnh, tài liệu, bảng tính, âm thanh, video hoặc thậm chí cả trang web. Bạn có thể tận hưởng không gian lưu trữ không giới hạn và giá cả tùy thuộc vào mức sử dụng của bạn. Nó khá có lợi cho các công ty khởi nghiệp và doanh nghiệp vừa và nhỏ. Đối tượng là một tệp không thay đổi được lưu trữ trong một vùng chứa được gọi là thùng. Các nhóm được liên kết với các dự án và bạn có thể nhóm các dự án vào tổ chức.  

PostgreSQL

PostgreSQL

PostgreSQL là một cơ sở dữ liệu mã nguồn mở vừa đáng tin cậy vừa linh hoạt. Nó hỗ trợ cả cơ sở dữ liệu quan hệ và không quan hệ. PostgreSQL là cơ sở dữ liệu quan hệ hoàn thiện, ổn định và tuân thủ nhất. Nó đi kèm với tối ưu hóa hiệu suất và khả năng mở rộng, đồng thời, hỗ trợ nhiều ngôn ngữ lập trình, quản lý thảm họa và khôi phục.

Terraform

Terraform

Terraform của HashiCorp là một công cụ IaC (Cơ sở hạ tầng dưới dạng mã) nguồn mở cho phép bạn xác định tài nguyên đám mây và tài nguyên tại chỗ bằng cách sử dụng tệp cấu hình. Các tệp này có thể được tạo phiên bản, sử dụng lại và chia sẻ. Nó cho phép các kỹ sư dữ liệu mã hóa cơ sở hạ tầng và thực hiện các phương pháp DevOps tốt nhất như kiểm soát phiên bản, tích hợp liên tục và phát triển liên tục. 

Các kỹ sư dữ liệu có thể xác định tài nguyên trên nhiều nền tảng đám mây, tạo và giám sát các kế hoạch thực thi và cuối cùng, thực hiện các hoạt động theo đúng thứ tự.

Kafka

Kafka

Apache Kafka là một nền tảng phát trực tuyến sự kiện mã nguồn mở cho phép các kỹ sư dữ liệu tạo đường ống dữ liệu hiệu suất cao, phân tích phát trực tuyến và tích hợp dữ liệu. Hơn 80% tài sản 100 công ty sử dụng nó để xây dựng các ứng dụng và đường ống dẫn dữ liệu trực tuyến theo thời gian thực. Kafka cho phép các ứng dụng xuất bản và sử dụng một lượng lớn các luồng bản ghi một cách hiệu quả và lâu dài. Nó có thông lượng cao, độ trễ thấp và khả năng chịu lỗi.

Spark

Tia lửa

Apache Spark ™ là một công cụ xử lý dữ liệu đa ngôn ngữ mã nguồn mở dành cho các tập dữ liệu lớn. Nó cho phép bạn chạy các quy trình kỹ thuật dữ liệu, khoa học dữ liệu và học máy trên một nút hoặc cụm duy nhất. 

Các tính năng chính của Sparks:

  • Dữ liệu hàng loạt / phát trực tuyến bằng các ngôn ngữ lập trình ưa thích (Scala, Java, Python và R)
  • Phân tích SQL nhanh
  • Phân tích dữ liệu khám phá trên dữ liệu quy mô petabyte
  • Phát triển và triển khai các giải pháp học máy có thể mở rộng

Sự kết luận

Kỹ thuật dữ liệu là nghề phát triển nhanh nhất và được trả lương cao. Các công ty công nghệ hàng đầu ở Hoa Kỳ trả 177 nghìn USD + mỗi năm cho các kỹ sư dữ liệu đủ điều kiện - thực sự.com . Để phát triển trong lĩnh vực kỹ thuật dữ liệu, bạn phải học và làm chủ các công cụ theo yêu cầu. 

Tôi vẫn đang tìm hiểu về kỹ thuật dữ liệu và tầm quan trọng của nó đối với các công ty dựa trên dữ liệu. Danh sách các công cụ tôi đã đề cập được sử dụng bởi các kỹ sư dữ liệu có kinh nghiệm cao, những người làm việc cho các công ty công nghệ hàng đầu. 

Nếu bạn chưa quen với kỹ thuật dữ liệu, hãy hoàn thành zoomcamp kỹ thuật dữ liệu để hiểu các công cụ, phương pháp hay nhất và lý thuyết. Zoomcamp sẽ giúp bạn hiểu cách các công cụ này hoạt động cùng nhau trong một dự án kỹ thuật dữ liệu điển hình.

Nguồn:  https://www.kdnuggets.com

#dataengineering 

How to Create Arrays in Python

In this tutorial, you'll know the basics of how to create arrays in Python using the array module. Learn how to use Python arrays. You'll see how to define them and the different methods commonly used for performing operations on them.

This tutorialvideo on 'Arrays in Python' will help you establish a strong hold on all the fundamentals in python programming language. Below are the topics covered in this video:  
1:15 What is an array?
2:53 Is python list same as an array?
3:48  How to create arrays in python?
7:19 Accessing array elements
9:59 Basic array operations
        - 10:33  Finding the length of an array
        - 11:44  Adding Elements
        - 15:06  Removing elements
        - 18:32  Array concatenation
       - 20:59  Slicing
       - 23:26  Looping  


Python Array Tutorial – Define, Index, Methods

In this article, you'll learn how to use Python arrays. You'll see how to define them and the different methods commonly used for performing operations on them.

The artcile covers arrays that you create by importing the array module. We won't cover NumPy arrays here.

Table of Contents

  1. Introduction to Arrays
    1. The differences between Lists and Arrays
    2. When to use arrays
  2. How to use arrays
    1. Define arrays
    2. Find the length of arrays
    3. Array indexing
    4. Search through arrays
    5. Loop through arrays
    6. Slice an array
  3. Array methods for performing operations
    1. Change an existing value
    2. Add a new value
    3. Remove a value
  4. Conclusion

Let's get started!

What are Python Arrays?

Arrays are a fundamental data structure, and an important part of most programming languages. In Python, they are containers which are able to store more than one item at the same time.

Specifically, they are an ordered collection of elements with every value being of the same data type. That is the most important thing to remember about Python arrays - the fact that they can only hold a sequence of multiple items that are of the same type.

What's the Difference between Python Lists and Python Arrays?

Lists are one of the most common data structures in Python, and a core part of the language.

Lists and arrays behave similarly.

Just like arrays, lists are an ordered sequence of elements.

They are also mutable and not fixed in size, which means they can grow and shrink throughout the life of the program. Items can be added and removed, making them very flexible to work with.

However, lists and arrays are not the same thing.

Lists store items that are of various data types. This means that a list can contain integers, floating point numbers, strings, or any other Python data type, at the same time. That is not the case with arrays.

As mentioned in the section above, arrays store only items that are of the same single data type. There are arrays that contain only integers, or only floating point numbers, or only any other Python data type you want to use.

When to Use Python Arrays

Lists are built into the Python programming language, whereas arrays aren't. Arrays are not a built-in data structure, and therefore need to be imported via the array module in order to be used.

Arrays of the array module are a thin wrapper over C arrays, and are useful when you want to work with homogeneous data.

They are also more compact and take up less memory and space which makes them more size efficient compared to lists.

If you want to perform mathematical calculations, then you should use NumPy arrays by importing the NumPy package. Besides that, you should just use Python arrays when you really need to, as lists work in a similar way and are more flexible to work with.

How to Use Arrays in Python

In order to create Python arrays, you'll first have to import the array module which contains all the necassary functions.

There are three ways you can import the array module:

  • By using import array at the top of the file. This includes the module array. You would then go on to create an array using array.array().
import array

#how you would create an array
array.array()
  • Instead of having to type array.array() all the time, you could use import array as arr at the top of the file, instead of import array alone. You would then create an array by typing arr.array(). The arr acts as an alias name, with the array constructor then immediately following it.
import array as arr

#how you would create an array
arr.array()
  • Lastly, you could also use from array import *, with * importing all the functionalities available. You would then create an array by writing the array() constructor alone.
from array import *

#how you would create an array
array()

How to Define Arrays in Python

Once you've imported the array module, you can then go on to define a Python array.

The general syntax for creating an array looks like this:

variable_name = array(typecode,[elements])

Let's break it down:

  • variable_name would be the name of the array.
  • The typecode specifies what kind of elements would be stored in the array. Whether it would be an array of integers, an array of floats or an array of any other Python data type. Remember that all elements should be of the same data type.
  • Inside square brackets you mention the elements that would be stored in the array, with each element being separated by a comma. You can also create an empty array by just writing variable_name = array(typecode) alone, without any elements.

Below is a typecode table, with the different typecodes that can be used with the different data types when defining Python arrays:

TYPECODEC TYPEPYTHON TYPESIZE
'b'signed charint1
'B'unsigned charint1
'u'wchar_tUnicode character2
'h'signed shortint2
'H'unsigned shortint2
'i'signed intint2
'I'unsigned intint2
'l'signed longint4
'L'unsigned longint4
'q'signed long longint8
'Q'unsigned long longint8
'f'floatfloat4
'd'doublefloat8

Tying everything together, here is an example of how you would define an array in Python:

import array as arr 

numbers = arr.array('i',[10,20,30])


print(numbers)

#output

#array('i', [10, 20, 30])

Let's break it down:

  • First we included the array module, in this case with import array as arr .
  • Then, we created a numbers array.
  • We used arr.array() because of import array as arr .
  • Inside the array() constructor, we first included i, for signed integer. Signed integer means that the array can include positive and negative values. Unsigned integer, with H for example, would mean that no negative values are allowed.
  • Lastly, we included the values to be stored in the array in square brackets.

Keep in mind that if you tried to include values that were not of i typecode, meaning they were not integer values, you would get an error:

import array as arr 

numbers = arr.array('i',[10.0,20,30])


print(numbers)

#output

#Traceback (most recent call last):
# File "/Users/dionysialemonaki/python_articles/demo.py", line 14, in <module>
#   numbers = arr.array('i',[10.0,20,30])
#TypeError: 'float' object cannot be interpreted as an integer

In the example above, I tried to include a floating point number in the array. I got an error because this is meant to be an integer array only.

Another way to create an array is the following:

from array import *

#an array of floating point values
numbers = array('d',[10.0,20.0,30.0])

print(numbers)

#output

#array('d', [10.0, 20.0, 30.0])

The example above imported the array module via from array import * and created an array numbers of float data type. This means that it holds only floating point numbers, which is specified with the 'd' typecode.

How to Find the Length of an Array in Python

To find out the exact number of elements contained in an array, use the built-in len() method.

It will return the integer number that is equal to the total number of elements in the array you specify.

import array as arr 

numbers = arr.array('i',[10,20,30])


print(len(numbers))

#output
# 3

In the example above, the array contained three elements – 10, 20, 30 – so the length of numbers is 3.

Array Indexing and How to Access Individual Items in an Array in Python

Each item in an array has a specific address. Individual items are accessed by referencing their index number.

Indexing in Python, and in all programming languages and computing in general, starts at 0. It is important to remember that counting starts at 0 and not at 1.

To access an element, you first write the name of the array followed by square brackets. Inside the square brackets you include the item's index number.

The general syntax would look something like this:

array_name[index_value_of_item]

Here is how you would access each individual element in an array:

import array as arr 

numbers = arr.array('i',[10,20,30])

print(numbers[0]) # gets the 1st element
print(numbers[1]) # gets the 2nd element
print(numbers[2]) # gets the 3rd element

#output

#10
#20
#30

Remember that the index value of the last element of an array is always one less than the length of the array. Where n is the length of the array, n - 1 will be the index value of the last item.

Note that you can also access each individual element using negative indexing.

With negative indexing, the last element would have an index of -1, the second to last element would have an index of -2, and so on.

Here is how you would get each item in an array using that method:

import array as arr 

numbers = arr.array('i',[10,20,30])

print(numbers[-1]) #gets last item
print(numbers[-2]) #gets second to last item
print(numbers[-3]) #gets first item
 
#output

#30
#20
#10

How to Search Through an Array in Python

You can find out an element's index number by using the index() method.

You pass the value of the element being searched as the argument to the method, and the element's index number is returned.

import array as arr 

numbers = arr.array('i',[10,20,30])

#search for the index of the value 10
print(numbers.index(10))

#output

#0

If there is more than one element with the same value, the index of the first instance of the value will be returned:

import array as arr 


numbers = arr.array('i',[10,20,30,10,20,30])

#search for the index of the value 10
#will return the index number of the first instance of the value 10
print(numbers.index(10))

#output

#0

How to Loop through an Array in Python

You've seen how to access each individual element in an array and print it out on its own.

You've also seen how to print the array, using the print() method. That method gives the following result:

import array as arr 

numbers = arr.array('i',[10,20,30])

print(numbers)

#output

#array('i', [10, 20, 30])

What if you want to print each value one by one?

This is where a loop comes in handy. You can loop through the array and print out each value, one-by-one, with each loop iteration.

For this you can use a simple for loop:

import array as arr 

numbers = arr.array('i',[10,20,30])

for number in numbers:
    print(number)
    
#output
#10
#20
#30

You could also use the range() function, and pass the len() method as its parameter. This would give the same result as above:

import array as arr  

values = arr.array('i',[10,20,30])

#prints each individual value in the array
for value in range(len(values)):
    print(values[value])

#output

#10
#20
#30

How to Slice an Array in Python

To access a specific range of values inside the array, use the slicing operator, which is a colon :.

When using the slicing operator and you only include one value, the counting starts from 0 by default. It gets the first item, and goes up to but not including the index number you specify.

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#get the values 10 and 20 only
print(numbers[:2])  #first to second position

#output

#array('i', [10, 20])

When you pass two numbers as arguments, you specify a range of numbers. In this case, the counting starts at the position of the first number in the range, and up to but not including the second one:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])


#get the values 20 and 30 only
print(numbers[1:3]) #second to third position

#output

#rray('i', [20, 30])

Methods For Performing Operations on Arrays in Python

Arrays are mutable, which means they are changeable. You can change the value of the different items, add new ones, or remove any you don't want in your program anymore.

Let's see some of the most commonly used methods which are used for performing operations on arrays.

How to Change the Value of an Item in an Array

You can change the value of a specific element by speficying its position and assigning it a new value:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#change the first element
#change it from having a value of 10 to having a value of 40
numbers[0] = 40

print(numbers)

#output

#array('i', [40, 20, 30])

How to Add a New Value to an Array

To add one single value at the end of an array, use the append() method:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#add the integer 40 to the end of numbers
numbers.append(40)

print(numbers)

#output

#array('i', [10, 20, 30, 40])

Be aware that the new item you add needs to be the same data type as the rest of the items in the array.

Look what happens when I try to add a float to an array of integers:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#add the integer 40 to the end of numbers
numbers.append(40.0)

print(numbers)

#output

#Traceback (most recent call last):
#  File "/Users/dionysialemonaki/python_articles/demo.py", line 19, in <module>
#   numbers.append(40.0)
#TypeError: 'float' object cannot be interpreted as an integer

But what if you want to add more than one value to the end an array?

Use the extend() method, which takes an iterable (such as a list of items) as an argument. Again, make sure that the new items are all the same data type.

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#add the integers 40,50,60 to the end of numbers
#The numbers need to be enclosed in square brackets

numbers.extend([40,50,60])

print(numbers)

#output

#array('i', [10, 20, 30, 40, 50, 60])

And what if you don't want to add an item to the end of an array? Use the insert() method, to add an item at a specific position.

The insert() function takes two arguments: the index number of the position the new element will be inserted, and the value of the new element.

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#add the integer 40 in the first position
#remember indexing starts at 0

numbers.insert(0,40)

print(numbers)

#output

#array('i', [40, 10, 20, 30])

How to Remove a Value from an Array

To remove an element from an array, use the remove() method and include the value as an argument to the method.

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

numbers.remove(10)

print(numbers)

#output

#array('i', [20, 30])

With remove(), only the first instance of the value you pass as an argument will be removed.

See what happens when there are more than one identical values:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30,10,20])

numbers.remove(10)

print(numbers)

#output

#array('i', [20, 30, 10, 20])

Only the first occurence of 10 is removed.

You can also use the pop() method, and specify the position of the element to be removed:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30,10,20])

#remove the first instance of 10
numbers.pop(0)

print(numbers)

#output

#array('i', [20, 30, 10, 20])

Conclusion

And there you have it - you now know the basics of how to create arrays in Python using the array module. Hopefully you found this guide helpful.

Thanks for reading and happy coding!

#python #programming 

Connor Mills

Connor Mills

1670560264

Understanding Arrays in Python

Learn how to use Python arrays. Create arrays in Python using the array module. You'll see how to define them and the different methods commonly used for performing operations on them.
 

The artcile covers arrays that you create by importing the array module. We won't cover NumPy arrays here.

Table of Contents

  1. Introduction to Arrays
    1. The differences between Lists and Arrays
    2. When to use arrays
  2. How to use arrays
    1. Define arrays
    2. Find the length of arrays
    3. Array indexing
    4. Search through arrays
    5. Loop through arrays
    6. Slice an array
  3. Array methods for performing operations
    1. Change an existing value
    2. Add a new value
    3. Remove a value
  4. Conclusion

Let's get started!


What are Python Arrays?

Arrays are a fundamental data structure, and an important part of most programming languages. In Python, they are containers which are able to store more than one item at the same time.

Specifically, they are an ordered collection of elements with every value being of the same data type. That is the most important thing to remember about Python arrays - the fact that they can only hold a sequence of multiple items that are of the same type.

What's the Difference between Python Lists and Python Arrays?

Lists are one of the most common data structures in Python, and a core part of the language.

Lists and arrays behave similarly.

Just like arrays, lists are an ordered sequence of elements.

They are also mutable and not fixed in size, which means they can grow and shrink throughout the life of the program. Items can be added and removed, making them very flexible to work with.

However, lists and arrays are not the same thing.

Lists store items that are of various data types. This means that a list can contain integers, floating point numbers, strings, or any other Python data type, at the same time. That is not the case with arrays.

As mentioned in the section above, arrays store only items that are of the same single data type. There are arrays that contain only integers, or only floating point numbers, or only any other Python data type you want to use.

When to Use Python Arrays

Lists are built into the Python programming language, whereas arrays aren't. Arrays are not a built-in data structure, and therefore need to be imported via the array module in order to be used.

Arrays of the array module are a thin wrapper over C arrays, and are useful when you want to work with homogeneous data.

They are also more compact and take up less memory and space which makes them more size efficient compared to lists.

If you want to perform mathematical calculations, then you should use NumPy arrays by importing the NumPy package. Besides that, you should just use Python arrays when you really need to, as lists work in a similar way and are more flexible to work with.

How to Use Arrays in Python

In order to create Python arrays, you'll first have to import the array module which contains all the necassary functions.

There are three ways you can import the array module:

  1. By using import array at the top of the file. This includes the module array. You would then go on to create an array using array.array().
import array

#how you would create an array
array.array()
  1. Instead of having to type array.array() all the time, you could use import array as arr at the top of the file, instead of import array alone. You would then create an array by typing arr.array(). The arr acts as an alias name, with the array constructor then immediately following it.
import array as arr

#how you would create an array
arr.array()
  1. Lastly, you could also use from array import *, with * importing all the functionalities available. You would then create an array by writing the array() constructor alone.
from array import *

#how you would create an array
array()

How to Define Arrays in Python

Once you've imported the array module, you can then go on to define a Python array.

The general syntax for creating an array looks like this:

variable_name = array(typecode,[elements])

Let's break it down:

  • variable_name would be the name of the array.
  • The typecode specifies what kind of elements would be stored in the array. Whether it would be an array of integers, an array of floats or an array of any other Python data type. Remember that all elements should be of the same data type.
  • Inside square brackets you mention the elements that would be stored in the array, with each element being separated by a comma. You can also create an empty array by just writing variable_name = array(typecode) alone, without any elements.

Below is a typecode table, with the different typecodes that can be used with the different data types when defining Python arrays:

TYPECODEC TYPEPYTHON TYPESIZE
'b'signed charint1
'B'unsigned charint1
'u'wchar_tUnicode character2
'h'signed shortint2
'H'unsigned shortint2
'i'signed intint2
'I'unsigned intint2
'l'signed longint4
'L'unsigned longint4
'q'signed long longint8
'Q'unsigned long longint8
'f'floatfloat4
'd'doublefloat8

Tying everything together, here is an example of how you would define an array in Python:

import array as arr 

numbers = arr.array('i',[10,20,30])


print(numbers)

#output

#array('i', [10, 20, 30])

Let's break it down:

  • First we included the array module, in this case with import array as arr .
  • Then, we created a numbers array.
  • We used arr.array() because of import array as arr .
  • Inside the array() constructor, we first included i, for signed integer. Signed integer means that the array can include positive and negative values. Unsigned integer, with H for example, would mean that no negative values are allowed.
  • Lastly, we included the values to be stored in the array in square brackets.

Keep in mind that if you tried to include values that were not of i typecode, meaning they were not integer values, you would get an error:

import array as arr 

numbers = arr.array('i',[10.0,20,30])


print(numbers)

#output

#Traceback (most recent call last):
# File "/Users/dionysialemonaki/python_articles/demo.py", line 14, in <module>
#   numbers = arr.array('i',[10.0,20,30])
#TypeError: 'float' object cannot be interpreted as an integer

In the example above, I tried to include a floating point number in the array. I got an error because this is meant to be an integer array only.

Another way to create an array is the following:

from array import *

#an array of floating point values
numbers = array('d',[10.0,20.0,30.0])

print(numbers)

#output

#array('d', [10.0, 20.0, 30.0])

The example above imported the array module via from array import * and created an array numbers of float data type. This means that it holds only floating point numbers, which is specified with the 'd' typecode.

How to Find the Length of an Array in Python

To find out the exact number of elements contained in an array, use the built-in len() method.

It will return the integer number that is equal to the total number of elements in the array you specify.

import array as arr 

numbers = arr.array('i',[10,20,30])


print(len(numbers))

#output
# 3

In the example above, the array contained three elements – 10, 20, 30 – so the length of numbers is 3.

Array Indexing and How to Access Individual Items in an Array in Python

Each item in an array has a specific address. Individual items are accessed by referencing their index number.

Indexing in Python, and in all programming languages and computing in general, starts at 0. It is important to remember that counting starts at 0 and not at 1.

To access an element, you first write the name of the array followed by square brackets. Inside the square brackets you include the item's index number.

The general syntax would look something like this:

array_name[index_value_of_item]

Here is how you would access each individual element in an array:

import array as arr 

numbers = arr.array('i',[10,20,30])

print(numbers[0]) # gets the 1st element
print(numbers[1]) # gets the 2nd element
print(numbers[2]) # gets the 3rd element

#output

#10
#20
#30

Remember that the index value of the last element of an array is always one less than the length of the array. Where n is the length of the array, n - 1 will be the index value of the last item.

Note that you can also access each individual element using negative indexing.

With negative indexing, the last element would have an index of -1, the second to last element would have an index of -2, and so on.

Here is how you would get each item in an array using that method:

import array as arr 

numbers = arr.array('i',[10,20,30])

print(numbers[-1]) #gets last item
print(numbers[-2]) #gets second to last item
print(numbers[-3]) #gets first item
 
#output

#30
#20
#10

How to Search Through an Array in Python

You can find out an element's index number by using the index() method.

You pass the value of the element being searched as the argument to the method, and the element's index number is returned.

import array as arr 

numbers = arr.array('i',[10,20,30])

#search for the index of the value 10
print(numbers.index(10))

#output

#0

If there is more than one element with the same value, the index of the first instance of the value will be returned:

import array as arr 


numbers = arr.array('i',[10,20,30,10,20,30])

#search for the index of the value 10
#will return the index number of the first instance of the value 10
print(numbers.index(10))

#output

#0

How to Loop through an Array in Python

You've seen how to access each individual element in an array and print it out on its own.

You've also seen how to print the array, using the print() method. That method gives the following result:

import array as arr 

numbers = arr.array('i',[10,20,30])

print(numbers)

#output

#array('i', [10, 20, 30])

What if you want to print each value one by one?

This is where a loop comes in handy. You can loop through the array and print out each value, one-by-one, with each loop iteration.

For this you can use a simple for loop:

import array as arr 

numbers = arr.array('i',[10,20,30])

for number in numbers:
    print(number)
    
#output
#10
#20
#30

You could also use the range() function, and pass the len() method as its parameter. This would give the same result as above:

import array as arr  

values = arr.array('i',[10,20,30])

#prints each individual value in the array
for value in range(len(values)):
    print(values[value])

#output

#10
#20
#30

How to Slice an Array in Python

To access a specific range of values inside the array, use the slicing operator, which is a colon :.

When using the slicing operator and you only include one value, the counting starts from 0 by default. It gets the first item, and goes up to but not including the index number you specify.


import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#get the values 10 and 20 only
print(numbers[:2])  #first to second position

#output

#array('i', [10, 20])

When you pass two numbers as arguments, you specify a range of numbers. In this case, the counting starts at the position of the first number in the range, and up to but not including the second one:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])


#get the values 20 and 30 only
print(numbers[1:3]) #second to third position

#output

#rray('i', [20, 30])

Methods For Performing Operations on Arrays in Python

Arrays are mutable, which means they are changeable. You can change the value of the different items, add new ones, or remove any you don't want in your program anymore.

Let's see some of the most commonly used methods which are used for performing operations on arrays.

How to Change the Value of an Item in an Array

You can change the value of a specific element by speficying its position and assigning it a new value:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#change the first element
#change it from having a value of 10 to having a value of 40
numbers[0] = 40

print(numbers)

#output

#array('i', [40, 20, 30])

How to Add a New Value to an Array

To add one single value at the end of an array, use the append() method:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#add the integer 40 to the end of numbers
numbers.append(40)

print(numbers)

#output

#array('i', [10, 20, 30, 40])

Be aware that the new item you add needs to be the same data type as the rest of the items in the array.

Look what happens when I try to add a float to an array of integers:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#add the integer 40 to the end of numbers
numbers.append(40.0)

print(numbers)

#output

#Traceback (most recent call last):
#  File "/Users/dionysialemonaki/python_articles/demo.py", line 19, in <module>
#   numbers.append(40.0)
#TypeError: 'float' object cannot be interpreted as an integer

But what if you want to add more than one value to the end an array?

Use the extend() method, which takes an iterable (such as a list of items) as an argument. Again, make sure that the new items are all the same data type.

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#add the integers 40,50,60 to the end of numbers
#The numbers need to be enclosed in square brackets

numbers.extend([40,50,60])

print(numbers)

#output

#array('i', [10, 20, 30, 40, 50, 60])

And what if you don't want to add an item to the end of an array? Use the insert() method, to add an item at a specific position.

The insert() function takes two arguments: the index number of the position the new element will be inserted, and the value of the new element.

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

#add the integer 40 in the first position
#remember indexing starts at 0

numbers.insert(0,40)

print(numbers)

#output

#array('i', [40, 10, 20, 30])

How to Remove a Value from an Array

To remove an element from an array, use the remove() method and include the value as an argument to the method.

import array as arr 

#original array
numbers = arr.array('i',[10,20,30])

numbers.remove(10)

print(numbers)

#output

#array('i', [20, 30])

With remove(), only the first instance of the value you pass as an argument will be removed.

See what happens when there are more than one identical values:


import array as arr 

#original array
numbers = arr.array('i',[10,20,30,10,20])

numbers.remove(10)

print(numbers)

#output

#array('i', [20, 30, 10, 20])

Only the first occurence of 10 is removed.

You can also use the pop() method, and specify the position of the element to be removed:

import array as arr 

#original array
numbers = arr.array('i',[10,20,30,10,20])

#remove the first instance of 10
numbers.pop(0)

print(numbers)

#output

#array('i', [20, 30, 10, 20])

Conclusion

And there you have it - you now know the basics of how to create arrays in Python using the array module. Hopefully you found this guide helpful.

You'll start from the basics and learn in an interacitve and beginner-friendly way. You'll also build five projects at the end to put into practice and help reinforce what you learned.

Thanks for reading and happy coding!

Original article source at https://www.freecodecamp.org

#python 

Awesome  Rust

Awesome Rust

1658878980

Git Branchless: Branchless Workflow for Git Built on Rust

Branchless workflow for Git

(This suite of tools is 100% compatible with branches. If you think this is confusing, you can suggest a new name here.)

About

git-branchless is a suite of tools which enhances Git in several ways:

It makes Git easier to use, both for novices and for power users. Examples:

It adds more flexibility for power users. Examples:

  • Patch-stack workflows: strong support for "patch-stack" workflows as used by the Linux and Git projects, as well as at many large tech companies. (This is how Git was "meant" to be used.)
  • Prototyping and experimenting workflows: strong support for prototyping and experimental work via "divergent" development.
  • git sync: to rebase all local commit stacks and branches without having to check them out first.
  • git move: The ability to move subtrees rather than "sticks" while cleaning up old branches, not touching the working copy, etc.
  • Anonymous branching: reduces the overhead of branching for experimental work.
  • In-memory operations: to modify the commit graph without having to check out the commits in question.
  • git next/prev: to quickly jump between commits and branches in a commit stack.
  • git co -i/--interactive: to interactively select a commit to check out.

It provides faster operations for large repositories and monorepos, particularly at large tech companies. Examples:

  • See the blog post Lightning-fast rebases with git-move.
  • Performance tested: benchmarked on torvalds/linux (1M+ commits) and mozilla/gecko-dev (700k+ commits).
  • Operates in-memory: avoids touching the working copy by default (which can slow down git status or invalidate build artifacts).
  • Sparse indexes: uses a custom implementation of sparse indexes for fast commit and merge operations.
  • Segmented changelog DAG: for efficient queries on the commit graph, such as merge-base calculation in O(log n) instead of O(n).
  • Ahead-of-time compiled: written in an ahead-of-time compiled language with good runtime performance (Rust).
  • Multithreading: distributes work across multiple CPU cores where appropriate.
  • To my knowledge, git-branchless provides the fastest implementation of rebase among Git tools and UIs, for the above reasons.

See also the User guide and Design goals.

Demos

Repair

Undo almost anything:

  • Commits.
  • Amended commits.
  • Merges and rebases (e.g. if you resolved a conflict wrongly).
  • Checkouts.
  • Branch creations, updates, and deletions.

Why not git reflog?

git reflog is a tool to view the previous position of a single reference (like HEAD), which can be used to undo operations. But since it only tracks the position of a single reference, complicated operations like rebases can be tedious to reverse-engineer. git undo operates at a higher level of abstraction: the entire state of your repository.

git reflog also fundamentally can't be used to undo some rare operations, such as certain branch creations, updates, and deletions. See the architecture document for more details.

What doesn't git undo handle?

git undo relies on features in recent versions of Git to work properly. See the compatibility chart.

Currently, git undo can't undo the following. You can find the design document to handle some of these cases in issue #10.

  • "Uncommitting" a commit by undoing the commit and restoring its changes to the working copy.
    • In stock Git, this can be accomplished with git reset HEAD^.
    • This scenario would be better implemented with a custom git uncommit command instead. See issue #3.
  • Undoing the staging or unstaging of files. This is tracked by issue #10 above.
  • Undoing back into the middle of a conflict, such that git status shows a message like path/to/file (both modified), so that you can resolve that specific conflict differently. This is tracked by issue #10 above.

Fundamentally, git undo is not intended to handle changes to untracked files.

Comparison to other Git undo tools

  • gitjk: Requires a shell alias. Only undoes most recent command. Only handles some Git operations (e.g. doesn't handle rebases).
  • git-extras/git-undo: Only undoes commits at current HEAD.
  • git-annex undo: Only undoes the most recent change to a given file or directory.
  • thefuck: Only undoes historical shell commands. Only handles some Git operations (e.g. doesn't handle rebases).

Visualize

Visualize your commit history with the smartlog (git sl):

Why not `git log --graph`?

git log --graph only shows commits which have branches attached with them. If you prefer to work without branches, then git log --graph won't work for you.

To support users who rewrite their commit graph extensively, git sl also points out commits which have been abandoned and need to be repaired (descendants of commits marked with rewritten as abcd1234). They can be automatically fixed up with git restack, or manually handled.

Manipulate

Edit your commit graph without fear:

Why not `git rebase -i`?

Interactive rebasing with git rebase -i is fully supported, but it has a couple of shortcomings:

  • git rebase -i can only repair linear series of commits, not trees. If you modify a commit with multiple children, then you have to be sure to rebase all of the other children commits appropriately.
  • You have to commit to a plan of action before starting the rebase. For some use-cases, it can be easier to operate on individual commits at a time, rather than an entire series of commits all at once.

When you use git rebase -i with git-branchless, you will be prompted to repair your commit graph if you abandon any commits.

Installation

See https://github.com/arxanas/git-branchless/wiki/Installation.

Short version: run cargo install --locked git-branchless, then run git branchless init in your repository.

Status

git-branchless is currently in alpha. Be prepared for breaking changes, as some of the workflows and architecture may change in the future. It's believed that there are no major bugs, but it has not yet been comprehensively battle-tested. You can see the known issues in the issue tracker.

git-branchless follows semantic versioning. New 0.x.y versions, and new major versions after reaching 1.0.0, may change the on-disk format in a backward-incompatible way.

To be notified about new versions, select Watch » Custom » Releases in Github's notifications menu at the top of the page. Or use GitPunch to deliver notifications by email.

Related tools

There's a lot of promising tooling developing in this space. See Related tools for more information.

Contributing

Thanks for your interest in contributing! If you'd like, I'm happy to set up a call to help you onboard.

For code contributions, check out the Runbook to understand how to set up a development workflow, and the Coding guidelines. You may also want to read the Architecture documentation.

For contributing documentation, see the Wiki style guide.

Contributors should abide by the Code of Conduct.

Download details:
Author: arxanas
Source code: https://github.com/arxanas/git-branchless
License: GPL-2.0 license

#rust #rustlang #git

Mery tris

Mery tris

1624388400

10 COINS TO $10 MILLION! Top coins to GET RICH in April 2021. DO NOT MISS!!!

0:00 Intro
0:15 Patreon
0:43 Coin #10
2:03 Coin #9
3:33 Coin #8
5:20 Coin #7
6:14 Coin #6
7:49 Coin #5
9:19 Coin #4
11:22 Coin #3
12:19 Coin #2
14:51 Coin #1
16:17 Join The Patreon!

📺 The video in this post was made by K Crypto
The origin of the article: https://www.youtube.com/watch?v=u0Cm8KqjDU4
🔺 DISCLAIMER: The article is for information sharing. The content of this video is solely the opinions of the speaker who is not a licensed financial advisor or registered investment advisor. Not investment advice or legal advice.
Cryptocurrency trading is VERY risky. Make sure you understand these risks and that you are responsible for what you do with your money
🔥 If you’re a beginner. I believe the article below will be useful to you ☞ What You Should Know Before Investing in Cryptocurrency - For Beginner
⭐ ⭐ ⭐The project is of interest to the community. Join to Get free ‘GEEK coin’ (GEEKCASH coin)!
☞ **-----CLICK HERE-----**⭐ ⭐ ⭐
Thanks for visiting and watching! Please don’t forget to leave a like, comment and share!

#bitcoin #blockchain #10 coins to $10 million #top coins #rich #10 coins to $10 million! top coins to get rich in april 2021